JP2014203207A

JP2014203207A - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: JP2014203207A
Application number: JP2013077866A
Authority: JP
Inventors: 淳己大村; Junki Omura; 道成河野; Michinari Kono; 憲一岡田; Kenichi Okada
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2014-10-27
Also published as: US20140304605A1; US9720644B2

Abstract

【課題】話者に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な、情報処理装置を提供する。【解決手段】話者による発話内容の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、を備える、情報処理装置が提供される。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

話者が発話した内容を解析し、その内容をテキストに変換する音声認識技術が開示されている（例えば特許文献１参照）。特許文献１には、入力される音声を逐次テキスト化して表示する際に、利用者によって読みやすく理解しやすい字幕を生成できる技術が開示されている。また、話者が発話した内容を解析し、その内容に基づいた処理を実行することが出来る技術も考案され、その技術は携帯電話やスマートフォン等に組み込まれている。

特開２０１２−１８１３５８号公報

既存の音声認識技術は、話者が発話した内容の解析が終わってから、その内容を画面に提示したり、その内容による検索処理を実行したり、その内容に基づいた処理を実行したりしていた。しかし、既存の音声認識技術では、話者が発話した内容の解析が終わるまで内容が画面に表示されなかったり、処理が実行されなかったりするので、話者は、発話が終わってから少し待たされる感覚を覚えてしまう。

そこで本開示は、話者に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供する。

本開示によれば、話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、を備える、情報処理装置が提供される。

また本開示によれば、音声情報を逐次取得する音声情報取得部と、前記音声情報取得部が逐次取得した前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析部と、を備え、前記発話内容解析部は、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理装置が提供される。

また本開示によれば、話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、を備える、情報処理方法が提供される。

また本開示によれば、音声情報を逐次取得する音声情報取得ステップと、前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、を備え、前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理方法が提供される。

また本開示によれば、コンピュータに、話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、を実行させる、コンピュータプログラムが提供される。

また本開示によれば、コンピュータに、音声情報を逐次取得する音声情報取得ステップと、前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、を実行させ、前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、コンピュータプログラムが提供される。

以上説明したように本開示によれば、話者に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することができる。

本開示の一実施形態に係る情報処理装置１０の概要を示す説明図である。第１の実施形態に係る画面構成の一例を示した図である。第１の実施形態に係る表示装置の構成の一例を示した図である。第１の実施形態の実施例１に係る画面の一態様を示した図である。第１の実施形態の実施例１に係る画面の表示態様の一例を示した図である。第１の実施形態の実施例１に係る画面の表示態様の一例を示した図である。第１の実施形態の実施例１に係る画面の表示態様の一例を示した図である。第１の実施形態の実施例１に係る画面の表示態様の一例を示した図である。第１の実施形態に係る情報処理装置における情報の表示に係る動作の一例を示したフローチャートである。第１の実施形態の実施例１に係る情報処理装置の表示制御の一態様を示したフローチャートである。第１の実施形態の実施例２に係る画面の一態様を示した図である。第１の実施形態の実施例２に係る画面の一態様を示した図である。第１の実施形態の実施例２に係る画面の一例を示した図である。第１の実施形態の実施例２に係る情報処理装置の表示制御の一態様を示したフローチャートである。第１の実施形態の実施例３に係る表示の一態様を示した図である。第１の実施形態の実施例３に係る表示の一態様を示した図である。第１の実施形態の実施例３に係る表示の一態様を示した図である。第１の実施形態の実施例３に係る表示の一態様を示した図である。第１の実施形態の実施例３に係る表示の一態様を示した図である。第１の実施形態の実施例３に係る表示の一態様を示した図である。第１の実施形態の実施例３に係る情報処理装置の表示制御の一態様を示したフローチャートである。本開示の一実施形態に係る情報処理装置１０の機能構成例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作例を示すフローチャートである。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第２の実施形態に係る情報処理装置１０の変形例を示す説明図である。第２の実施形態の変形例に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。第３の実施形態に係る画面構成の一例を示した図である。第３の実施形態に係る表示装置の構成の一例を示した図である。第３の実施形態の実施例１に係る表示の一態様を示した図である。第３の実施形態の実施例１に係る表示の一態様を示した図である。第３の実施形態の実施例１に係る情報処理装置の情報の表示に係る動作の一例を示したフローチャートである。第３の実施形態の実施例１に係る情報処理装置の履歴情報の表示処理の一態様を示したフローチャートである。第３の実施形態の実施例２に係る表示の一態様を示した図である。第３の実施形態の実施例２に係る情報処理装置の情報の表示に係る動作の一例を示したフローチャートである。第３の実施形態の実施例２に係る情報処理装置の所定語句に基づく処理の一態様を示したフローチャートである。第３の実施形態の実施例３に係る音声バーの一態様を示した図である。第３の実施形態の実施例３に係る音声バーの一態様を示した図である。第３の実施形態の実施例３に係る情報処理装置の情報の表示に係る動作の一例を示したフローチャートである。第３の実施形態の実施例４に係る表示の一態様を示した図である。第３の実施形態の実施例５に係る表示の一態様を示した図である。第３の実施形態の実施例５に係る情報処理装置の履歴情報の表示処理の一態様を示したフローチャートである。第３の実施形態の実施例６に係る表示の一態様を示した図である。第３の実施形態の実施例６に係る情報処理装置の所定語句に基づく処理の一態様を示したフローチャートである。第３の実施形態の実施例７に係る表示の一態様を示した図である。第３の実施形態の実施例８に係る表示の一態様を示した図である。ハードウェア構成例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
＜１．第１の実施形態＞
［１−１．第１の実施形態の概要］
［１−２．第１の実施形態の構成］
［１−３．表示装置の構成］
［１−４．第１の実施形態の実施例１］
｛１−４−１．実施例１の概要｝
｛１−４−２．実施例１の動作｝
［１−５．第１の実施形態の実施例２］
｛１−５−１．実施例２の概要｝
｛１−５−２．実施例２の動作｝
［１−６．第１の実施形態の実施例３］
｛１−６−１．実施例３の概要｝
｛１−６−２．実施例３の動作｝
［１−７．第１の実施形態のまとめ］
＜２．第２の実施形態＞
［２−１．第２の実施形態の概要］
［２−２．第２の実施形態の構成］
［２−３．第２の実施形態の動作］
［２−４．第２の実施形態で表示される画面の例］
［２−５．第２の実施形態の変形例］
［２−６．第２の実施形態のまとめ］
＜３．第３の実施形態＞
［３−１．第３の実施形態の概要］
［３−２．第３の実施形態の構成］
［３−３．表示装置の構成］
［３−４．第３の実施形態の実施例１］
｛３−４−１．実施例１の概要｝
｛３−４−２．実施例１の動作｝
［３−５．第３の実施形態の実施例２］
｛３−５−１．実施例２の概要｝
｛３−５−２．実施例２の動作｝
［３−６．第３の実施形態の実施例３］
｛３−６−１．実施例３の概要｝
｛３−６−２．実施例３の動作｝
［３−７．第３の実施形態の実施例４］
［３−８．第３の実施形態の実施例５］
｛３−８−１．実施例５の概要｝
｛３−８−２．実施例５の動作｝
［３−９．第３の実施形態の実施例６］
｛３−９−１．実施例６の概要｝
｛３−９−２．実施例６の動作｝
［３−１０．第３の実施形態の実施例７］
［３−１１．第３の実施形態の実施例８］
｛３−１１−１．実施例８の概要｝
｛３−１１−２．実施例８の動作｝
［３−１２．第３の実施形態のまとめ］
＜４．ハードウェア構成例＞

＜１．第１の実施形態＞
［１−１．第１の実施形態の概要］
まず、第１の実施形態に係る情報処理装置の概要について説明する。近年では、マウスやタッチパネルのような入力デバイスを使用せずとも、音声認識により所望の処理を実行可能なユーザインタフェース（Ｕ／Ｉ）が実用化されている。一方で、音声による入力は、マウスやタッチパネルのような入力デバイスに比べて、入力できる情報の自由度が高い。そのため、音声入力を用いたＵ／Ｉでは、表示された画面に対して、いつ、どこが、なんと言えば反応するかがわかりにくいという課題が存在する。特に、近年では、ＣＰＵやＧＰＵの処理能力が向上し、表示デバイスの解像度も向上してきている。そのため、画面上に多くの情報を同時に表示することが可能となってきており、画面が煩雑化し、上記した課題がさらに冗長されている。

そこで、第１の実施形態に係る情報処理装置では、画面上に表示されたアイコン、ボタン、リンク、メニューのような表示情報のうち、音声認識により操作が可能な（即ち、音声認識に対応した）表示情報を、直感的に識別可能に表示させる情報処理装置を提供する。本実施形態に係る情報処理装置について以下に具体的に説明する。

［１−２．第１の実施形態の構成］
まず、図１を参照しながら、第１の実施形態に係る情報処理装置１０の構成について説明する。図１に示すように、本実施形態に係る情報処理装置１０は、表示装置１００と、集音装置１１０と含む。

集音装置１１０は、ユーザ１が発話した音声信号を集音する装置である。集音装置１１０の具体的な構成の一例としてマイクが挙げられる。集音装置１１０で集音されたユーザ１の音声信号は、表示装置１００に入力される。

表示装置１００は、表示部１０２を備え、操作画面や所望の処理の実行結果を表示部１０２に出力する装置である。情報処理装置１０が起動されると、表示装置１００は、例えば、所定の操作画面を生成して表示部１０２に表示させうる。

表示装置１００により生成された画面上には各種表示情報が表示される。ここで、表示情報とは、メニュー画面の表示や終了等の所定の処理を実行したり、各種コンテンツを起動したりするためのアイコン、ボタン、リンク、及びメニューのような操作対象や、各種情報を表示するための表示領域等が含まれる。これらの表示情報には、音声認識に対応している表示情報と、音声認識に対応していない表示情報とが含まれる。

例えば、図２は、第１の実施形態に係る画面構成の一例を示した説明図である。画面ｖ３０は、表示装置１００の表示部１０２に表示された画面である。図２に示すように、画面ｖ３０は、各コンテンツに対応するアイコンｖ３１１を表示する表示領域ｖ３１０と、所望のコンテンツの情報を表示する表示領域ｖ３２０とを含む。画面ｖ３０の例では、アイコンｖ３１１が音声認識に対応しており、表示領域ｖ３２０は音声認識に対応していないものとする。ユーザ１は、画面ｖ３０を見ただけでは、どこが音声認識に対応し、どこが対応しているかが分かりづらい。また、どこが音声認識に対応しているかを示す情報を追加すると、画面が煩雑になる可能性がある。

そこで、表示装置１００は、集音装置１１０で集音された音声信号を検知すると、画面中に表示された表示情報のうち、音声認識に対応している表示情報を、音声認識に対応していない表示情報と識別可能に表示させる。図２に示す画面ｖ３０の場合には、例えば、表示装置１００は、音声信号が検知されたときに、音声認識に対応しているアイコンｖ３１１をアニメーション表示させる。これにより、アイコンｖ３１１が強調表示され、音声認識に対応していない表示領域ｖ３２０と識別可能となる。以降では、これらの動作の詳細について、表示装置１００の構成とあわせて説明する。

［１−３．表示装置の構成］
図３を参照しながら、第１の実施形態に係る表示装置１００の構成に着目して説明する。図３は、第１の実施形態に係る表示装置１００の構成の一例を示した図である。図３に示すように、本実施形態に係る表示装置１００は、表示部１０２と、信号取得部３１０と、表示制御ユニット３２０と、解析部３３０と、辞書データ保持部３４０と、履歴記憶部３５０と、コンテンツＤＢ３６０と、コンテンツ特定部３６１とを含む。

（信号取得部３１０）
信号取得部３１０は、集音装置１１０で集音された音声信号を検知及び取得を行う。集音装置１１０で音声信号が集音されると、集音された音声信号が集音装置１１０から出力される。信号取得部３１０は、集音装置１１０から出力された音声信号を検知し取得する。音声信号を検知すると、信号取得部３１０は、検知結果を後述する表示制御ユニット３２０の表示制御部３２１に通知する。なお、信号取得部３１０は、本開示の「検知部」の一例に相当する。

また、信号取得部３１０は、取得された音声信号を解析部３３０に出力する。この信号取得部３１０からの出力を受けて、解析部３３０は、信号取得部３１０から取得した音声信号を解析する。解析部３３０の詳細については後述する。

（解析部３３０）
解析部３３０は、信号取得部３１０で取得された音声信号を解析する。音声認識に係る処理は、この解析部３３０により実行される。図３に示すように、解析部３３０は、音声情報取得部３３１と、発話内容解析部３３２と、レベル解析部３３３とを含む。解析部３３０は、信号取得部３１０から音声信号を取得する。解析部３３０は、取得した音声信号を、音声情報取得部３３１、発話内容解析部３３２、及びレベル解析部３３３に解析させる。なお、音声情報取得部３３１、発話内容解析部３３２、及びレベル解析部３３３による解析処理の詳細についてはそれぞれ後述する。解析部３３０は、音声信号の解析結果を解析結果取得部３２２に出力する。

音声情報取得部３３１は、音声信号に対して音声認識処理を施して、発話内容を示すテキストデータ（以降では、「音声情報」と呼ぶ場合がある）を生成する。音声認識処理の一例として、音声信号を解析することで音響特徴を特定し、特定された音響特徴を、あらかじめ記憶された音響モデル（ａｃｏｕｓｔｉｃ
ｍｏｄｅｌ）や言語モデル（ｌａｎｇｕａｇｅｍｏｄｅｌ）等の各種モデルや、発音辞書（ｐｒｏｎｕｎｃｉａｔｉｏｎｄｉｃｔｉｏｎａｒｙ）等の各種辞書データと比較することで音声情報を特定する方法が挙げられる。なお、音声認識処理に用いる音響モデルや言語モデルのような各種モデルと、発話辞書の要な各種辞書データは、後述する辞書データ保持部３４０に記憶させていてもよい。また、前述の音声認識処理の手法は一例であり、発話内容を示すテキストデータが特定できれば、音声認識処理の手法は限定されない。

音声情報取得部３３１は、取得された音声情報を発話内容解析部３３２に出力する。

発話内容解析部３３２は、音声情報を解析して、その音声情報が示す意味を解釈する。例えば、音声認識に対応するシステムや装置は、あらかじめ決められたキーワードが音声情報として取得されると、そのキーワードに対応する処理を実行する機能を備えている場合がある。具体的には、システム側であらかじめ「終了」というキーワードにアプリケーションの終了を関連付けておくことで、音声情報として「終了」という語句を取得した場合に、アプリケーションの終了させることが可能となる。このような場合に、発話内容解析部３３２は、取得された音声情報が、あらかじめ処理が関連付けられたキーワードと一致するか否かを判断する。なお、キーワードの一覧と、各キーワードに対応する処理との関係については、例えば、辞書データとして辞書データ保持部３４０に記憶させていてもよい。

また、発話内容解析部３３２は、取得された音声情報に類似するキーワードを特定できるようにしてもよい。例えば、ユーザ１の発話内容が必ずしも所定のキーワードに完全一致するとは限らない。そこで、発話内容解析部３３２は、取得された音声情報と、各キーワードの類似度を測定し、類似度が所定値以上となるキーワードが存在する場合に、そのキーワードに取得された音声情報が対応する（例えば、一致する）と判断してもよい。

類似度の判定については、具体的な一例として、Ｎグラム法などのような文字列比較の処理を用いて、音声情報と各キーワードとを比較する方法が挙げられる。また、形態素解析や構文解析のような自然言語処理を用いて音声情報を解析し、解析後の情報を各キーワードと比較してもよい。また、音声情報の比較に限らず、例えば、元となる音声信号の波形を、各キーワードに対応する波形と比較することで類似度を判定してもよい。このように、音声情報と各キーワードとの間の類似度が判定できれば、その方法は限定されない。

また、類似度が所定値以上のキーワードが複数存在する場合には、発話内容解析部３３２は、最も類似度の高いキーワードに取得された音声情報が対応すると判断してもよい。

以上のように、発話内容解析部３３２は、音声情報を解析して、その音声情報が示す意味を解釈し、対応するキーワードが存在するか否かを判定し、その判定結果を解析結果取得部３２２に通知する。なお、音声情報に対応するキーワードが存在する場合には、発話内容解析部３３２は、そのキーワードに対応する対応する処理を示す情報を解析結果取得部３２２に出力する。これにより、解析結果取得部３２２は、どのような処理を実行すればよいのかを認識することが可能となる。

また、発話内容解析部３３２は、取得された音声情報を後述する履歴記憶部３５０に履歴として記録してもよい。また、このとき発話内容解析部３３２は、履歴に対して、その履歴を特定するための情報を属性情報として関連付けて記憶させてもよい。例えば、発話内容解析部３３２は、取得された音声情報の対象となるコンテンツを示す情報を、その音声情報に対応する履歴に属性情報として関連付けて記憶させてもよい。なお、本実施形態において、履歴記憶部３５０に記録された履歴を用いた処理については、コンテンツ特定部３６１の動作とあわせて後述する。

レベル解析部３３３は、音声信号を解析することで信号のレベルを特定し、特定されたレベルを解析結果取得部３２２に出力する。なお、レベル解析部３３３は、音声信号のピーク値を出力するようにしてもよいし、レベルの平均値を出力するようにしてもよい。また、レベル解析部３３３は、取得される音声信号をモニタリングし、その音声信号のレベルを逐次出力するように動作させてもよい。

（辞書データ保持部３４０）
辞書データ保持部３４０は、音声情報取得部３３１及び発話内容解析部３３２がそれぞれの処理を実行するための各種データを記憶する。各種データの一例としては、音声情報取得部３３１が音声認識処理を実行するための各種モデル及び辞書データや、発話内容解析部３３２が、音声情報の示す意味を解釈するための辞書データが挙げられる。

（履歴記憶部３５０）
履歴記憶部３５０は、取得された音声情報を履歴として記憶する。履歴記憶部３５０は、取得された音声情報を、その音声情報が取得されたタイミングを示す情報と関連付けて記憶するとよい。このような履歴記憶部３５０の構成により、例えば、「昨日視聴した動画」を特定するなどのように、過去の音声認識の結果に基づき、所定の音声情報に関連する情報やコンテンツを特定することが可能となる。

また、履歴記憶部３５０は、所定のユーザに限らず他のユーザが発話した内容、例えば、異なる複数の集音装置１１０で集音された音声信号に基づく音声情報をそれぞれ履歴として記憶するようにしてもよい。このような履歴記憶部３５０の構成により、例えば、「先週、最も再生された音楽」を特定するなどのように、過去の音声認識の結果に基づき、本人のみに限らず複数ユーザの間で利用頻度の高い音声情報に関連する情報やコンテンツを特定することが可能となる。

また、履歴記憶部３５０は、履歴を特定するための属性情報を、対応する履歴に関連付けて記憶できるようにしてもよい。例えば、取得された音声情報の対象となるコンテンツを示す情報を、その音声情報に対応する履歴に属性情報として関連付けて記憶させてもよい。履歴記憶部３５０を、このような構成とすることで、例えば、所望のコンテンツに関連して発話された音声情報に対応する履歴を抽出することが可能となる。

（表示制御ユニット３２０）
表示制御ユニット３２０は、画面ｖ３０の生成及び表示更新に係る処理を実行する。図３に示すように、表示制御ユニット３２０は、表示制御部３２１と、解析結果取得部３２２と、コンテンツ情報取得部３２３とを含む。

解析結果取得部３２２は、後述する表示制御部３２１が、信号取得部３１０で取得された音声信号の解析結果を解析部３３０から取得する。解析結果取得部３２２は、音声信号の解析結果を解析部３３０から取得する。解析結果取得部３２２は、取得した解析結果を表示制御部３２１に出力する。音声信号の解析結果としては、例えば、取得された音声信号に対応する音声情報が所定のキーワードに対応しているか否かを示す情報や、音声信号のレベルを示す情報が挙げられる。また、音声情報が所定のキーワードに対応している場合には、そのキーワードに関連付けられた処理を示す情報を音声信号の解析結果に含めておくとよい。これにより、解析結果を受けた表示制御部３２１は、そのキーワードに対応してどのような処理を実行すればよいかを認識することが可能となる。

コンテンツ情報取得部３２３は、所望の条件に一致するコンテンツの情報を後述するコンテンツ特定部３６１から取得する。具体的には、コンテンツ情報取得部３２３は、表示制御部３２１からの指示に基づきコンテンツを取得するための検索条件を生成し、生成された検索条件を後述するコンテンツ特定部３６１に出力する。その応答として、コンテンツ情報取得部３２３は、検索条件に一致するコンテンツの情報をコンテンツ特定部３６１から取得する。コンテンツ情報取得部３２３は、取得したコンテンツの情報を表示制御部３２１に出力する。このような構成により、表示制御部３２１は、例えば、情報が取得された各コンテンツに対応するアイコンｖ３１１を画面ｖ３０に表示させたり、所望のコンテンツに対応する情報を取得して表示領域ｖ３２０に表示させたりすることが可能となる。

表示制御部３２１は、各種表示情報が表示された画面を生成して表示部１０２に表示させる。また、表示制御部３２１は、例えば、ユーザ１からの操作（例えば、音声入力）や、この操作に対応する処理の結果に応じて画面の表示を更新する。

表示装置１００が起動されると、表示制御部３２１は、まず画面ｖ３０を生成する。画面ｖ３０を生成するための画像等の部品は、表示制御部３２１が読み出し可能な構成（例えば、表示制御部３２１自身に設けられた記憶媒体）にあらかじめ記憶させていてもよい。

また、表示制御部３２１は、あらかじめ決められた条件に基づき、コンテンツ情報取得部３２３にコンテンツの情報を取得させる。具体的な一例として、表示制御部３２１は、全コンテンツの情報をコンテンツ情報取得部３２３に取得させてもよいし、コンテンツのカテゴリを示す情報（対応するカテゴリのコンテンツを呼び出すためのリンクのような情報）をコンテンツの情報として取得させてもよい。

表示制御部３２１は、取得されたコンテンツの情報それぞれをアイコンｖ３１１に関連付ける。なお、取得されたコンテンツの情報に音声認識に対応しているか否かを示す情報が設定されている場合には、表示制御部３２１は、この情報に基づき、対応するアイコンｖ３１１に音声認識に対応しているか否かを示すフラグを設定する。一方で、表示制御部３２１は、コンテンツ自体の音声認識への対応の有無に限らず、各コンテンツに対応するアイコンｖ３１１を音声認識に対応しているものとしてフラグを設定してもよい。この場合には、少なくともコンテンツの起動について音声入力により実行することが可能となる。

また、表示制御部３２１は、「メニューの表示」や「終了」等のように画面ごとにあらかじめ決められた所定の処理を、対応する表示情報に関連付けて画面ｖ３０に表示させてもよい。この所定の処理が関連付けられた表示情報は、各コンテンツに対応するアイコンｖ３１１と同様に、音声認識への対応の有無が設定されていてもよい。この所定の処理に対応する表示情報への音声認識への対応の有無を示すフラグは、その処理が音声認識に対応しているか否かに応じてあらかじめ設定してもよい。

なお、画面ごとの所定の処理は、必ずしも表示情報として画面ｖ３０に表示させなくてもよい。この場合には、対応するメニューやアイコンのような表示情報は画面ｖ３０に表示されないが、音声入力により所定のキーワードに対応する語句が入力されると、所定の処理が実行されることとなる。

表示制御部３２１は、生成された画面ｖ３０を表示部１０２に表示させる。

また、集音装置１１０で音声信号が集音されると、表示制御部３２１は、信号取得部３１０から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部３２１は、画面ｖ３０に表示された各表示情報を、それぞれに設定されたフラグに基づき、各表示情報について音声認識に対応しているか否かを識別する。そして、表示制御部３２１は、音声認識に対応している表示情報を、音声認識に対応していない表示情報と識別可能に画面ｖ３０に表示させる。この動作の具体例については、実施例１として後述する。

また、表示制御部３２１は、音声信号が所定の期間以上検知されなかった場合、即ち、信号取得部３１０から所定の期間以上通知が無かった場合に、所定の動作を実行してもよい。このような構成とすることで、表示制御部３２１は、例えば、音声信号の入力が一定時間以上入力されない状態を、「ユーザ１がどのような語句を音声として入力できるか困っている場合」として検知し、発話可能な語句を画面ｖ３０に提示することが可能となる。この動作の具体例については、実施例２として後述する。

また、表示制御部３２１は、取得された音声信号のレベルに基づき画面ｖ３０の表示を制御できるように構成してもよい。この場合には、表示制御部３２１は、音声信号の解析結果として、コンテンツ情報取得部３２３から、音声信号のレベルを示す情報を受けるようにする。これにより、表示制御部３２１は、コンテンツ情報取得部３２３から受けた音情報に基づき音声信号のレベルを認識し、音声信号のレベルに応じて表示情報の表示態様を変化させる等のよう表示制御が可能となる。この動作の具体例については、実施例３として後述する。

また、表示制御部３２１は、音声情報として所定のキーワードに対応する語句が取得された場合に、そのキーワードにあらかじめ関連付けられた処理を実行できるように構成してもよい。この場合には、表示制御部３２１は、音声信号の解析結果として、コンテンツ情報取得部３２３から、取得された音声信号に対応する音声情報が所定のキーワードに対応しているか否かを示す情報を受ける。これにより、表示制御部３２１は、音声情報が所定のキーワードに対応している場合を検知することができる。また、表示制御部３２１は、キーワードに対応する処理を示す情報をあわせて受けるとよい。これにより、表示制御部３２１は、そのキーワードに関連付けられた処理を実行することが可能となる。このような構成とすることで、表示制御部３２１は、「え〜っと・・・」のような曖昧な語句が入力された場合に、「ユーザ１がどのような語句を音声として入力できるか困っている場合」として検知し、発話可能な語句を画面ｖ３０に提示することが可能となる。この動作の具体例については、実施例２として後述する。

また、表示制御部３２１は、所定のコンテンツに対応するアイコンｖ３１１が選択されている状態で、信号取得部３１０から音声信号が検知された旨の通知を受けた場合に、そのコンテンツに関連する関連情報を画面ｖ３０に表示させてもよい。具体的な一例として、コンテンツとしてゲームが関連付けられたアイコンｖ３１１が選択されていた場合に、表示制御部３２１は、関連情報として、そのゲームの起動メニューやセーブデータを指定するための情報を画面ｖ３０に表示させてもよい。

このように動作させる場合には、表示制御部３２１は、信号取得部３１０から通知を受けた場合に、まず、選択状態のアイコンｖ３１１に関連付けられたコンテンツの情報を抽出する。コンテンツの情報を抽出したら、表示制御部３２１は、抽出された情報を基に、そのコンテンツに関連する情報をコンテンツ情報取得部３２３に取得させる。そして、表示制御部３２１は、コンテンツ情報取得部３２３により取得された情報に基づき、関連情報を生成して画面ｖ３０に表示させればよい。

（コンテンツＤＢ３６０）
コンテンツＤＢ３６０は、各コンテンツを、そのコンテンツの属性を示す属性情報と関連付けて記憶する。属性情報は、そのコンテンツを特定するための情報であり、具体的には、例えば、ゲーム、音楽、動画のようなコンテンツの種別を示す情報や、発売日、歌手、販売元のメーカー等のようにそのコンテンツに関する情報が挙げられる。属性情報には、例えば、そのコンテンツが音声認識に対応しているか否かを示す情報を含めてもよい。属性情報として音声認識に対応しているか否かを示すことで、表示制御部３２１は、コンテンツごとに音声認識に対応しているか否かを判断し、音声認識に対応しているか否かに応じて、そのコンテンツに対応する表示情報の表示態様を切り替えることが可能となる

（コンテンツ特定部３６１）
コンテンツ特定部３６１は、所望の検索条件に一致するコンテンツの情報をコンテンツＤＢ３６０から抽出する。具体的には、コンテンツ特定部３６１は、コンテンツ情報取得部３２３からコンテンツを特定するための検索条件を取得する。コンテンツ特定部３６１は、取得した検索条件と、各コンテンツの属性情報とを比較し、検索条件に一致するコンテンツをコンテンツＤＢ３６０から抽出する。コンテンツ特定部３６１は、検索条件に対する応答（検索結果）として、抽出されたコンテンツの情報をコンテンツ情報取得部３２３に出力する。

なお、コンテンツ特定部３６１は、履歴記憶部３５０に記録された音声情報の履歴を組み合わせて、コンテンツの情報を抽出できるようにしてもよい。例えば、コンテンツ特定部３６１は、所望の時期に使用された頻度の高かった音声情報（もしくは、音声情報に含まれる語句）を特定し、その音声情報に対応するコンテンツをコンテンツＤＢ３６０から抽出してもよい。コンテンツ特定部３６１は、このような構成とすることで、例えば、「先週、最も再生された音楽」や「昨日視聴した動画」のように、間接的に指定されたコンテンツを抽出することが可能となる。

また、コンテンツ特定部３６１は、所望のコンテンツに関して発話された履歴を履歴記憶部３５０から抽出できるようにしてもよい。コンテンツ特定部３６１は、このような構成とすることで、例えば、あるコンテンツに関連して他のユーザが発話した内容を、そのコンテンツに関連する情報として抽出することが可能となる。

なお、表示装置１００を構成する各部は、必ずしも１つの装置として実装される必要はなく、例えば、各構成がネットワークを介して接続されていてもよい。具体的な一例として、信号取得部３１０、表示制御ユニット３２０、及び表示部１０２を端末として構成し、解析部３３０、辞書データ保持部３４０、履歴記憶部３５０、コンテンツＤＢ３６０、及びコンテンツ特定部３６１をサーバに配置してもよい。

［１−４．第１の実施形態の実施例１］
｛１−４−１．実施例１の概要｝
第１の実施形態の実施例１に係る情報処理装置１０の具体的な一例について説明する。本実施形態の実施例１に係る情報処理装置１０では、表示制御部３２１は、音声信号の入力が検知された場合に、画面ｖ３０に表示された表示情報のうち、音声認識により操作が可能な（即ち、音声認識に対応した）表示情報を、音声認識に対応しない表示情報と直感的に識別可能に表示させる。以降では、本実施形態の実施例１に係る情報処理装置１０の画面の構成及び動作について、図４を参照しながら説明する。図４は、本実施形態の実施例１に係る表示の一態様を示した図である。

図４において、画面ｖ３０は、ユーザ１が発話していない状態、即ち、音声信号が検知されていない場合の画面を示している。また、画面ｖ３２は、ユーザ１が発話を行った場合、即ち、音声信号が検知された場合の画面を示している。なお、画面ｖ３０及びｖ３２において、表示領域ｖ３１１に表示された各アイコンｖ３１１は、音声認識に対応するコンテンツが関連付けられているものとする（即ち、各アイコンｖ３１１には、音声認識に対応するフラグが設定されている）。

図４に示す例では、音声信号が検知されていない場合に、表示制御部３２１は、画面ｖ３０に示すように、音声認識に対応するアイコンｖ３１１を、他の表示情報と同様に並べて表示させる。音声信号が検知されると、表示制御部３２１は、画面ｖ３２に示すように、アイコンｖ３１１のように音声認識に対応した表示情報を、振動するようにアニメーション表示させる。表示制御部３２１は、このアニメーション表示を、音声信号が検知されている間は継続し、音声信号が検知されなくなると（即ち、ユーザ１の発話が終了すると）停止する。即ち、ユーザ１が集音装置１１０に向けて発話を行うと、表示制御部３２１により、音声認識に対応する表示情報が発話に呼応するように動作するため、ユーザ１は、どの表示情報が音声認識に対応しているかを直感的に認識することが可能となる。

なお、画面ｖ３２におけるアイコンｖ３１１の表示態様は図４の例に限定されない。例えば、図５〜図７は、本実施形態の実施例１に係る画面ｖ３２におけるアイコンｖ３１１の表示態様の一例を示した図である。

例えば、図５の画面ｖ３２に示すように、表示制御部３２１は、音声信号が検知された場合に、音声認識に対応する表示情報（例えば、アイコンｖ３１１）を、音声信号が検知される前とは大きさや形状が変化させることで強調表示してもよい。

また、別の一例として、図６の画面ｖ３２に示すように、表示制御部３２１は、音声信号が検知された場合に、音声認識に対応する表示情報（例えば、アイコンｖ３１１）に関連付けて、音声認識に対応している旨を示すマーカｖ３１３を表示してもよい。図６の例では、表示制御部３２１は、音声認識に対応しているアイコンｖ３１１に、枠のようなマーカｖ３１３を重畳表示させている。これにより、ユーザ１は、音声認識に対応しているアイコンｖ３１１を、他の音声認識に対応していない表示情報と直感的に識別することが可能となる。

また、別の一例として、図７の画面ｖ３２に示すように、表示制御部３２１は、音声信号が検知された場合に、音声認識に対応する表示情報（例えば、アイコンｖ３１１）の色を変化させることで強調表示してもよい。図７の例では、表示制御部３２１は、画面ｖ３０において音声認識に対応しているアイコンｖ３１１を、画面ｖ３２では、アイコンｖ３１４で示すように音声信号の検知前とは異なる色で表示させる。このように、音声認識に対応している表示情報の色を音声信号の検知前後で変化させることで、ユーザ１は、音声認識に対応している表示情報を、他の音声認識に対応していない表示情報と直感的に識別することが可能となる。

また、表示制御部３２１は、上述したような音声信号が検知された場合とは異なる契機で、音声認識に対応している表示情報（例えば、アイコンｖ３１１）を、音声認識に対応していない他の表示情報と識別可能に表示してもよい。例えば、図８に示す例は、本実施形態の実施例１に係る画面の表示態様の一例を示した図である。図８に示す例では、表示制御部３２１は、画面ｖ３０を表示させたときに、音声認識に対応する表示情報に、音声認識に対応する旨を示す他の表示情報を重畳表示させている。

図８において、画面ｖ３３は、画面ｖ３０を最初に表示させた直後の状態を示している。図８の画面ｖ３３に示すように、表示制御部３２１は、画面ｖ３３を表示させると、領域ｖ３１０に表示された音声認識に対応する各アイコンｖ３１１に重畳するように、音声認識への対応を示す表示情報ｖ３５０が所定の期間だけ表示させる。このとき、表示制御部３２１は、ユーザ１の注意を引くように、表示情報ｖ３４０をアニメーション表示させるとよい。表示制御部３２１は、所定の期間だけ表示情報ｖ３５０が表示させ、その後、画面ｖ３０に示すように画面を表示させる。このように、表示制御部３２１は、音声信号が検知された場合に限らず、所定のタイミングで、音声認識に対応している表示情報を、音声認識に対応していない他の表示情報と識別可能に強調表示してもよい。

また、音声認識に対応する表示情報と、音声認識に対応していない他の表示情報とが識別可能であれば、画面ｖ３０の表示態様は上記の例に限定されない。例えば、表示制御部３２１は、音声認識に対応していない他の表示情報を一時的に非表示にすることにより、音声認識に対応する表示情報を強調表示してもよい。また、全ての表示情報を画面内に表示しきれない場合には、一部の表示情報が画面外に隠れてしまっている場合がある。このような場合には、表示制御部３２１は、音声認識に対応していない表示情報を非表示としたときに、空いた領域に、画面外に隠れてしまっている表示情報（音声認識に対応した表示情報）を表示してもよい。

｛１−４−２．実施例１の動作｝
次に、本実施形態の実施例１に係る情報処理装置１０の動作について図９及び図１０を参照しながら説明する。まず、図９を参照する。図９は、本実施形態に係る情報処理装置１０の情報の表示に係る動作の一例を示したフローチャートである。

（ステップＳ３０１）
表示装置１００が起動されると、表示制御部３２１は、まず画面ｖ３０を生成する。画面ｖ３０を生成するための画像等の部品は、表示制御部３２１が読み出し可能な構成にあらかじめ記憶させていてもよい。

また、表示制御部３２１は、あらかじめ決められた条件に基づき、コンテンツ情報取得部３２３にコンテンツの情報を取得させる。

（ステップＳ３０２）
表示制御部３２１は、取得されたコンテンツの情報それぞれをアイコンｖ３１１に関連付ける。なお、取得されたコンテンツの情報に音声認識に対応しているか否かを示す情報が設定されている場合には、表示制御部３２１は、この情報に基づき、対応するアイコンｖ３１１に音声認識に対応しているか否かを示すフラグを設定する。

また、表示制御部３２１は、「メニューの表示」や「終了」等のように画面ごとにあらかじめ決められた所定の処理を、対応する表示情報に関連付けて画面ｖ３０に表示させてもよい。この所定の処理が関連付けられた表示情報についても、各コンテンツに対応するアイコンｖ３１１と同様に、音声認識への対応の有無を設定してもよい。この所定の処理に対応する表示情報への音声認識への対応の有無を示すフラグは、その処理が音声認識に対応しているか否かに応じてあらかじめ設定しておけばよい。

なお、画面ごとの所定の処理については、必ずしも表示情報として画面ｖ３０に表示させなくてもよい。この場合には、対応するメニューやアイコンのような表示情報は画面ｖ３０に表示されないが、音声入力により所定のキーワードに対応する語句が入力されると、所定の処理が実行されることとなる。

（ステップＳ３０３）
表示装置１００の起動が完了して表示部１０２に画面ｖ３０が表示されると、音声情報取得部３３１が、集音装置１１０で集音された音声信号を受け付けられる状態となる。

（ステップＳ３０４）
集音装置１１０で音声信号が集音されると（ステップＳ３０４、Ｙ）、集音された音声信号が集音装置１１０から出力され、信号取得部３１０は、集音装置１１０から出力された音声信号を検知し取得する。音声信号を検知すると、信号取得部３１０は、検知結果を表示制御ユニット３２０の表示制御部３２１に通知する。

（ステップＳ３１０）
ここで、信号取得部３１０からの検知結果の通知を受けた場合の表示制御部３２１の処理（即ち、ステップＳ３１０で示された処理）の内容について、図１０を参照しながら説明する。図１０は、本実施形態の実施例１に係る情報処理装置１０の表示制御の一態様を示したフローチャートである。

（ステップＳ３１１）
集音装置１１０で音声信号が集音されると、表示制御部３２１は、信号取得部３１０から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部３２１は、画面ｖ３０に表示された各表示情報を、それぞれに設定されたフラグに基づき、各表示情報について音声認識に対応しているか否かを識別する。そして、表示制御部３２１は、音声認識に対応している表示情報（例えば、アイコンｖ３１１）を、音声認識に対応していない表示情報と識別可能に画面ｖ３０に表示させる。なお、音声信号が検知された場合における画面ｖ３０の表示態様については前述したとおりである。

（ステップＳ３０４、ステップＳ３０５）
ここで、再度図９を参照する。音声信号を受け付ける状態は、表示装置１００の停止が選択されて一連の処理が終了しない限り継続される（ステップＳ３０４、Ｎ、かつステップＳ３０５、Ｎ）。表示装置１００の停止が選択されると、表示装置１００は一連の処理を終了して停止する。（ステップＳ３０５、Ｙ）

以上のように、本実施形態の実施例１に係る情報処理装置１０は、音声信号の入力が検知された場合に、画面ｖ３０に表示された表示情報のうち、音声認識に対応した表示情報の表示態様を変える等により、音声認識に対応した表示情報を強調表示する。これにより、音声認識に対応した表示情報が、音声認識に対応していない他の表示情報と識別可能に表示される。そのため、ユーザ１は、画面ｖ３０に表示された表示情報のうち、いずれが音声認識により操作可能であるかを直感的に認識することが可能となる。

また、音声信号の入力が検知されたときに、表示情報をアニメーション表示させるなどのように、表示情報の表示態様を変化させることで、ユーザ１に対して、音声信号が取得されて音声認識が動作していることを提示することが可能となる。本件については実施例３でも詳しく説明する。

［１−５．第１の実施形態の実施例２］
｛１−５−１．実施例２の概要｝
第１の実施形態の実施例２に係る情報処理装置１０の具体的な動作の一例について説明する。音声入力を用いたＵ／Ｉでは、表示された画面に対して、いつ（例えば、どのような状態で）、どこが、なんと言えば反応するのかがわかりにくい場合がある。そこで、本実施形態の実施例２に係る情報処理装置１０では、表示制御部３２１は、音声信号の検知状況に基づき、例えば「ユーザ１がどのような語句を音声として入力できるか困っている場合」等の状態を検知し、発話可能な語句を対応する表示情報に関連付けて参照可能に提示する。以降では、本実施形態の実施例２に係る情報処理装置１０の画面の構成及び動作について、図１１〜図１３を参照しながら説明する。図１１〜図１３は、本実施形態の実施例２に係る表示の一態様を示した図である。

まず、図１１に示す例について説明する。図１１に示す画面ｖ３４は、前述した画面ｖ３０（図２参照）をベースとして、発話可能な語句を関連情報として、対応する表示情報に関連付けて参照可能に提示した場合の画面の一例である。

図１１に示す例では、表示制御部３２１は、画面ｖ３４に表示された表示情報のいずれも選択されていない状態で、音声認識に対応する表示情報のそれぞれについて、その表示情報に対応する処理またはコンテンツを起動するための語句を提示している。具体的には、表示制御部３２１は、ユーザ１が、「え〜っと・・・」のような曖昧な語句を発話したときに、画面ｖ３４上の音声認識に対応する表示情報（例えば、アイコンｖ３７１）を操作するための語句を、関連情報ｖ３７１として提示している。

図１１に示す例では、表示制御部３２１は、アイコンｖ３１１ａに対応するコンテンツを起動するための語句として、関連情報ｖ３７１ａには「シューティング」という語句を提示している。

また、表示制御部３２１は、関連情報ｖ３７１として、コンテンツの種別ごとに実行可能な処理を示す語句を提示してもよい。具体的な一例として、表示制御部３２１は、「ムービー」に対応するコンテンツの場合に、ムービーを購入するためのストアにアクセスする処理が関連付けられた「ストアに行く」という語句の関連情報ｖ３７１を表示させてもよい。また、対応するコンテンツが「音楽」の場合には、表示制御部３２１は、ランダム再生の処理が関連付けられた「ランダム再生」という語句の関連情報ｖ３７１を表示させてもよい。

また、表示制御部３２１は、「ホーム」や「終了」のように、画面ｖ３４に対応する表示情報が表示されていないが、音声入力として受付可能な語句を、関連情報ｖ３７３として提示してもよい。

なお、「え〜っと・・・」のような曖昧な語句を発話したか否かについては、発話内容解析部３３２が、集音された音声信号に対応する音声情報が、曖昧な語句を示すキーワードに対応しているか（一致しているか）否かにより判定を行えばよい。発話内容解析部３３２による判定結果は、解析結果取得部３２２を介して表示制御部３２１に通知される。これにより、表示制御部３２１は、ユーザ１が「え〜っと・・・」のような曖昧な語句を発話したか否かを判断することができる。

また、関連情報ｖ３７１として提示する各コンテンツの情報については、表示制御部３２１が、アイコンｖ３１１を表示させるときに、コンテンツ特定部３６１にあらかじめ取得させて、アイコンｖ３１１に関連付けておけばよい。また、別の態様として、表示制御部３２１は、ユーザ１が「え〜っと・・・」のような曖昧な語句を発話したことを検知したときに、各アイコンｖ３１１に対応するコンテンツの情報をコンテンツ特定部３６１に取得させてもよい。また、関連情報ｖ３７３として提示する情報は、表示制御部３２１が読み出し可能な構成（例えば、表示制御部３２１自身に設けられた記憶媒体）にあらかじめ記憶されていてもよい。

次に、図１２に示す例について説明する。図１２に示す画面ｖ３５は、前述した画面ｖ３０（図２参照）をベースとして、選択状態にある表示情報に対して発話可能な語句を関連情報として、対応する表示情報に関連付けて参照可能に提示した場合の画面の一例である。

図１２に示す例では、表示制御部３２１は、音声認識に対応する表示情報が選択されている状態（以降は「選択状態」と呼ぶ）で、その表示情報対応するコンテンツに対して、実行可能な処理を示す語句を提示している。例えば、図１２において、表示制御部３２１は、アイコンｖ３１１ａを、ゲームに対応するコンテンツに関連付けている。なお、このゲームには「はじめる」と「つづきから」という起動メニューが存在する（あらかじめ関連付けられている）ものとする。この場合には、表示制御部３２１は、ユーザ１が、「え〜っと・・・」のような曖昧な語句を発話したときに、選択状態にあるアイコンｖ３１１に対応するゲームを起動するための起動メニュー、即ち、「はじめる」及び「つづきから」を関連情報ｖ３７１ａとして提示してもよい。

なお、関連情報ｖ３７１として表示される情報は、対応するコンテンツの起動メニューに限られない。例えば、音楽プレーヤーに対応するアイコンｖ３１１の場合には、表示制御部３２１は、あらかじめ作成された再生リストに基づき、再生可能な音楽のリストを関連情報ｖ３７１として提示してもよい。また、別の一態様として、表示制御部３２１は、「音楽を再生する」や「ストアに行く」のように、そのコンテンツで実行可能な動作を提示してもよい。なお、上述のような関連情報は、コンテンツごとに関連付けてコンテンツＤＢ３６０に記憶させていてもよい。表示制御部３２１は、コンテンツＤＢ３６０に記憶されたコンテンツごとの情報のうち、所望のコンテンツに関する情報を、コンテンツ情報取得部３２３を介してコンテンツ特定部３６１に特定させればよい。

また、図１１及び図１２に示す例を、既存のアプリケーションに応用してもよい。例えば、図１３に示す画面ｖ３６は、地図アプリケーションに応用した例を示している。図１３に示す例では、表示制御部３２１は、画面ｖ３６上に表示された地図のうち、音声認識に対応する位置（例えば、建物などの位置）に関連して、実行可能な動作を示す語句を関連情報ｖ３７５として、対応する位置に関連付けて参照可能に提示している。

例えば、所定の位置で撮影された写真や動画をあらかじめ記憶しておき、表示制御部３２１は、これらの写真や動画を参照する動作に関連付けられた、「写真を見る」や「動画を再生する」といった語句を、関連情報ｖ３７５ａとして対応する位置に関連付けて表示させてもよい。また、対応する位置が飲食店のような場合には、表示制御部３２１は、その店のおすすめのメニューを表示するための動作に関連付けられた「おすすめを見る」といった語句を、関連情報ｖ３７５ｂとして対応する位置に関連付けて表示させてもよい。なお、関連情報ｖ３７５ａ及びｖ３７５ｂとして表示させる情報（語句）や、関連情報ｖ３７５ａ及びｖ３７５ｂに対応する処理が実行されることで表示されるコンテンツ（例えば、写真、動画、またはメニュー）は、位置情報ごとに関連づけてコンテンツＤＢ３６０に記憶されていてもよい。この場合には、表示制御部３２１は、位置情報を検索キーとして、関連情報ｖ３７５ａ及びｖ３７５ｂとして表示させる情報（語句）やコンテンツを、コンテンツ情報取得部３２３を介してコンテンツ特定部３６１に取得させればよい。なお、以降では、関連情報ｖ３７１、ｖ３７３、及びｖ３７５を特に区別しない場合には、単に「関連情報」と記載する場合がある。

なお、図１１〜図１３に示した例では、ユーザ１が、「え〜っと・・・」のような曖昧な語句を発話したときに、関連情報を表示させていたが、必ずしもこの方式に限定されない。例えば、ユーザ１は、どのような語句を音声として入力できるか困っている場合に、発話を行わずに考え込んでいるケースがあり得る。そのため、表示制御部３２１は、所定の時間だけ沈黙が続いた場合（即ち、音声信号が検知されなかった場合）に、関連情報を表示させてもよい。この場合には、表示制御部３２１は、信号取得部３１０からの通知が所定期間なかった場合に、関連情報を表示させればよい。

また、関連情報として表示させる数は適宜変更できるようにしてもよい。例えば、音声認識に対応する表示情報が所定数以上表示されている場合には、表示制御部３２１は、画面が煩雑にならないように、全ての関連情報を表示させず、各表示情報について所定数ずつ（例えば、１つずつ）表示させてもよい。このような場合には、全ての関連情報を表示させるキーワード（例えば、「ヘルプ」等）をあらかじめ決めておいてもよい。また、表示制御部３２１は、最初に画面が表示されるタイミングで、チュートリアルとして、各関連情報を、画面が煩雑にならない程度の数ごとに連続的に表示させてもよい。

また、コンテンツに関連して他のユーザが発話している内容を履歴として履歴記憶部３５０に記憶させておき、表示制御部３２１は、これらの履歴を、関連情報として表示させてもよい。この場合には、コンテンツ特定部３６１が、表示制御部３２１に指示されたコンテンツに対応する履歴を、履歴記憶部３５０から検索して抽出すればよい。また、発話内容解析部３３２は、音声情報を履歴記憶部３５０に記憶させるときに、そのとき起動していたコンテンツを示す情報と関連付けて記憶させてもよい。これにより、コンテンツ特定部３６１が、各履歴がどのコンテンツが起動しているときに発話されたものかを判別することが可能となる。

また、表示制御部３２１は、関連情報を表示させた場合に、音声認識に対応していない表示情報を非表示にしてもよい。また、このとき非表示となった表示情報が表示されていた領域を有効に使えるように、表示制御部３２１は、画面上に表示されている表示情報及び関連情報のレイアウトを調整して表示させてもよい。このような構成により、表示制御部３２１は、関連情報の表示に伴い表示される情報が増えたとしても、画面が煩雑になるような事態を防止することが可能となる。

｛１−５−２．実施例２の動作｝
次に、第１の実施形態の実施例２に係る表示装置１００の動作について、図１１に示した画面ｖ３４の場合を例に、図１４を参照しながら、実施例１と処理の異なる表示制御の動作に着目して説明する。図１４は、本実施形態の実施例２に係る情報処理装置１０の表示制御の一態様を示したフローチャートである。なお、図９に示すフローチャートのうち、ステップＳ３１０で示された表示制御以外の処理については実施例１と同様のため、詳細な説明は省略する。

（ステップＳ３２１）
集音装置１１０で音声信号が集音されると、表示制御部３２１は、信号取得部３１０から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部３２１は、ユーザ１が「え〜っと・・・」のような所定の語句（曖昧な語句）を発話したか否かを示す情報を、解析結果取得部３２２を介して解析部３３０の発話内容解析部３３２から取得する。ユーザ１による所定の語句の発話が検知された場合には、表示制御部３２１は、画面ｖ３４に表示された各アイコンｖ３１１について、そのアイコンｖ３１１に関連付けられたコンテンツの情報を、関連情報ｖ３７１として、コンテンツ情報取得部３２３に取得させる。

なお、表示制御部３２１が、コンテンツ情報取得部３２３に関連情報ｖ３７１を取得される契機は特に限定されない。例えば、表示制御部３２１が最初にアイコンｖ３１１を表示させるタイミングであらかじめコンテンツ情報取得部３２３に取得させてもよいし、ユーザ１により発話された曖昧な語句が検知されたタイミングで取得させてもよい。

（ステップＳ３２２）
表示制御部３２１は、コンテンツ情報取得部３２３に所得させた関連情報ｖ３７１を、対応するアイコンｖ３１１に関連付けて画面ｖ３４に表示させる。また、このとき表示制御部３２１は、「ホーム」や「終了」のように、画面ｖ３４に対応する表示情報が表示されていないが、音声入力として受付可能な語句を、関連情報ｖ３７３として提示してもよい。

以上のように、本実施形態の実施例２に係る情報処理装置１０は、音声信号の検知状況に基づき、発話可能な語句を対応する表示情報に関連付けて参照可能に提示する。これにより、ユーザ１は、表示された画面に対して、いつ、どこが、なんと言えば反応するのかを認識することが可能となる。

［１−６．第１の実施形態の実施例３］
｛１−６−１．実施例３の概要｝
第１の実施形態の実施例３に係る情報処理装置１０の具体的な動作の一例について説明する。音声認識を利用可能なＵ／Ｉでは、音声の認識に失敗した場合に、ユーザが、なぜ音声認識が失敗したか、わからない場合がある。音声の認識が失敗する原因の一例として、音声信号の入力レベルが、音声認識エンジンに適したレベルよりも大きいまたは小さい場合がある。そこで、本実施形態の実施例３に係る情報処理装置１０では、表示制御部３２１は、集音装置１１０で集音された音声信号のレベルが適切か否かを識別可能にフィードバックする。以降では、本実施形態の実施例３に係る情報処理装置１０の画面の構成及び動作について図１５Ａ〜図１５Ｃを参照しながら説明する。図１５Ａ〜図１５Ｃは、本実施形態の実施例３に係る表示の一態様を示した図である。

図１５Ｂに示す画面ｖ３８は、ユーザ１が発話した音声信号のレベルが、音声認識エンジンに適したレベルの場合の画面を示している。図１５Ｂに示す例では、表示制御部３２１は、集音装置１１０で集音された音声信号のレベルが、所定の範囲に含まれる場合（即ち、音声認識エンジンに適したレベルを示す場合）に、所定の表示情報を、音声信号が集音されていない場合とは異なる態様で表示させる。

図１５Ｂに示す表示情報ｖ３１８は、音声信号のレベルが所定の範囲に含まれる場合に、所定の表示情報が、あらかじめ決められた表示態様で表示された状態を示している。具体的な一例として、図１５Ｂに示す例では、表示制御部３２１は、表示情報ｖ３１８として、所定の表示情報が、風でなびくようにアニメーション表示させる。なお、このとき、表示制御部３２１は、表示情報ｖ３１８を、集音された音声信号のレベルが、音声認識を行うために適切なレベルを示していることが直感的にわかる表示態様で表示させるとよい。

また、所定の表示情報を、音声信号が集音されていない場合と異なる態様で表示させることで、ユーザ１は、音声信号が取得されて音声認識が動作していることを認識することが可能となる。

図１５Ａに示す画面ｖ３７は、ユーザ１が発話した音声信号のレベルが、音声認識エンジンに適したレベルよりも小さい場合の画面を示している。図１５Ｂに示す例では、表示制御部３２１は、集音装置１１０で集音された音声信号のレベルが、所定の範囲のレベルよりも小さい場合（即ち、音声認識エンジンに適したレベルよりも小さい場合）に、所定の表示情報を、表示情報ｖ３１８とは異なる態様で表示させる。

図１５Ｂに示す表示情報ｖ３１７は、音声信号のレベルが所定の範囲のレベルよりも小さい場合（即ち、所定の閾値より小さい場合）に、所定の表示情報が、あらかじめ決められた表示態様で表示された状態を示している。具体的な一例として、図１５Ｂに示す例では、表示制御部３２１は、表示情報ｖ３１７として、所定の表示情報が、表示情報ｖ３１８の場合よりも弱い風でなびくようにアニメーション表示させる。なお、このとき、表示制御部３２１は、表示情報ｖ３１７を、集音された音声信号のレベルが、音声認識を行うために適切なレベルよりも小さいことが直感的にわかる表示態様で表示させるとよい。

図１５Ｃに示す画面ｖ３９は、ユーザ１が発話した音声信号のレベルが、音声認識エンジンに適したレベルよりも大きい場合の画面を示している。図１５Ｃに示す例では、表示制御部３２１は、集音装置１１０で集音された音声信号のレベルが、所定の範囲のレベルよりも大きい場合（即ち、音声認識エンジンに適したレベルよりも大きい場合）に、所定の表示情報を、表示情報ｖ３１８とは異なる態様で表示させる。

図１５Ｃに示す表示情報ｖ３１９は、音声信号のレベルが所定の範囲のレベルよりも大きい場合（即ち、所定の閾値より大きい場合）に、所定の表示情報が、あらかじめ決められた表示態様で表示された状態を示している。具体的な一例として、図１５Ｃ示す例では、表示制御部３２１は、表示情報ｖ３１９を、所定の表示情報が、大きい力を受けて激しく変形するように（例えば、ぐしゃぐしゃに丸められるように）アニメーション表示させる。なお、このとき、表示制御部３２１は、表示情報ｖ３１９を、集音された音声信号のレベルが、音声認識を行うために適切なレベルよりも大きいことが直感的にわかる表示態様で表示させるとよい。

また、図１６Ａ〜図１６Ｃに示す例は、表示情報ｖ３１７、ｖ３１８、ｖ３１９の別の一態様を示している。図１６Ｂに示す例では、表示制御部３２１は、音声信号のレベルが所定の範囲に含まれる場合に、表示情報ｖ３１８を、所定の表示情報が、ＯＫマークを模擬した表示態様で表示させる。このように表示情報ｖ３１８を表示させることで、ユーザ１は、音声信号のレベルが適切であることを、直感的に認識することが可能となる。

また、音声信号のレベルが所定の範囲のレベルよりも小さい場合には、表示制御部３２１は、図１６Ａに示すように、表示情報ｖ３１７を、所定の表示情報が、音量が小さいときに人が耳を傾けるような動作を模擬した表示態様で表示させる。このように表示情報ｖ３１７を表示させることで、ユーザ１は、音声信号のレベルが、音声認識を行うために適切なレベルよりも小さいことを、直感的に認識することが可能となる。

また、音声信号のレベルが所定の範囲のレベルよりも大きい場合には、表示制御部３２１は、図１６Ｃに示すように、表示情報ｖ３１９を、所定の表示情報が、音量が大きすぎるときに人が耳を塞ぐような動作を模擬した表示態様で表示させる。このように表示情報ｖ３１９を表示させることで、ユーザ１は、音声信号のレベルが、音声認識を行うために適切なレベルよりも小さいことを、直感的に認識することが可能となる。

このように、本実施形態の実施例３に係る情報処理装置１０は、集音装置１１０で集音された音声信号のレベルが所定の範囲に含まれるか否かに応じて、所定の表示情報を、異なる表示態様で表示させる。これにより、ユーザ１は、表示態様に応じて、発話された音声信号のレベルが適切か否かを直感的に認識することが可能となる。また、発話された音声信号のレベルが適切か否かを、文字情報ではなく、所定の表示情報の表示態様として提示することで、使用言語の異なるユーザ間でも、発話された音声信号のレベルが適切か否かを同様に認識することが可能となる。

なお、音声信号のレベルに応じて表示態様を変化させる表示情報としては、例えば、実施例１におけるアイコンｖ３１１（図５参照）のように、音声認識に対応する表示情報を用いてもよい。また、別の一態様として、音声信号のレベルが適切か否かをフィードバックするための専用の表示情報を設けてもよい。

また、上記の例では、表示制御部３２１は、取得された音声信号のレベルを所定の閾値と比較することで、３種類の表示態様のいずれで表示させるかを決定していたが、音声信号のレベルが適切か否かを判別可能であれば、この表示態様には限定されない。例えば、表示制御部３２１は、所定の表示情報を、取得された音声信号のレベルに応じて表示態様が連続的に変化するように表示させてもよい。

｛１−６−２．実施例３の動作｝
次に、第１の実施形態の実施例３に係る表示装置１００の動作について、図１７を参照しながら、実施例１と処理の異なる表示制御の動作に着目して説明する。図１７は、本実施形態の実施例３に係る情報処理装置１０の表示制御の一態様を示したフローチャートである。なお、図９に示すフローチャートのうち、ステップＳ３１０で示された表示制御以外の処理については実施例１と同様のため、詳細な説明は省略する。

（ステップＳ３３１）
集音装置１１０で音声信号が集音されると、表示制御部３２１は、信号取得部３１０から音声信号が検知された旨の通知を受ける。この通知を受けると、表示制御部３２１は、解析結果取得部３２２を介して解析部３３０のレベル解析部３３３から、取得された音声信号のレベルを示す情報を、音声信号の解析結果として取得する。

（ステップＳ３３１）
表示制御部３２１は、解析結果として取得された音声信号のレベルが所定の範囲に含まれるか否かを判断し、その判断結果に応じて表示態様を特定する。表示制御部３２１は、特定された表示態様で表示されるように、所定の表示情報の表示を更新する。これにより、例えば、取得された音声信号のレベルが所定の範囲に含まれる場合には、所定の表示情報が、図１５Ａ〜１５Ｃまたは図１６Ａ〜１６Ｃの表示情報ｖ３１８に示すような表示態様で表示される。また、取得された音声信号のレベルが所定の範囲のレベルよりも小さい場合には、所定の表示情報が、図１５Ａ〜１５Ｃまたは図１６Ａ〜１６Ｃの表示情報ｖ３１７に示すような表示態様で表示される。同様に、取得された音声信号のレベルが所定の範囲のレベルよりも大きい場合には、所定の表示情報が、図１５Ａ〜１５Ｃまたは図１６Ａ〜１６Ｃの表示情報ｖ３１９に示すような表示態様で表示されることとなる。

以上のように、本実施形態の実施例３に係る情報処理装置１０は、音声信号のレベルを測定し、その測定結果に応じて、集音された音声信号のレベルが適切か否かを識別可能にフィードバックする。このような構成により、ユーザ１に対して、発話される音声の大きさの調整を促し、音声の認識率を向上させることが可能となる。

［１−７．第１の実施形態のまとめ］
以上、第１の実施形態に係る情報処理装置１０の構成や、具体的な実施例について説明した。上述したように、第１の実施形態に係る情報処理装置１０は、音声信号の入力が検知された場合に、画面上に表示された表示情報のうち、音声認識に対応した表示情報を、声認識に対応していない他の表示情報と識別可能に表示させるものである。このような構成により、ユーザ１は、画面上に表示された表示情報のうち、いずれが音声認識により操作可能であるかを直感的に認識することが可能となる。

また、本実施形態に係る情報処理装置１０は、音声信号の検知状況に基づき、発話可能な語句を対応する表示情報に関連付けて参照可能に提示する。これにより、ユーザ１は、表示された画面に対して、いつ、どこが、なんと言えば反応するのかを認識することが可能となる。

さらに、本実施形態に係る情報処理装置１０は、音声信号のレベルを測定し、その測定結果に応じて、集音された音声信号のレベルが適切か否かを識別可能にフィードバックする。このような構成により、ユーザ１に対して、発話される音声の大きさの調整を促し、音声の認識率を向上させることが可能となる。

なお、上述した各構成の動作は、情報処理装置１０のＣＰＵを機能させるためのプログラムによって構成することができる。このプログラムは、その装置にインストールされたＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）を介して実行されるように構成してもよい。また、このプログラムは、上述した各構成が含まれる装置が読み出し可能であれば、記憶される位置は限定されない。例えば、装置の外部から接続される記録媒体にプログラムが格納されていてもよい。この場合には、プログラムが格納された記録媒体を装置に接続することによって、その装置のＣＰＵに当該プログラムを実行させるようにするとよい。

＜２．本開示の第２の実施形態＞
［２−１．第２の実施形態の概要］
まず本開示の第２の実施形態の概要を説明する。本開示の第２の実施形態に係る情報処理装置１０は、上述の第１の実施形態同様、図１に示したような全体構成を有する。本開示の第２の実施形態に係る情報処理装置１０は、集音装置１１０が集音した音を表示装置１００で解析し、その解析の結果を用いた様々な処理を表示装置１００で実行する。集音装置１１０が集音した音の解析の結果を用いた処理としては、例えば集音装置１１０が集音した音から変換される文字の表示部１０２への表示処理、集音装置１１０が集音した音に基づくプログラムの実行処理、集音装置１１０が集音した音に基づく、インターネット上の検索処理等がある。

そして本開示の第２の実施形態に係る情報処理装置１０は、ユーザ１が集音装置１１０に向かって発話した後に、発話された内容に基づく処理が実行されるまでユーザ１に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理を実行する。以下で説明する本開示の一実施形態に係る情報処理装置１０では、このようにリアルタイムで処理が行われているように感じさせる音声認識処理の例として視覚的なフィードバックを伴う処理を挙げて示すことにする。

以上、本開示の第２の実施形態の概要について説明した。次に、本開示の第２の実施形態に係る情報処理装置１０の機能構成例について説明する。

［２−２．第２の実施形態の構成］
図１８は、本開示の第２の実施形態に係る情報処理装置１０の機能構成例を示す説明図である。以下、図１８を用いて本開示の第２の実施形態に係る情報処理装置１０の機能構成例について説明する。

図１８に示したように、本開示の一実施形態に係る情報処理装置１０は、集音装置１１０と、表示制御ユニット４２０と、辞書データ保持部４３０と、表示部１０２と、を含んで構成される。図１８に示した例では、表示制御ユニット４２０と、表示部１０２とは、いずれも表示装置１００に備えられている。

（表示制御ユニット４２０）
表示制御ユニット４２０は、表示装置１００の動作を制御し、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサで構成される。そして図１８に示したように、表示制御ユニット４２０は、信号取得部４２１と、音声情報取得部４２２と、発話内容解析部４２３と、発話内容取得部４２４と、解析結果提示部４２５と、を含んで構成される。

集音装置１１０は、上述したように、音を集音する装置であり、例えばユーザ１によって発話された内容を集音する装置である。集音装置１１０が集音した音は、音声情報として表示装置１００の表示制御ユニット４２０に送られて、表示制御ユニット４２０においてその集音装置１１０が集音した音の内容が解析される。

（信号取得部４２１）
信号取得部４２１は、集音装置１１０が集音した音からなる音声信号を集音装置１１０から取得する。信号取得部４２１は、取得した音声信号を音声情報取得部４２２へ供給する。

（音声情報取得部４２２）
音声情報取得部４２２は、信号取得部４２１から供給される音声信号を、音声情報として取得する。音声情報取得部４２２は、信号取得部４２１から供給される音声信号を音声情報として取得すると、取得した音声情報を発話内容解析部４２３に随時提供する。

（発話内容解析部４２３）
発話内容解析部４２３は、音声情報取得部４２２から供給される、集音装置１１０が集音して得られる音声信号の内容を逐次解析する。発話内容解析部４２３は、集音装置１１０が集音した音を解析して、その音の音量、周波数、発話時間、単語、音素等の情報を得る。発話内容解析部４２３は、集音装置１１０が集音した音の内容の解析に際し、辞書データ保持部４３０が保持する辞書データを用いても良い。発話内容解析部４２３は、集音装置１１０が集音した音を解析して情報を得ると、その情報を発話内容取得部４２４に逐次提供する。

（発話内容取得部４２４）
発話内容取得部４２４は、発話内容解析部４２３から逐次提供されてくる、発話内容解析部４２３での解析結果を逐次取得する。発話内容取得部４２４は、発話内容解析部４２３で逐次解析された結果を逐次取得すると、その逐次取得した解析結果を解析結果提示部４２５に逐次提供する。

（解析結果提示部４２５）
解析結果提示部４２５は、発話内容解析部４２３による解析により得られ、発話内容取得部４２４から逐次提供された情報を適切な形式に変換して、表示部１０２に逐次表示させる。既存の一般的な音声認識技術では、話者が発話を開始してから完了するまでの間に取得される、当該発話の内容を解析し、解析が完了してからその解析結果である発話された単語や文章の情報を提示していた。本開示の第２の実施形態に係る情報処理装置１０は、ユーザ１が集音装置１１０に向かって発話している最中であっても、解析結果提示部４２５は、その発話に伴う情報を発話内容取得部４２４から逐次得て、表示部１０２に表示させる。

このように、ユーザ１が集音装置１１０に向かって発話している最中であっても、その発話に伴う情報を表示部１０２に表示させることで、本開示の第２の実施形態に係る情報処理装置１０は、ユーザ１に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能となる。

（辞書データ保持部４３０）
辞書データ保持部４３０は、上述したように、発話内容解析部４２３での音の解析に際して用いられる辞書データを保持する。辞書データ保持部４３０は、例えば様々な単語に対して表記、読み、品詞、等の情報を保持している。なお後述するが、辞書データ保持部４３０で保持されている辞書データは、解析結果提示部４２５での情報の生成に際して用いられても良い。

以上、図１８を用いて本開示の第２の実施形態に係る情報処理装置１０の機能構成例について説明した。次に、本開示の第２の実施形態に係る情報処理装置１０の動作例について説明する。

［２−３．第２の実施形態の動作］
図１９は、本開示の第２の実施形態に係る情報処理装置１０の動作例を示すフローチャートである。図１９に示したフローチャートは、集音装置１１０が集音することで得られる音声情報の解析で得られる情報を逐次取得し、音声情報の解析で得られる情報に基づいた情報を逐次表示する、本開示の第２の実施形態に係る情報処理装置１０の動作例を示したものである。以下、図１９を用いて本開示の第２の実施形態に係る本開示の一実施形態に係る情報処理装置１０の動作例について説明する。

ユーザ１が集音装置１１０に向かって発話すると、集音装置１１０が集音した音が音声信号として信号取得部４２１に供給され、信号取得部４２１から音声情報として音声情報取得部４２２に入力される（ステップＳ４０２）。

上記ステップＳ４０２で、集音装置１１０が集音した音が音声信号として信号取得部４２１に供給され、信号取得部４２１から音声情報として音声情報取得部４２２に入力されると、続いて発話内容解析部４２３が、音声情報取得部４２２から供給される、集音装置１１０が集音して得られる音声信号を逐次解析する（ステップＳ４０４）。発話内容解析部４２３は、音声信号を逐次解析すると、その解析により得られる情報を、発話内容取得部４２４へ逐次提供する。なお、上記ステップＳ３０４での、発話内容解析部４２３による音声信号の解析の最中にも、ユーザ１による発話は継続され、集音装置１１０は、ユーザ１の発話による音を集音し、信号取得部４２１へ提供する。

上記ステップＳ４０４で、発話内容解析部４２３が音声信号を逐次解析し、解析により得られる情報を発話内容取得部４２４へ逐次提供すると、続いて解析結果提示部４２５は、発話内容解析部４２３による逐次解析により得られ、発話内容取得部４２４から逐次提供された情報を、適切な形式、例えば可視化された情報に変換し、表示部１０２に逐次表示させる（ステップＳ４０６）。

発話内容解析部４２３による音声信号の逐次解析により、解析結果提示部４２５において、逐次解析に基づく情報の逐次表示が可能になる。なお本実施形態では、発話内容解析部４２３による音声信号の逐次解析により得られる情報と、解析結果提示部４２５により逐次表示される情報との間には、相関性があってもよく、相関性が無くても良い。

解析結果提示部４２５は、発話内容解析部４２３による逐次解析により得られる情報を表示部１０２に逐次表示させている際に、ユーザ１が発話した内容の発話内容解析部４２３による解析が完了したかどうか判断する（ステップＳ４０８）。このステップS４０８の判断は、例えば、発話内容解析部４２３が、ユーザ１が発話した内容の解析が完了したことを示すフラグを設定した状態で、解析により得られる情報を発話内容取得部４２４へ提供したかどうかを解析結果提示部４２５で判断することで実行されるようにしてもよい。

上記ステップＳ４０８の判断の結果、ユーザ１が発話した内容の発話内容解析部４２３による解析が完了していないと判断した場合は、解析結果提示部４２５は、上記ステップＳ４０６の表示部１０２への逐次表示を継続する。

一方、上記ステップＳ４０８の判断の結果、ユーザ１が発話した内容の発話内容解析部４２３による解析が完了したと判断した場合は、解析結果提示部４２５は、逐次解析に伴う可視化された情報の逐次表示から、発話内容解析部４２３での解析の完了により得られる解析結果に切り替えて表示部１０２に表示させる（ステップＳ４１０）。

本開示の第２の実施形態に係る情報処理装置１０は、上述したように動作することで、ユーザ１が集音装置１１０に向かって発話している最中であっても、その発話に伴う情報を表示部１０２に表示させる。本開示の第２の実施形態に係る情報処理装置１０は、ユーザ１が集音装置１１０に向かって発話している最中であっても、その発話に伴う情報を表示部１０２に表示させることで、ユーザ１に待たされる感覚を覚えさせずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能となる。

以上、本開示の第２の実施形態に係る情報処理装置１０の動作例について説明した。次に、上述したような情報処理装置１０の動作例によって表示部１０２に表示される情報の例について説明する。

［２−４．第２の実施形態で表示される画面の例］
図２０は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２０に示したのは、ユーザ１が集音装置１１０に向かって発話している間に、情報処理装置１０の動作により表示部１０２に表示される内容の変遷である。

ユーザ１が集音装置１１０に向かって話し始めると、発話内容解析部４２３は、ユーザ１によって発話された内容の解析を開始する。発話内容解析部４２３は、ユーザ１によって発話された内容の解析を開始すると、ユーザ１によって発話された内容の解析が完了する前であっても解析により得られる情報を発話内容取得部４２４へ逐次提供する。そして解析結果提示部４２５は、発話内容取得部４２４が逐次取得した情報を用いて、ユーザ１によって発話されている内容を可視化した情報を生成し、その情報を表示部１０２に表示させる。

図２０には、ユーザ１が集音装置１１０に向かって発話している間に、情報処理装置１０の動作により表示部１０２に表示される画面ｖ４１、ｖ４２、ｖ４３、ｖ４４が示されている。画面ｖ４１、ｖ４２、ｖ４３、ｖ４４には、いずれもマイクを意味しているアイコンｖ４１０が表示されている。

図２０の一番上は、ユーザ１が集音装置１１０に向かって発話を始めた直後の、表示部１０２に表示される画面ｖ４１を示している。ユーザ１が「おすすめの中華料理」と喋ろうとしている場合を例示すれば、図２０の一番上は、「おす」程度まで喋っている状態を示している。図２０の一番上に示したように、ユーザ１が集音装置１１０に向かって発話を始めた直後から、解析結果提示部４２５は、その発話により得られる情報を可視化して表示部１０２に表示させる。図２０の一番上では、ユーザ１が喋ろうとしている内容とは無関係の抽象的な記号が情報ｖ４１１として画面ｖ４１に表示されているが、発話内容解析部４２３が、ユーザ１が「おす」まで喋ったところで「おす」と喋ったことが認識でき、その旨を発話内容取得部４２４が取得していれば、解析結果提示部４２５は、画面ｖ４１の情報ｖ４１１に「おす」と表示させてもよい。

図２０の上から２番目は、一番上に示した状態からさらにユーザ１が話し続けた場合の、表示部１０２に表示される画面ｖ４２を示している。ユーザ１が「おすすめの中華料理」と喋ろうとしている場合を例示すれば、図２０の一番上は、「おすすめの中華」程度まで喋っている状態を示している。図２０の上から２番目でも、図２０の一番上と同様にユーザ１が喋ろうとしている内容とは無関係の記号が情報ｖ４１１として画面ｖ４１に表示されている。

図２０の上から３番目、及び上から３番目は、ユーザ１が喋り終わった状態で表示部１０２に表示される画面ｖ４３、ｖ４４を示している。ユーザ１が一通り喋り終わると、発話内容解析部４２３は、ユーザ１が喋った内容の解析結果を確定させて発話内容取得部４２４に提供する。解析結果提示部４２５は、画面ｖ４３のように、ユーザ１が喋った内容の確定された解析結果を、それまで表示部１０２に表示させていた情報ｖ４１１を消し、画面ｖ４４のように、情報ｖ４１１を情報ｖ４１２に置き換えて表示させる。

図２０では、ユーザ１が集音装置１１０に向かって発話している間に表示部１０２に表示させる情報として抽象的な記号を示したが、本開示は係る例に限定されるものではない。

図２１は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２１に示したのは、ユーザ１が集音装置１１０に向かって発話している間に、情報処理装置１０の動作により表示部１０２に表示される内容の変遷である。

解析結果提示部４２５は、図２１に示したように、ユーザ１が集音装置１１０に向かって発話している間に表示させる情報ｖ４２１として、抽象的な図形を表示部１０２に表示させてもよい。

図２１の一番上は、図２０の一番上のようにユーザ１が集音装置１１０に向かって発話を始めた直後に表示部１０２に表示される情報ｖ４２１を示し、図２１の上から２番目は、図２０の上から２番目のように一番上に示した状態からさらにユーザ１が話し続けた場合に表示部１０２に表示される情報ｖ４２１を示している。このように解析結果提示部４２５は、ユーザ１の発話時間に応じて抽象的な図形の表示幅を伸ばしても良い。

そして図２１の上から３番目は、ユーザ１が喋り終わった状態で表示部１０２に表示される情報ｖ４２２を示す。情報ｖ４２２は、発話内容解析部４２３が確定させた、ユーザ１が喋った内容の解析結果である。図２１では、発話内容解析部４２３は、「おすすめのイタリアンのお店」とユーザ１が喋ったと解析したので、解析結果提示部４２５は、その「おすすめのイタリアンのお店」を情報ｖ４２２として表示部１０２に表示させる。

図２２は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２２に示したのは、ユーザ１が集音装置１１０に向かって発話している間に、情報処理装置１０の動作により表示部１０２に表示される内容の変遷である。

解析結果提示部４２５は、図２２に示したように、ユーザ１が集音装置１１０に向かって発話している間に表示させる情報ｖ４３１として、インジケータを表示部１０２に表示させてもよい。

図２２の一番上は、図２０の一番上のようにユーザ１が集音装置１１０に向かって発話を始めた直後に表示部１０２に表示される情報ｖ４３１を示し、図２２の上から２番目は、図２０の上から２番目のように一番上に示した状態からさらにユーザ１が話し続けた場合に表示部１０２に表示される情報ｖ４３１を示している。このように解析結果提示部４２５は、ユーザ１の発話時間に応じてインジケータの表示幅を伸ばしても良い。

そして図２２の上から３番目は、ユーザ１が喋り終わった状態で表示部１０２に表示される情報ｖ４３２を示す。情報ｖ４３２は、発話内容解析部４２３が確定させた、ユーザ１が喋った内容の解析結果である。図２２では、発話内容解析部４２３は、「おすすめのイタリアンのお店」とユーザ１が喋ったと解析したので、解析結果提示部４２５は、その「おすすめのイタリアンのお店」を情報ｖ４３２として表示部１０２に表示させる。

図２３は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２３に示したのは、情報処理装置１０による音声認識の開始から終了までの流れの一例である。

図２３には、ユーザ１による音声入力が無い状態が示されている。ユーザ１による音声入力が無い非アクティブ状態では、解析結果提示部４２５は、マイクアイコンとして表示させる情報ｖ４１０をグレーアウトする、非表示にする等の表示でユーザ１へフィードバックする。

図２３には、ユーザ１による音声入力が無い状態から、ユーザ１による発話その他何らかのタイミングで集音装置１１０への音声入力が開始された状態が示されている。集音装置１１０への音声入力が開始されると、解析結果提示部４２５は、マイクアイコンとして表示させる情報ｖ４１０を図２３のように表示させる。

図２３には、集音装置１１０への音声入力が開始された状態から、ユーザ１による発話が行われている最中の状態が示されている。ユーザ１による発話が行われて音声信号が受け付けられている間は、解析結果提示部４２５は、その音声信号の受け付けのフィードバックとして、図２３のように音量レベルに応じた表示を表示部１０２に行わせる。

図２３には、集音装置１１０への音声入力が開始された状態から、ユーザ１による発話が行われている最中の状態が示されている。図２３では、上述したようなリアルタイムでの音声認識のフィードバックを行う様子を示す。図２３に示したフィードバックは、音声の受け付け中、及びユーザ１の発話による音声信号の発生が終了した後の、信号解析中に解析結果提示部４２５によって表示部１０２に表示される。

図２３に示した例では、複数の大小様々な円からなるグラフィックの表示領域は、ユーザ１により発話された語の長さにより決定され得る。このユーザ１による発話語の長さは、発話内容解析部４２３が発話時間（有音区間）、登録辞書の長さより推測して、認識語と同幅に近づくよう調整する。図２３の例では、複数の大小様々な円からなるグラフィックの表示領域が、マイクアイコンで表示される情報ｖ４１０から右横に伸びている様子が示されている。

図２３には、ユーザ１による発話が終了し、発話内容解析部４２３による音声認識の結果が表示されている状態が示されており。図２３に示したような抽象的な図形は、フェードアウトする、発話内容解析部４２３による音声認識の結果に変化する等して表示部１０２から消える。

本開示の第２の実施形態に係る情報処理装置１０は、図２３に示すように、最終的な音声認識の結果を解析結果提示部４２５が受け取る前に、認識結果を表示する領域を確保するものである。

音声認識では通常、ユーザ１は音声信号の終了後に音声信号の解析処理を待つ必要があった。しかし本開示の第２の実施形態に係る情報処理装置１０は、図２３に示したリアルタイム音声認識の表現と、結果表示の表現とを滑らかに繋げることにより、ユーザ１の感覚的な待ち時間を減らすことができる。つまり本開示の第２の実施形態に係る情報処理装置１０は、上述の説明のように情報を表示部１０２に表示することで、音声信号終了（あるいは信号受付中）と同時に認識結果が表示されているようにユーザ１に感じさせることが可能である。

図２３に示したようなリアルタイム音声認識の表現と、結果表示の表現とを滑らかに繋げる表現として、例えば下記で示すような表現がある。

例えば解析結果提示部４２５は、ユーザ１の発話内容の解析によって、音量レベル、発話時間、登録単語の長さを推測し、抽象的な図形や記号を表示部１０２に表示し得る。

発話内容解析部４２３の解析により、ユーザ１の発話内容の解析途中であっても音素情報が得られる場合、解析結果提示部４２５は、その音素情報をリアルタイムに表示し得る。図２４は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２４に示したのは、情報処理装置１０による音声認識の開始から終了までの流れの一例であり、音素情報をリアルタイムに表示する場合の例である。

発話内容解析部４２３の解析により、ユーザ１の発話内容の解析途中であっても音素情報が得られる場合、図２４に示したたように、解析結果提示部４２５は音素情報を逐次表示していき、キーボード入力による単語変換のように表示を変化させ得る。図２４に示した例では、発話内容解析部４２３の解析により「ｓａ・ｎ・ｇｏ・ｋｕ・ｓｈｉ」という音素が認識され、その認識結果に基づき、解析結果提示部４２５が「三國志」と変換して表示させている。

なお、発話内容解析部４２３は各音素を誤って認識する可能性もある。従って解析結果提示部４２５は、例えば辞書データ保持部４３０が保持する単語の音素情報と比較し、類似度が高いものがあった場合は、それをユーザ１により発話されている単語と認識し、誤って表示されている音素を修正し得る。

また、音素列が言語の文法的におかしい場合、解析結果提示部４２５は、その音素列が部分的に間違っていると認識し、正しい音素列へと変換し得る。図２５は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２５に示したのは、情報処理装置１０による音声認識の開始から終了までの流れの一例であり、音素情報をリアルタイムに表示する場合の例である。

図２５の一番上は、発話内容解析部４２３の解析により「Ｔｋｙｏ」という音素列が出力され、解析結果提示部４２５は「Ｔｋｙｏ」と表示させた状態を示している。しかし、解析結果提示部４２５は、例えば辞書データ保持部４３０や、ネットワーク上に存在するサーバ等が保持する単語の音素情報と比較し、この音素列は「Ｔｏｋｙｏ」と認識し損ねたものであると認識し得る。この場合、図２５の上から２番目に示したように、解析結果提示部４２５は「Ｔｋｙｏ」から「Ｔｏｋｙｏ」へと表示を変化させ得る。最終的に発話内容解析部４２３からの解析結果を取得すると、図２５の上から３番目に示したように、解析結果提示部４２５は「Ｔｏｋｙｏ」から「東京」へと表示を変化させ得る。

また例えば解析結果提示部４２５は、コンテキストに合った単語群からランダムに表示していき、発話内容解析部４２３によって認識された単語を受け取った時点でその認識された単語と入れ替えるよう表示し得る。なお上述のコンテキストとは、例えば実行中のアプリケーションやサービスにおいて登録されている単語群等であり、音声認識で登録辞書を用いない場合は、そのアプリケーションやサービスで多く利用されている単語や任意の推薦エンジンから得られる、ユーザ１が最も発話しそうな単語等である。ランダムに表示される単語は、ユーザ１が実際に発話する単語とは異なる可能性が高い。従って解析結果提示部４２５は、単語をランダムに表示させる際に、例えばスロットのように短いタイミングで切り替わる、ブラーを掛ける等の表示形態を採り得る。

図２６は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２６に示したのは、情報処理装置１０による音声認識の開始から終了までの流れの一例であり、音素情報をリアルタイムに表示する場合の例である。

図２６の一番上は、発話内容解析部４２３の解析により、ユーザ１が３文字分の単語を発話したことが出力され、解析結果提示部４２５は、その発話内容解析部４２３の解析により得られた情報を用い、３文字分の単語の中から「リンゴ」と表示させた状態を示している。この場合、ユーザ１は実際には「リンゴ」と言う語を発していない可能性が高いが、このように何らかの単語を表示させることで、本開示の第２の実施形態に係る情報処理装置１０は、ユーザ１の感覚的な待ち時間を減らすことができる。

図２６の上から２番目は、一番上の状態からさらにユーザ１が発話を継続した場合の表示例である。解析結果提示部４２５は、発話内容解析部４２３からの解析結果を取得し、一番上で表示させた「リンゴ」の右側に、抽象的な記号や図形等を表示させる。

図２６の上から３番目は、上から２番目の状態以降にユーザ１の発話が完了し、発話内容解析部４２３が解析結果を確定させた場合の表示例である。解析結果提示部４２５は、発話内容解析部４２３からの解析結果を取得し、発話内容解析部４２３に解析結果である「チューリップ」という単語を表示させる。

ここまで示してきた記号、図形、音素情報等は、発話内容解析部４２３において話者を区別した解析が可能な場合には、解析結果提示部４２５は話者を区別して表示し得る。たとえば、話者Ａが「あい（音素：ａｉ）」と話して、続いて話者Ｂが「うえお（音素：ｕｅｏ）」と話し、発話内容解析部４２３が話者を識別して解析出来た場合には、解析結果提示部４２５は「ａｉ」と「ｕｅｏ」とを区別して表現し得る。

［２−５．第２の実施形態の変形例］
ここまでは、解析結果提示部４２５が、発話内容解析部４２３の解析結果を逐次取得して、リアルタイムに発話内容解析部４２３の解析に基づく情報を表示させる例を示した。しかし、発話内容解析部４２３によるユーザ１の発話内容の解析中に、ユーザ１から所定のキャンセル操作があれば、解析結果提示部４２５は、情報の表示が取り消されるような表示を行わせても良い。

図２７は、本開示の第２の実施形態に係る情報処理装置１０の変形例を示す説明図である。図２７には、図１８からさらに取消受付部４２６が表示装置１００の内部に追加された構成が示されている。

（取消受付部４２６）
取消受付部４２６は、解析結果提示部４２５による情報の表示中に、その情報の表示の取消操作を受け付ける。表示装置１００への取消通知の方法としては、例えばリモートコントローラを使ったキャンセル操作、他サービスの起動等による強制終了、ユーザ１の発話によるキャンセル操作、ユーザのジェスチャーによるキャンセル操作等がある。取消受付部４２６は、表示の取消操作を受け付けると、取消操作を受け付けた旨を解析結果提示部４２５に送る。解析結果提示部４２５は、取消受付部４２６からの取消操作を受け付けた旨の受信により、情報の表示が取り消されるような表示を実行する。

図２７は、本開示の第２の実施形態に係る情報処理装置１０の動作により表示部１０２に表示される情報の例を示す説明図である。図２８に示したのは、情報処理装置１０による音声認識の開始から終了までの流れの一例であり、情報の表示が一旦取り消されるように表示装置１００が表示を実行してから、再度情報を表示する場合の例である。

図２８の一番上は、図２０の一番上のようにユーザ１が集音装置１１０に向かって発話を始めた直後に表示部１０２に表示される情報ｖ４３１を示し、図２８の上から２番目は、図２０の上から２番目のように一番上に示した状態からさらにユーザ１が話し続けた場合に表示部１０２に表示される情報ｖ４３１を示している。

この図２８の上から２番目の状態で、ユーザ（ユーザ１）が所定の取消操作を実行すると、解析結果提示部４２５は、図２８の上から３番目のように、伸びていたインジケータを縮ませるよう表示させる。例えばユーザ１が「おすすめのイタリアン」と発話した後に「…はやめて」と発話すると、その「…はやめて」という部分を発話内容解析部４２３が解析し、ユーザ１による取消操作が行われたと認識し得る。発話内容解析部４２３は、ユーザ１による取消操作が行われたことを取消受付部４２６に送り、取消受付部４２６は、ユーザ１による取消操作が行われたことを解析結果提示部４２５に通知する。解析結果提示部４２５は、ユーザ１による取消操作が行われたことを認識すると、図２８の上から３番目のように、伸びていたインジケータを縮ませるような表示を行わせる。

ユーザ１が「…はやめて」の後に「中華料理」と発話すると、解析結果提示部４２５は、図２８の上から３番目のように縮ませたインジケータを再び伸ばすよう表示させる。そして発話内容解析部４２３が解析を完了させると、解析結果提示部４２５は、図２８の上から５番目のように、インジケータ表示から解析結果表示（「おすすめの中華料理」）に滑らかに変化させて表示させる。

このように、情報の表示が一旦取り消されるように表示を実行してから、再度情報を表示することで、表示装置１００は、ユーザ１に対して取り消し操作が認識されたこと、及び取り消し操作の認識の後に音声認識処理が再度実行されたことをユーザ１にグラフィカルに見せることが出来る。

上記実施形態では、ユーザ１によって発話された内容を解析、解析結果を表示する表示装置１００に集音装置１１０が接続されている情報処理装置１０を示したが、本開示は係る例に限定されるものではない。例えば、ユーザ１によって発話された内容の解析及び表示される情報の生成と、ユーザ１によって発話された内容の表示は、別々の装置で実行されても良い。すなわち、図１８に示した表示制御ユニット４２０を備える装置と、表示部１０２を備える装置とが、別々の装置であってもよい。

またさらに、図１８に示した表示制御ユニット４２０に含まれる構成要素について、発話内容解析部４２３と、解析結果提示部４２５とが、別々の装置に設けられていても良い。すなわち、ユーザ１によって発話された内容の解析処理と、ユーザ１によって発話された内容に基づいて表示される情報の生成処理とは、別々の装置で実行されても良い。

［２−６．第２の実施形態の変形例］
以上説明したように本開示の第２の実施形態によれば、集音装置１１０に向かって話しているユーザ１が待たされている感覚を覚えずに、リアルタイムで処理が行われているように感じさせる音声認識処理の実行が可能な情報処理装置１０を提供することが出来る。本開示の第２の実施形態に係る情報処理装置１０は、ユーザ１が発話した内容を逐次解析し、その逐次解析に基づく内容を表示装置１００に逐次表示させる。

逐次解析に基づく内容が表示装置１００に逐次表示されることで、本開示の第２の実施形態に係る情報処理装置１０を使用するユーザ１は、集音装置１１０に向かって話しかけると直ぐさま何らかのフィードバックを受けることが出来る。そのため本開示の第２の実施形態に係る情報処理装置１０は、集音装置１１０に向かって話しているユーザ１に対して、待たされている感覚を覚えずに済むという効果を奏する。

＜３．第３の実施形態＞
［３−１．第３の実施形態の概要］
続いて、第３の実施形態に係る情報処理装置の概要について説明する。音声認識により所望の処理を実行可能なＵ／Ｉの中には、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）モードのように音声入力を常時受け付けるモードで動作可能なものがある。ＶＡＤモードのように音声入力を常時受け付けていると、ユーザが意図して入力した音声以外に、例えば、音声入力を意図しない会話や環境音（例えば、ＴＶから出力される音声）のような周囲の雑音に反応してしまう場合がある。また、ＶＡＤモードに限らず、ＰＴＴ（Ｐｕｓｈ−Ｔｏ−Ｔａｌｋ）方式のように、音声認識が有効な区間をユーザまたはシステムが指定するモードにおいても、音声認識が有効な区間において同様の課題が存在する。

そこで、第３の実施形態に係る情報処理装置では、集音された音声信号の認識結果を履歴として蓄積し、蓄積された履歴をアクセス可能に画面上に表示させることが可能な情報処理装置を提供する。このような構成とすることで、雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。本実施形態に係る情報処理装置について以下に具体的に説明する。
［３−２．第３の実施形態の構成］

まず、図１を参照しながら、第３の実施形態に係る情報処理装置１０の構成について説明する。図１に示すように、第３の実施形態に係る情報処理装置１０は、表示装置１００と、集音装置１１０と含む。なお、集音装置１１０の動作は、第１の実施形態に係る情報処理装置と同様のため、詳細な説明は省略する。

表示装置１００は、表示部１０２を備え、操作画面や所望の処理の実行結果を表示部１０２に出力する装置である。情報処理装置１０が起動されると、表示装置１００は、操作画面を生成して表示部１０２に表示させる。

本実施形態に係る表示装置１００は、集音装置１１０で集音された音声信号の認識結果を、履歴情報として画面上に表示させる。例えば、図２９は、第３の実施形態に係る画面構成の一例を示した説明図である。画面ｖ５０は、表示装置１００の表示部１０２に表示された画面である。図２９に示すように、画面ｖ５０は、音声バーｖ５１０と、履歴情報ｖ５２１とを含む。

音声バーｖ５１０は、例えば、集音装置１１０により集音された音声信号の検知状況に応じて、表示態様（例えば、色）が変化するように構成されている。このように、表示装置１００は、音声信号の検知状況に応じて、音声バーｖ５１０の表示態様を変化させることで、音声信号が検知されていることをユーザ１に視覚的に通知することが可能となる。なお、音声バーｖ５１０の表示態様の詳細については、実施例３として後述する。

履歴情報ｖ５２１は、集音装置１１０で集音された音声信号に対して音声認識処理が施された発話内容を示す音声情報の履歴を示している。本実施形態に係る表示装置１００では、集音装置１１０で集音された音声信号に対応する音声情報が取得されると、その時点では、音声信号に対応する処理やコンテンツは起動されず、取得された音声情報が履歴とし一旦蓄積される。そして、所定のキーワードに対応する音声情報が取得された場合に、表示装置１００は、画面ｖ５０に表示された履歴情報ｖ５２１に対応するコンテンツの情報を取得し、取得されたコンテンツの情報を関連情報として表示させる。

また、関連情報が表示された状態で、表示された関連情報のいずれかに対応する語句が音声情報として取得されると、表示装置１００は、取得された音声情報に対応する処理またはコンテンツを起動する。このような構成とすることで、雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。以降では、これらの動作の詳細について、表示装置１００の構成とあわせて説明する。

［３−３．表示装置の構成］
図３０を参照しながら、第３の実施形態に係る表示装置１００の構成に着目して説明する。図３０は、第３の実施形態に係る表示装置１００の構成の一例を示した図である。図３０に示すように、本実施形態に係る表示装置１００は、表示部１０２と、信号取得部５１０と、表示制御ユニット５２０と、解析部５３０と、辞書データ保持部５４０と、履歴記憶部５５０と、コンテンツＤＢ５６０と、コンテンツ特定部５６１と、システム情報取得部５７０とを含む。

（信号取得部５１０）
信号取得部５１０は、第１の実施形態に係る信号取得部３１０（図２参照）と同様に動作する。即ち、信号取得部５１０は、集音装置１１０から出力された音声信号を検知し取得する。音声信号を検知すると、信号取得部５１０は、検知結果を後述する表示制御ユニット５２０の表示制御部５２１に通知する。なお、信号取得部５１０がは、本開示の「検知部」の一例に相当する。

また、信号取得部５１０は、取得された音声信号を解析部５３０に出力する。この出力を受けて、解析部５３０は、信号取得部５１０から取得した音声信号を解析する。

（解析部５３０）
解析部５３０は、信号取得部５１０で取得された音声信号を解析する解析部である。音声認識に係る処理は、この解析部５３０により実行される。図３０に示すように、解析部５３０は、音声情報取得部５３１と、発話内容解析部５３２と、レベル解析部５３３とを含む。解析部５３０は、信号取得部５１０から音声信号を取得する。解析部５３０は、取得した音声信号を、音声情報取得部５３１、発話内容解析部５３２、及びレベル解析部５３３に解析させる。なお、音声情報取得部５３１、発話内容解析部５３２、及びレベル解析部５３３による解析処理の詳細についてはそれぞれ後述する。解析部５３０は、音声信号の解析結果を解析結果取得部５２２に出力する。

音声情報取得部５３１は、第１の実施形態に係る音声情報取得部３３１（図２参照）と同様に動作する。即ち、音声情報取得部５３１は、音声信号に対して音声認識処理を施して、発話内容を示すテキストデータ（即ち、音声情報）を生成する。音声情報取得部５３１は、取得された音声情報を発話内容解析部５３２に出力する。

発話内容解析部５３２は、音声情報を解析して、その音声情報が示す意味を解釈する。発話内容解析部５３２は、第１の実施形態に係る発話内容解析部３３２（図２参照）と同様の機能を有する。即ち、発話内容解析部５３２は、取得された音声情報が、あらかじめ処理が関連付けられたキーワードと一致するか否かを判断する機能を有する。また、発話内容解析部５３２は、第１の実施形態に係る発話内容解析部３３２と同様に、取得された音声情報に類似するキーワードを特定できるようにしてもよい。なお、キーワードの一覧と、各キーワードに対応する処理との関係については、例えば、辞書データとして辞書データ保持部５４０に記憶させていてもよい。

上記に示すように、発話内容解析部５３２は、音声情報を解析して、その音声情報が示す意味を解釈し、対応するキーワードが存在するか否かを判定し、その判定結果を解析結果取得部５２２に通知する。なお、音声情報に対応するキーワードが存在する場合には、発話内容解析部５３２は、そのキーワードに対応する処理を示す情報を解析結果取得部５２２に出力する。これにより、解析結果取得部３２２は、どのような処理を実行すればよいのかを認識することが可能となる。なお、音声情報に一致するキーワードが存在しない場合には、発話内容解析部５３２は、その音声情報自体を解析結果取得部５２２に出力してもよい。

また、発話内容解析部５３２は、取得された音声情報を後述する履歴記憶部５５０に履歴として記憶させる。このとき発話内容解析部５３２は、履歴に対して、その履歴を特定するための情報を属性情報として関連付けて履歴記憶部５５０に記憶させてもよい。例えば、発話内容解析部５３２は、取得された音声情報の対象となるコンテンツを示す情報を、その音声情報に対応する履歴に属性情報として関連付けて記憶させてもよい。また、発話内容解析部５３２は、発話したユーザや、集音された集音装置１１０を特定するための情報を、属性情報として履歴に関連付けて履歴記憶部５５０に記憶させてもよい。また、音声情報が所定のキーワードに一致する場合には、その音声情報については履歴として記録しないように動作させてもよい。

また、発話内容解析部５３２は、形態素解析や構文解析のような自然言語処理を用いて音声情報を解析し、その音声情報が問合せを意味する音声情報の場合には、問合せに対して実行すべき処理を特定するようにしてもよい。例えば、音声情報が「面白いゲームない？」という問合せを意味する場合に、発話内容解析部５３２は、この問合せに対して、「ストアで人気のゲームを提示する」処理を特定するように動作する。なお、問合せを意味する音声情報と、その問合せに対する応答を意味する語句、及び、応答に対応する処理を示す情報については、あらかじめ関連付けてリストとして作成し、発話内容解析部５３２が読み出し可能な所定の記憶部に記憶させていてもよい。ここでは、問合せを意味する音声情報、応答を意味する語句、及び応答に対応する処理を示す情報については、辞書データ保持部５４０に記憶させておくものとする。

発話内容解析部５３２は、音声情報に対して自然言語処理を施し、その音声情報が問合せを意味する音声情報であると認識した場合に、当該音声情報をリストと比較して、対応する処理を特定する。そして、発話内容解析部５３２は、特定された処理を示す情報を、後述する解析結果取得部５２２を介して表示制御部５２１に通知する。これにより、表示制御部５２１は、問合せを意味する音声情報が入力された場合に、その応答としてどのような処理を実行すればよいかを認識することが可能となる。

また、発話内容解析部５３２は、取得された音声情報が問合せを意味する場合に、その問合せに対する応答を意味する語句を、その取得された音声情報に関連付けて履歴記憶部５５０に履歴として記録してもよい。このように、応答を意味する語句を履歴に関連付けておくことで、後述する表示制御部５２１は、問合せを意味する音声情報が取得された場合に、取得された音声情報の履歴に替えて、応答を意味する語句を履歴情報として提示することもできる。

具体的な一例として、音声情報が「面白いゲームない？」という問合せを意味する場合に、「ストアで人気のゲームが提示されていること」を意味する「ＨＩＴＧＡＭＥＬＩＳＴ」のような語句を、その音声情報の履歴に関連付けて記憶させるとよい。これにより、ユーザ１から「面白いゲームない？」という音声情報が入力された場合に、表示制御部５２１は、例えば、「ストアで人気のゲームを提示する」ためのリンクを、「ＨＩＴＧＡＭＥＬＩＳＴ」と表示された履歴情報して提示することが可能となる。もちろん、「ストアで人気のゲームを提示する」ためのリンクを、「面白いゲームない？」という音声情報の履歴が示された履歴情報として提示してもよい。

なお、ここで示した構成はあくまで一例であり、取得された音声情報が問合せを意味する場合に、応答を意味する語句の履歴情報が提示できれば、その方法は限定されない。例えば、発話内容解析部５３２が、取得された音声情報が問合せを意味する場合に、応答を意味する語句を、解析結果取得部５２２を介して表示制御部５２１に通知してもよい。この場合には、表示制御部５２１は、履歴情報取得部５２４を介して取得した履歴に基づく履歴情報の表示を、発話内容解析部５３２から取得した、応答を意味する語句に切り替えればよい。

レベル解析部５３３は、第１の実施形態に係るレベル解析部３３３（図３参照）と同様に動作する。即ち、レベル解析部５３３は、音声信号を解析することで信号のレベルを特定し、特定されたレベルを解析結果取得部３２２に出力する。なお、レベル解析部５３３は、音声信号のピーク値を出力するようにしてもよいし、レベルの平均値を出力するようにしてもよい。また、レベル解析部５３３は、取得される音声信号をモニタリングし、その音声信号のレベルを逐次出力するように動作させてもよい。

（辞書データ保持部５４０）
辞書データ保持部５４０は、第１の実施形態に辞書データ保持部３４０（図３参照）と同様の構成を有する。即ち、音声情報取得部５３１及び発話内容解析部５３２がそれぞれの処理を実行するための各種データを記憶する。各種データの一例としては、音声情報取得部５３１が音声認識処理を実行するための各種モデル及び辞書データや、発話内容解析部５３２が、音声情報の示す意味を解釈するための辞書データが挙げられる。

また、辞書データ保持部５４０は、問合せを意味する音声情報と、その問合せに対する応答を意味する語句、及び、応答に対応する処理を示す情報を関連付けてあらかじめ記憶している。これにより、発話内容解析部５３２は、辞書データ保持部５４０を検索することで、所望の問合せに対して、応答を意味する語句、及びその応答に対応する処理を特定することが可能となる。

（システム情報取得部５７０）
システム情報取得部５７０は、情報処理装置１０の処理部（図示しない）により所定の処理が実行された場合に、この処理が実行された旨の通知と、その処理の結果を処理部から取得する。具体的な一例として、所定のシステムに対して他のユーザ（例えば、ユーザ２とする）がログインした場合に、ユーザ２がログインした旨が処理部からシステム情報取得部５７０に通知される。また、別の一例として、ユーザ１宛てのメールが受信された場合に、システム情報取得部５７０は、ユーザ１宛てのメールが受信された旨や、そのメールの内容を示す情報を処理部から通知される。システム情報取得部５７０は、処理部から通知された情報（以降では、「システム情報」と呼ぶ場合がある）を履歴として履歴記憶部５５０に記憶させる。なお、この履歴を用いた具体的な動作については、実施例４として後述する。

（履歴記憶部５５０）
履歴記憶部５５０は、取得された音声情報を履歴として記憶する。履歴記憶部５５０は、取得された音声情報を、その音声情報が取得されたタイミングを示す情報と関連付けて記憶してもよい。このような構成により、例えば、「昨日視聴した動画」を特定するなどのように、過去の音声認識の結果に基づき、所定の音声情報に関連する情報やコンテンツを特定することが可能となる。

また、履歴記憶部５５０は、所定のユーザに限らず他のユーザが発話した内容、例えば、異なる複数の集音装置１１０で集音された音声信号に基づく音声情報をそれぞれ履歴として記憶するようにしてもよい。このような構成により、例えば、「先週、最も再生された音楽」を特定するなどのように、過去の音声認識の結果に基づき、本人のみに限らず複数ユーザの間で利用頻度の高い音声情報に関連する情報やコンテンツを特定することが可能となる。

また、履歴記憶部５５０は、音声情報に限らず、システム情報取得部５７０から通知された、システム情報を履歴として記憶してもよい。このとき、履歴記憶部５５０は、音声情報の履歴と、システム情報との履歴を識別可能に記憶してもよい。

（表示制御ユニット５２０）
表示制御ユニット５２０は、画面ｖ５０の生成及び表示更新に係る処理を実行する。図３０に示すように、表示制御ユニット５２０は、表示制御部５２１と、解析結果取得部５２２と、コンテンツ情報取得部５２３と、履歴情報取得部５２４と、入力情報取得部５２５を含む。

解析結果取得部５２２は、信号取得部５１０で取得された音声信号の解析結果を解析部５３０から取得し、取得された解析結果を表示制御部５２１に出力する。音声信号の解析結果としては、例えば、取得された音声信号に対応する音声情報が所定のキーワードに対応しているか否かを示す情報や、音声信号のレベルを示す情報が挙げられるまた、音声情報が所定のキーワードに対応している場合には、そのキーワードに関連付けられた処理を示す情報を音声信号の解析結果に含めておくとよい。これにより、解析結果を受けた表示制御部５２１が、そのキーワードに対応してどのような処理を実行すればよいかを認識することが可能となる。

また、解析結果取得部５２２は、解析部５３０から、音声情報が所定のキーワードに対応している旨を示す情報を取得した場合には、このことを入力情報取得部５２５に通知する。この処理に基づく動作の詳細については、入力情報取得部５２５の詳細とあわせて後述する。

コンテンツ情報取得部５２３は、所望の条件に一致するコンテンツの情報を後述するコンテンツ特定部５６１から取得する。具体的には、コンテンツ情報取得部５２３は、表示制御部５２１からの指示に基づきコンテンツを取得するための検索条件を生成し、生成された検索条件を後述するコンテンツ特定部５６１に出力する。その応答として、コンテンツ情報取得部５２３は、検索条件に一致するコンテンツの情報をコンテンツ特定部５６１から取得する。コンテンツ情報取得部５２３は、取得されたコンテンツの情報を表示制御部５２１に出力する。このような構成により、表示制御部５２１は、例えば、所望の音声情報に対応するコンテンツの情報を取得し、取得された各コンテンツの情報を、前述の音声情報に関連する関連情報として表示させることが可能となる。

履歴情報取得部５２４は、表示制御部５２１の指示を受けて、所定の条件に一致する履歴を履歴記憶部５５０から取得し、取得した履歴を表示制御部５２１に出力する。

具体的な一例として、履歴記憶部５５０は、表示制御部５２１からの指示に基づき、画面ｖ５０が最初に表示されたタイミング以降に記録された履歴を取得するとよい。これにより、例えば、ユーザ１が画面ｖ５０を表示装置１００に表示させてから、ユーザ１の発話により入力された音声情報に対応する履歴のみが、画面ｖ５０に表示されることとなる。また、別の一例として、履歴記憶部５５０は、表示制御部５２１からの指示に基づき、所望の期間（例えば、過去３日間）に記録された履歴を取得してもよい。

また、上述したような履歴情報取得部５２４による処理は、例えば、信号取得部５１０が音声情報を検知したタイミングに同期して動作させるとよい。このような構成とすることで、検知された音声情報の履歴に基づく情報をリアルタイムで画面ｖ５０に表示させることが可能となる。

入力情報取得部５２５は、取得された音声情報が所定のキーワードに対応している場合に、音声情報が所定のキーワードに対応していることを示す通知を解析結果取得部５２２から取得する。この通知を受けると、入力情報取得部５２５は、あらかじめ決められた操作に基づく入力（この場合は、音声情報としての所定のキーワードの入力）があったことを表示制御部５２１に通知する。これにより、表示制御部５２１は、音声情報として所定のキーワードが入力された場合に、そのキーワードに対応する処理の実行にあわせて画面ｖ５０の表示を更新することが可能となる。具体的な一例として、表示制御部５２１は、所定のキーワード（例えば、「Ａｃｔｉｏｎｓ」）に対応する音声情報が取得されると、画面ｖ５０に表示されている履歴情報に関連するコンテンツの情報を関連情報としてコンテンツ情報取得部５２３に取得させるといった動作が可能となる。なお、この入力情報取得部５２５の動作の詳細については、本実施形態の実施例２に後述する。

また、情報処理装置１０に、マウス、キーボード、またはタッチパネルのような入力デバイスを操作部１２０として設け、入力情報取得部５２５は、操作部１２０から操作内容を示す情報を取得できるように構成してもよい。このような構成により、例えば、操作部１２０に対してあらかじめ決められた操作が行われた場合に、入力情報取得部５２５は、操作部１２０に対して、あらかじめ決められた操作に基づく入力があったことを表示制御部５２１に通知することが可能となる。具体的な一例として、表示制御部５２１は、タッチパネルとしての操作部１２０に対して、所定の入力操作が行われた場合に、表示制御部５２１に対して、所定のキーワードに対応する音声情報が取得された場合と同様の通知を行うことが可能となる。即ち、音声入力に限らず、操作部１２０に対して所定の操作が行われた場合にも、音声入力が行われた場合と同様の処理を実行させることが可能となる。

表示制御部５２１は、表示装置１００が起動されると、まず画面ｖ５０を生成する。画面ｖ５０を生成するための画像等の部品は、表示制御部３２１が読み出し可能な構成にあらかじめ記憶させていてもよい。これにより、画面ｖ５０に、音声バーｖ５１０を含む所定の表示情報が表示される。

また、表示装置１００が起動された時に、表示制御部５２１は、履歴記憶部５５０に既に蓄積されている履歴について、履歴情報ｖ５２１を生成し画面ｖ５０に表示させてもよい。この場合には、表示制御部５２１は、履歴情報取得部５２４を介して、履歴記憶部５５０から所定の条件に基づく履歴を取得し、取得された履歴の履歴情報ｖ５２１を画面ｖ５０に表示させればよい。このような動作により、例えば、「現時点から１日前までの過去の履歴について履歴情報ｖ５２１を表示させる」といった動作が可能となる。

表示制御部５２１は、生成された画面ｖ５０を表示部１０２に表示させる。このようにして、表示部１０２に画面ｖ５０が表示される。

また、信号取得部５１０で音声信号が取得されると、表示制御部５２１は、取得された音声信号に対する解析結果を、解析結果取得部５２２を介して解析部５３０から取得する。

具体的な一例として、表示制御部５２１は、取得された音声信号に基づく音声情報が、所定のキーワードに一致するか否かの判定結果を発話内容解析部５３２から受ける。取得された音声信号に基づく音声情報が所定のキーワードに対応する場合には、表示制御部５２１は、そのキーワードに対応する処理を示す情報を、解析結果取得部５２２を介して発話内容解析部５３２から取得する。表示制御部５２１は、解析結果取得部５２２を介して発話内容解析部５３２から、所定のキーワードに対応する処理を示す情報を受けると、その情報が示す処理を実行する。なお、この表示制御部５２１の動作の詳細については、本実施形態の実施例２として後述する。

また、表示制御部５２１は、取得された音声信号に基づく音声情報が、所定のキーワードに一致しない場合に、その音声情報に対応する履歴の履歴情報を新たに表示させてもよい。この場合には、表示制御部５２１は、発話内容解析部５３２から判定結果を受けると、取得された音声信号に対応する音声情報の履歴を、履歴情報取得部５２４を介して履歴記憶部５５０から取得する。表示制御部５２１は、取得した履歴に基づき履歴情報を生成し、生成された履歴情報を画面ｖ５０に表示させる。なお、この表示制御部５２１の動作の詳細については、本実施形態の実施例１として後述する。

また、表示制御部５２１は、履歴情報に対応する音声情報に関連する情報を、関連情報として取得する機能を有してもよい。この場合には、表示制御部５２１は、画面ｖ５０に表示された各履歴情報に関連するコンテンツの一覧をコンテンツ情報取得部５２３に取得させ、取得されたコンテンツの一覧を関連情報として表示させてもよい。この機能の具体的な処理の一例として、表示制御部５２１は、まず各履歴情報に関連付けられた履歴を抽出する。そして、表示制御部５２１は、抽出された履歴をコンテンツ情報取得部５２３に出力し、関連情報の取得を指示する。この指示の応答として、表示制御部５２１は、コンテンツ情報取得部５２３を介してコンテンツ特定部５６１からコンテンツの一覧を取得する。表示制御部５２１は、コンテンツ特定部５６１から取得したコンテンツの一覧を、関連情報として、対応する履歴情報に関連づけて表示させる。なお、この表示制御部５２１の動作の詳細については、本実施形態の実施例２として後述する。

また、表示制御部５２１は、音声信号の検知状況に応じて、音声バーｖ５１０の表示を更新する。具体的な一例として、表示制御部５２１は、音声信号が検知されている場合（発話中の場合）と、音声信号が検知されていない無音の場合とを、音声バーｖ５１０に識別可能に表示させる。なお、この表示制御部５２１の動作の詳細については、本実施形態の実施例３として後述する。

（コンテンツＤＢ５６０）
コンテンツＤＢ５６０は、各コンテンツを、そのコンテンツの属性を示す属性情報と関連付けて記憶する。属性情報は、そのコンテンツを特定するための情報であり、具体的な一例として、ゲーム、音楽、動画のようなコンテンツの種別を示す情報や、発売日、歌手、販売元のメーカー等のようにそのコンテンツに関する情報が挙げられる。属性情報には、例えば、そのコンテンツが音声認識に対応しているか否かを示す情報を含めてもよい。属性情報として音声認識に対応しているか否かを示すことで、表示制御部５２１は、コンテンツごとに音声認識に対応しているか否かを判断し、音声認識に対応しているか否かに応じて、そのコンテンツに対応する表示情報の表示態様を切り替えることが可能となる

（コンテンツ特定部５６１）
コンテンツ特定部５６１は、所望の検索条件に一致するコンテンツの情報をコンテンツＤＢ５６０から抽出する。具体的には、コンテンツ特定部５６１は、コンテンツ情報取得部５２３からコンテンツを特定するための検索条件を取得する。コンテンツ特定部５６１は、取得した検索条件と、各コンテンツの属性情報とを比較し、検索条件に一致するコンテンツをコンテンツＤＢ５６０から抽出する。コンテンツ特定部５６１は、検索条件に対する応答（検索結果）として、抽出されたコンテンツの情報をコンテンツ情報取得部５２３に出力する。

なお、コンテンツ特定部５６１は、履歴記憶部５５０に記録された音声情報の履歴を組み合わせて、コンテンツの情報を抽出できるようにしてもよい。例えば、コンテンツ特定部５６１は、所望の時期に使用された頻度の高かった音声情報（もしくは、音声情報に含まれる語句）を特定し、その音声情報に対応するコンテンツをコンテンツＤＢ５６０から抽出してもよい。このような構成とすることで、例えば、「先週、最も再生された音楽」や「昨日視聴した動画」のように、間接的に指定されたコンテンツを抽出することが可能となる。

また、コンテンツ特定部５６１は、所望のコンテンツに関して発話された履歴を履歴記憶部５５０から抽出できるようにしてもよい。このような構成とすることで、コンテンツ特定部５６１は、例えば、あるコンテンツに関連して他のユーザが発話した内容を、そのコンテンツに関連する情報として抽出することが可能となる。また、コンテンツ特定部５６１は、コンテンツに限らず、所望の履歴に関して発話された他の履歴を履歴記憶部５５０から抽出できるようにしてもよい。このような構成とすることで、コンテンツ特定部５６１は、所望の語句（音声情報）に関連して、他のユーザが発話した内容を、その履歴に関連する情報として抽出することが可能となる。

なお、表示装置１００を構成する各部は、必ずしも１つの装置として実装される必要はなく、例えば、各構成がネットワークを介して接続されていてもよい。具体的な一例として、信号取得部５１０、表示制御ユニット５２０、及び表示部１０２を端末として構成し、解析部５３０、辞書データ保持部５４０、履歴記憶部５５０、コンテンツＤＢ５６０、及びコンテンツ特定部５６１、システム情報取得部５７０をサーバに配置してもよい。

［３−４．第３の実施形態の実施例１］
｛３−４−１．実施例１の概要｝
第３の実施形態の実施例１に係る情報処理装置１０の具体的な動作の一例について説明する。本実施形態の実施例１に係る情報処理装置１０は、集音された音声信号の認識結果として音声情報が取得されると、その音声情報に対応する処理やコンテンツを即座には実行せず、取得された音声情報を履歴として記憶する。そして、情報処理装置１０の表示制御部５２１は、記憶された履歴を、音声認識によりアクセス可能な表示情報（以降では、「履歴情報」と呼ぶ）として画面上に表示させる。実施例１では、本実施形態の実施例１に係る情報処理装置１０の画面の構成及び動作について、図３１を参照しながら、履歴を履歴情報として表示するまでの処理に着目して説明する。図３１は、本実施形態の実施例１に係る表示の一態様を示した図である。なお、履歴情報にアクセスして処理を実行させる例については、実施例２として後述する。

図３１に示す画面ｖ５０の例では、音声バーｖ５１０上に履歴情報ｖ５２１ａ〜ｖ５２１ｄが表示されている状態で、ユーザ１が「ＳＴＯＲＥ」という語句を発話した状態を示している。また、履歴情報ｖ５２１ｅは、ユーザ１の発話に伴う音声情報に対応している。なお、以降では、履歴情報ｖ５２１ａ〜ｖ５２１ｅを特に区別しない場合には、単に「履歴情報ｖ５２１」と記載する場合がある。また、本実施形態の実施例１では履歴情報ｖ５２１に着目して説明するものとし、音声バーｖ５１０の詳細については、実施例３として別途後述する。

表示制御部５２１は、音声バーｖ５１０上に表示された履歴情報ｖ５２１ａ〜ｖ５２１ｄを、それぞれに対応する履歴が記録された順に時系列に沿って並べて表示させる。なお、図３１に示す例では、履歴情報ｖ５２１ａが最も古く、ｖ５２１ｂ、ｖ５２１ｃ、ｖ５２１ｄの順に新しいものとする。

また、表示制御部５２１は、履歴情報ｖ５２１ａ〜ｖ５２１ｄを、時系列順に並べた方向に応じてスクロールするように表示させてもよい。図３１に示す例では、表示制御部５２１は、方向ｄ５０に向けて、履歴情報ｖ５２１ａ〜ｖ５２１ｄがスクロールするように表示させる。このように、履歴情報ｖ５２１ａ〜ｖ５２１ｄがスクロールするように表示されることで、ユーザ１は、履歴情報ｖ５２１ａ〜ｖ５２１ｄが時系列に沿って並んでいること、及び、時系列に沿った方向を直感的に認識することが可能となる。

ユーザ１が「ＳＴＯＲＥ」という語句を、集音装置１１０に向けて発話すると、集音された音声信号が解析部５３０で認識され、履歴として記憶される。そして、表示制御部５２１は、集音された音声情報の履歴に対応する履歴情報ｖ５２１ｅを画面ｖ５０に追加表示させる。

表示制御部５２１は、追加表示させた履歴情報ｖ５２１ｅを、既に表示されている履歴情報ｖ５２１ａ〜ｖ５２１ｄと同様に、音声バーｖ５１０上に表示させる。このとき、追加された履歴情報ｖ５２１ｅに対応する履歴が最も新しいことになる。そのため、図３１に示す例では、表示制御部５２１は、履歴情報ｖ５２１ｅを、履歴情報ｖ５２１ｄの右側（時系列に沿って新しい側）に配置する。

なお、表示制御部５２１は、方向ｄ５０に向けたスクロール表示に伴い、画面ｖ５０外に移動した履歴情報ｖ５２１を、そのまま非表示としてもよいし、画面ｖ５０内に再度表示させてもよい。例えば、履歴情報ｖ５２１が、画面ｖ５０の左端から画面外に移動した場合には、表示制御部５２１は、逆側の右端から移動するように再度画面ｖ５０内に表示させてもよい。また、再度画面ｖ５０内に表示させる場合には、表示制御部５２１は、各履歴情報ｖ５２１の時系列に沿った新旧が認識できるように、最も新しい履歴情報ｖ５２１と、最も古い履歴情報ｖ５２１とが離間して表示されるように、履歴情報ｖ５２１を再表示するタイミングを調整してもよい。

また、履歴情報ｖ５２１の表示態様は、図３１に示す画面ｖ５０の表示態様に限定されない。例えば、図３２は、本実施形態の実施例１に係る表示の一態様を示しており、図３１に示した画面ｖ５０とは表示態様の異なる画面ｖ５２について示している。図３２に示すように、表示制御部５２１は、履歴情報ｖ５２１をリング状に並べた画面ｖ５２を表示させてもよい。この場合には、表示制御部５２１は、これらの履歴情報ｖ５２１を、図３１に示した画面ｖ５０と同様に、時系列に沿って並べて表示させてもよい。

また、図３１に示した画面ｖ５０と同様に、表示制御部５２１は、履歴情報ｖ５２１をリングに沿って所定の方向にスクロールするように表示させてもよい。例えば、図３２に示す方向ｄ５２は、図３１の方向ｄ５０に対応している。この場合には、表示制御部５２１は、画面ｖ５２において、履歴情報ｖ５２１を方向ｄ５２に向けてスクロール表示させる。

｛３−４−２．実施例１の動作｝
次に、図３３及び図３４を参照しながら、本実施形態の実施例１に係る情報処理装置１０の動作について説明する。まず、図３３を参照する。図３３は、本実施形態の実施例１に係る情報処理装置１０の情報の表示に係る動作の一例を示したフローチャートである。

（ステップＳ５０１）
表示装置１００が起動されると、表示制御部５２１は、まず画面ｖ５０を生成する。このとき、画面ｖ５０を生成するための画像等の部品は、表示制御部３２１が読み出し可能な構成にあらかじめ記憶させていてもよい。これにより、画面ｖ５０に、音声バーｖ５１０を含む所定の表示情報が表示される。

表示制御部５２１は、生成された画面ｖ５０を表示部１０２に表示させる。このように、初期動作として、表示制御部５２１により画面ｖ５０が生成され、生成された画面ｖ５０が表示部１０２に表示される。

（ステップＳ５０２）
画面ｖ５０が生成され、生成された画面ｖ５０が表示部１０２に表示されると、表示装置１００は、音声信号の受付を開始する。具体的には、信号取得部５１０が、集音装置１１０で集音された音声信号の取得を開始する。

（ステップＳ５０３）
信号取得部５１０は、音声信号の取得に係る処理を、音声認識処理が有効になっている限り（例えば、表示装置１００が起動している限り）継続する（ステップＳ５０３、Ｎ）。

（ステップＳ５２０）
信号取得部５１０で音声信号が取得されることで音声信号が検知されると（ステップＳ５０３、Ｙ）、表示装置１００は、取得された音声信号に対して音声認識処理を施し、対応する音声情報を履歴情報として画面ｖ５０に表示させる。以降では、履歴情報の表示に係る動作について、図３４を参照しながら説明する。図３４は、本実施形態の実施例１に係る情報処理装置１０の履歴情報の表示処理の一態様を示したフローチャートである。

（ステップＳ５２１）
信号取得部５１０は、集音装置１１０で集音された音声信号を取得すると、取得した音声信号を解析部５３０に出力する。信号取得部５１０から解析部５３０に出力された音声信号は、音声情報取得部５３１により、音声認識処理が施されて音声情報が生成される。生成された音声情報は、履歴として履歴記憶部５５０に記憶される。

また、信号取得部５１０は、音声信号を検知した旨を表示制御部５２１に通知する。信号取得部５１０から音声信号を検知した旨が通知されると、表示制御部５２１は、履歴情報取得部５２４を介して、履歴記憶部５５０に記憶された履歴を取得する。

（ステップＳ５２２）
履歴記憶部５５０から履歴を取得したら、表示制御部５２１は、取得した履歴に対応する履歴情報ｖ５２１が画面上に表示されているか否かを確認する。

（ステップＳ５２３）
取得した履歴に対応する履歴情報ｖ５２１が画面ｖ５０に表示されていない場合には（ステップＳ５２２、Ｎ）、表示制御部５２１は、取得した履歴に対応する履歴情報ｖ５２１を生成し、生成した履歴情報に、取得した履歴を関連づけて画面ｖ５０に表示させる。なお、取得された履歴に対応する履歴情報ｖ５２１が既に画面ｖ５０に表示されている場合には（ステップＳ５２２、Ｙ）、表示制御部５２１は、履歴情報ｖ５２１の生成及び表示に係る処理は実行しなくてもよい。

（ステップＳ５０９）
ここで、再度図３３を参照する。音声信号を受け付けると、音声信号の受け付けに伴う履歴情報ｖ５２１の表示に係る処理は、表示装置１００の停止が選択されて一連の処理が終了しない限り継続される（ステップＳ５０９、Ｎ）。表示装置１００の停止が選択されると、表示装置１００は一連の処理を終了して停止する（ステップＳ５０９、Ｙ）。

以上のように、本実施形態の実施例１に係る情報処理装置１０は、集音された音声信号の認識結果として音声情報が取得されると、その音声情報に対応する処理やコンテンツを即座には実行せず、取得された音声情報を履歴として記憶する。そして、情報処理装置１０は、記憶された履歴を、音声認識によりアクセス可能な表示情報として画面上に表示させる。これにより、音声入力を意図しない会話や環境音（例えば、ＴＶから出力される音声）のような周囲の雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。

［３−５．第３の実施形態の実施例２］
｛３−５−１．実施例２の概要｝
次に、第３の実施形態の実施例２として、履歴情報ｖ５２１に対して音声入力によりアクセスし、対応する履歴情報ｖ５２１に関連付けられた履歴に対応する処理を実行するための情報処理装置の動作の一例について図３５を参照しながら説明する。図３５は、本実施形態の実施例２に係る表示の一態様を示した図であり、ユーザ１があらかじめ決められたキーワードを発話することで、各履歴情報ｖ５２１に関連する関連情報ｖ５３０を表示させ、表示された関連情報に対応する処理を情報処理装置１０に実行させる例を示している。

図３５に示す画面ｖ５３の例は、音声バーｖ５１０上に履歴情報ｖ５２１ａ〜ｖ５２１ｄが表示されている状態で、ユーザ１が「Ａｃｔｉｏｎｓ」というあらかじめ決められたキーワードを発話した状態を示している。

本実施形態の実施例２に係る情報処理装置１０では、表示制御部５２１は、ユーザ１により発話された内容が所定のキーワードに対応（一致）する場合に、画面ｖ５３に表示された各履歴情報ｖ５２１に関連するコンテンツや処理に関する情報を関連情報ｖ５３０として表示させる。

例えば、履歴情報ｖ５２１ａが音楽のアーティスト名を示す情報の場合には、表示制御部５２１は、そのアーティストが関わっている音楽（コンテンツ）の一覧を、関連情報ｖ５３０ａとして表示させる。また、履歴情報ｖ５２１ｄがゲームのタイトル名を示す情報の場合には、表示制御部５２１は、そのゲームのシリーズの一覧を、関連情報ｖ５３０ｄとして表示される。

なお、関連情報ｖ５３０は、履歴情報ｖ５２１が示す履歴に関連する情報が存在する場合にのみ表示される。そのため、履歴情報ｖ５２１の中には関連情報ｖ５３０が表示されないものが含まれていてもよい。例えば、履歴として記録される音声情報の中には、雑音のように意味をなさず、関連する情報が存在しない音声情報が含まれる場合がある。履歴情報ｖ５２１ｂは、上述のように関連する情報が存在しない音声情報に対応する履歴情報ｖ５２１を示している。関連する情報が存在しない音声情報の履歴情報ｖ５２１については、表示制御部５２１は、ユーザ１がキーワードを発話したとしても、関連情報ｖ５３０を表示させない。

図３５の画面ｖ５３に示すように、関連情報ｖ５３０が表示されている状態で、ユーザ１により、関連情報ｖ５３０として表示されたコンテンツまたは処理のうち、いずれかに対応する語句が発話されると、表示制御部５２１は、その語句に対応するコンテンツまたは処理を、表示装置１００の処理部（図示しない）に実行させる。例えば、図３５の画面ｖ５５は、履歴情報ｖ５２１ｂの関連情報ｖ５３０ｂのうち、コンテンツｖ５３１ｂを示す語句が発話された場合の画面を示している。この場合には、表示制御部５２１は、処理部にコンテンツｖ５３１ｂを起動させ、コンテンツｖ５３１ｂに対応する表示情報ｖ５３２ｂを表示させる。なお、コンテンツに対応する表示情報ｖ５３２としては、例えば、そのコンテンツを起動するための起動画面や、そのコンテンツ自体の画面、またはそのコンテンツのアイコンのように、当該コンテンツに関係する表示情報を意味するものとする。

なお、各履歴情報ｖ５２１について関連情報ｖ５３０が表示されている状態で、ユーザ１により発話された語句に対応するコンテンツが存在しない場合には、解析部５３０により、その語句が所定のキーワードに対応するか否かが判定される。発話された語句が所定のキーワードに対応する場合には、表示制御部５２１は、そのキーワードに対応する処理を実行し、発話された語句がどのキーワードにも対応していない場合には、その語句に対応する履歴情報ｖ５２１を新しく追加する。

｛３−５−２．実施例２の動作｝
次に、本実施形態の実施例２に係る情報処理装置１０の動作について図３６及び図３７を参照しながら説明する。まず、図３６を参照する。図３６は、本実施形態の実施例２に係る情報処理装置１０の情報の表示に係る動作の一例を示したフローチャートである。なお、以降では、実施例１と異なるステップＳ５０５以降の処理に着目して説明するものとし、実施例１と処理が同様の場合には詳細な説明は省略するものとする。

（ステップＳ５０５）
集音装置１１０で集音された音声信号が取得（検知）されると（ステップＳ５０３、Ｙ）、信号取得部５１０は、取得された音声信号を解析部５３０に出力する。解析部５３０は、取得された音声信号を音声情報取得部５３１に出力する。音声情報取得部５３１は、取得された音声信号に音声認識処理を施して音声情報を生成する。音声情報取得部５３１は、生成された音声情報を発話内容解析部５３２に出力する。

発話内容解析部５３２は、取得された音声情報が、所定のキーワード（例えば、図３５でユーザ１が発話している「Ａｃｔｉｏｎｓ」）に一致するか否かを判定する。

（ステップＳ５２０）
取得された音声情報が所定のキーワードに一致しない場合には（ステップＳ５０５、Ｎ）、発話内容解析部５３２は、その音声情報を履歴として履歴記憶部５５０に記憶させる。なお、履歴記憶部５５０に記憶された履歴に対応する履歴情報ｖ５２１の表示に係る処理は、実施例１と同様である（図３４参照）。そのため、詳細な説明については省略するものとする。

（ステップＳ５４０）
取得された音声情報が所定のキーワードに一致する場合には（ステップＳ５０５、Ｙ）、発話内容解析部５３２は、判定結果を解析結果取得部５２２に通知し、そのキーワードに対応する処理を示す情報を解析結果取得部５２２に出力する。例えば、図３５に示す例のように、取得された音声情報が「Ａｃｔｉｏｎｓ」というキーワードに一致する場合には、発話内容解析部５３２は、解析結果取得部５２２に「関連情報の生成及び表示」に係る処理を示す情報を出力する。以降では、キーワードに対応する処理として、「関連情報の生成及び表示」に係る処理が特定されたものとして説明する。

解析結果取得部５２２は、発話内容解析部５３２からの通知を受けて、取得されたキーワードに対応する処理を示す情報を表示制御部５２１に主力する。以降では、図３７を参照しながら、取得された音声情報が所定のキーワードに一致する場合の動作について説明する。図３７は、本実施形態の実施例２に係る情報処理装置１０の所定語句に基づく処理の一態様を示したフローチャートである。

（ステップＳ５４１）
表示制御部５２１は、解析結果取得部５２２を介して発話内容解析部５３２から、所定のキーワードに対応する処理を示す情報を受けると、その情報が示す処理を実行する。

例えば、取得された音声情報が「Ａｃｔｉｏｎｓ」というキーワードに一致する場合には、表示制御部５２１は、「関連情報の生成及び表示」に係る処理を示す情報を受ける。

表示制御部５２１は、発話内容解析部５３２から取得した「関連情報の生成及び表示」に係る処理を示す情報に従い、画面ｖ５０に表示された各履歴情報ｖ５２１に関連する関連情報をコンテンツ情報取得部５２３に取得させる。具体的には、表示制御部５２１は、まず各履歴情報ｖ５２１に関連付けられた履歴を抽出する。そして、表示制御部５２１は、抽出された履歴をコンテンツ情報取得部５２３に出力し、関連情報の取得を指示する。

表示制御部５２１から指示を受けると、コンテンツ情報取得部５２３は、あわせて取得した履歴（即ち、音声情報）を検索キーとして、コンテンツを取得するための検索条件を生成する。コンテンツ情報取得部５２３は、取得した履歴ごとに、生成した検索条件をコンテンツ特定部５６１に出力する。

コンテンツ特定部５６１は、コンテンツ情報取得部５２３から取得した検索条件に基づき、コンテンツＤＢ５６０を検索し、検索条件に一致するコンテンツまたは処理（以降では、単に「コンテンツ」と呼ぶものとする）の一覧を抽出する。コンテンツ特定部５６１は、抽出したコンテンツの一覧を、検索条件に対する応答として、コンテンツ情報取得部５２３に出力する。コンテンツ情報取得部５２３は、コンテンツ特定部５６１から履歴ごとに取得したコンテンツの一覧を、対応する履歴ごとに表示制御部５２１に出力する。

表示制御部５２１は、履歴ごとに取得されたコンテンツの一覧を、その履歴に対応する履歴情報ｖ５２１に関連付けて履歴情報ｖ５３０として表示させる（図３５参照）。

（ステップＳ５４２）
履歴情報ｖ５２１ごとに関連情報ｖ５３０が表示されると、表示装置１００は、再度音声信号を受け付ける。

（ステップＳ５４３）
再び、集音装置１１０で音声信号が集音されると、集音された音声信号に基づき音声情報取得部５３１で音声情報が生成される。生成された音声情報は、解析結果取得部５２２を介して、表示制御部５２１に出力される。

（ステップＳ５４４）
表示制御部５２１は、音声情報取得部５３１から取得した音声情報を、各履歴情報ｖ５２１の関連情報ｖ５３０に含まれるコンテンツの一覧と比較し、取得された音声情報に対応する処理または一覧を特定する。

（ステップＳ５４５）
取得された音声情報に対応するコンテンツが特定できた場合には（ステップＳ５４４、Ｙ）、表示制御部５２１は、表示装置１００の処理部（図示しない）に特定したコンテンツを実行させ、そのコンテンツに対応する表示情報ｖ５３２を表示させる。

なお、取得した音声情報に対応するコンテンツが特定できなかった場合には（ステップＳ５４４、Ｎ）、図３６のステップＳ５０５に示す処理に遷移し、当該音声情報が所定のキーワードに一致するか否かの判定から行えばよい。なお、以降の処理については、本実施形態の実施例１に係る情報処理装置１０と同様である。そのため、詳細な説明は省略する。

なお、上記に示した例では、所定のキーワードが発話された場合に、関連情報ｖ５３０を表示させていたが、例えば、マウス、キーボード、タッチパネルのような操作部１２０を設け、所定の操作が行われた場合にも同様に関連情報ｖ５３０を表示させてもよい。この場合には、図３０に示すように、操作部１２０に対する操作内容が所定の操作か否かを判定する入力情報取得部５２５を設けるとよい。

操作部１２０に対してユーザ１から操作が行われると、操作内容を示す操作情報が操作部１２０から出力される。入力情報取得部５２５は、操作部１２０から出力された操作情報を検知し取得する。入力情報取得部５２５は、取得した操作情報が所定の操作内容を示すか否かを判定し、所定の操作内容を示す場合には、操作情報が所定の操作内容を示すことを表示制御部３２１に通知する。表示制御部３２１は、この通知を受けた場合に、「関連情報の生成及び表示」に係る処理を示す情報を受けた場合と同様に動作するようにするとよい。

また、入力情報取得部５２５を設ける場合には、解析結果取得部５２２は、「関連情報の生成及び表示」に係る処理を示す情報を入力情報取得部５２５に出力するように動作させてもよい。この場合には、入力情報取得部５２５は、「関連情報の生成及び表示」に係る処理を示す情報を受けた場合に、操作部１２０から所定の操作を示す操作情報が取得された場合と同様に認識し、表示制御部５２１に通知を行うようにするとよい。実施例２に係る情報処理装置１０は、このような構成とすることで、表示制御部５２１に複雑な判定をさせずに処理を簡略化することが可能となる。

以上のように、本実施形態の実施例２に係る情報処理装置１０は、あらかじめ決められたキーワードを発話することで、各履歴情報ｖ５２１に関連する関連情報ｖ５３０を表示させ、表示された関連情報に対応する処理を実行させる。実施例２に係る情報処理装置１０は、このような構成とすることで、ユーザ１が意図したタイミングで、表示された履歴情報ｖ５２１にアクセスし、その履歴情報ｖ５２１に関連するコンテンツを起動することが可能となる。そのため、実施例２に係る情報処理装置１０は、音声入力を意図しない会話や環境音のような周囲の雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止し、意図したタイミングで所望の処理を実行させることが可能となる。

［３−６．第３の実施形態の実施例３］
｛３−６−１．実施例３の概要｝
第３の実施形態の実施例３に係る情報処理装置１０の具体的な一例について説明する。本実施形態の実施例３に係る情報処理装置１０では、表示制御部５２１は、集音装置１１０から集音される音声信号の検知状況をモニタリングし、各タイミングで発話が行われていたか否か、即ち、音声信号が検知されていたか否かを識別可能に示した音声バーｖ５１０を表示させる。以降では、音声バーｖ５１０の詳細について、図３８を参照しながら説明する。図３８は、本実施形態の実施例３に係る音声バーｖ５１０の一態様を示した図である。

図３８に示すように、音声バーｖ５１０は、発話中を示す領域ｖ５１１と、無音区間を示す領域ｖ５１２とを含んで構成される。領域ｖ５１１は、音声信号が検知されている状況を示しており、領域ｖ５１２は、音声信号が検知されていない状況を示している。図３８に示す例では、横方向が時系列上の位置（タイミング）に対応している。具体的な一例として、図３８に示す例では、音声バーｖ５１０の右端が現時点を示し、左方向に位置がずれるほど過去のタイミングを示している。

図３８に示す例では、表示制御部５２１は、音声信号の検知状況に応じて、音声バーｖ５１０の右端から領域ｖ５１１またはｖ５１２を表示させ、各領域を、時間の経過にあわせて左方向に移動させる。このように音声バーｖ５１０が表示されることで、ユーザ１は、音声信号が検知されたか否か（検知されていたか否か）を直感的に認識することが可能となる。

また、表示制御部５２１は、音声バーｖ５１０上に履歴情報ｖ５２１を表示させてもよい。このとき、表示制御部５２１は、履歴情報ｖ５２１を、その履歴情報ｖ５２１に対応する音声情報が発話されたタイミングを示す領域ｖ５２１に関連付けて表示させてもよい。このように履歴情報ｖ５２１を表示させることで、ユーザ１は、各履歴情報ｖ５２１に対応する音声情報が発話されたタイミングを直感的に認識することが可能となる。

また、図３８に示す例では、表示制御部５２１は、音声バーｖ５１０上に履歴情報ｖ５２１を表示させていたが、本開示は、必ずしもこの表示態様に限定されない。例えば、図３９は、音声バーｖ５１０の別の一態様について示した図である。

図３９に示す例では、表示制御部５２１は、発話中を示す領域ｖ５４１と、無音区間を示す領域ｖ５４２を含む音声バーｖ５４０を表示させる。表示制御部５２１は、発話中を示す領域ｖ５４１に、発話中を示すアイコンｖ５２３ａと、発話された音声情報の履歴を示す履歴情報ｖ５２２ａとを関連付けて表示させる。また、表示制御部５２１は、無音区間を示す領域ｖ５４２には、無音区間を示すアイコンｖ５２３ｂを関連付けて表示させる。

なお、表示制御部５２１は、発話した内容に限らず、システム情報（即ち、所定の処理の実行に伴い処理部から通知された情報）を履歴情報として表示させてもよい。例えば、図３９に示す例では、表示制御部５２１は、所定の処理としてユーザのログイン処理の結果を、その処理の結果が取得されたタイミングに対応する領域に関連付けて表示させている。具体的には、領域ｖ５４３は、システム情報が取得されたことを示す領域である。表示制御部５２１は、領域ｖ５４３に、システム情報（例えば、ユーザがログインしたことを示す情報）を履歴情報ｖ５２２ｃとして関連付けて表示している。また、表示制御部５２１は、領域ｖ５４３に、所定の処理の履歴であることを示すアイコンｖ５２３ｃを表示させてもよい。なお、システム情報を履歴情報として表示させる例の詳細については、実施例４でも説明する。

なお、領域ｖ５１１と領域ｖ５１２との識別が可能であれば、各領域の表示態様は限定されない。例えば、図３８に示すように、表示制御部５２１は、領域ｖ５１１と領域ｖ５１２とを異なる色で表示させてもよい。また、表示制御部５２１は、領域ｖ５１１及びｖ５１２に表示させる色を、時間の経過に伴い色相や濃淡が変化するように表示させてもよい。このように領域ｖ５１１及びｖ５１２の色が時間の経過に伴い変化することで、ユーザ１は、音声信号のモニタリングが継続されている（音声認識処理が動作している）ことを直感的に認識することが可能となる。

また、表示制御部５２１は、発話中を示す領域ｖ５１１の色を、領域ごとにランダムで決定してもよい。この場合には、表示制御部５２１は、各領域に識別子（例えば、ランダムに決定した識別子）を関連付け、その識別子に応じた色を表示させればよい。

また、表示制御部５２１は、領域ｖ５１１及びｖ５１２の長さに応じて色を変化させてもよい。この場合には、表示制御部５２１に計時部を設け、表示制御部５２１は、発話が継続されている状態、及び、無音状態のそれぞれの継続時間を計測し、その計測値に応じて色を決定すればよい。

また、表示制御部５２１は、検知された音声信号のレベルに応じて色を変化させてもよい。例えば、表示制御部５２１は、音声信号のレベルが大きい場合には赤やオレンジのような暖色系の色を表示させ、音声信号のレベルが小さくなるにつれて寒色系の色、または、グレー系のように彩度の低い色に変化するように表示させてもよい。なお、音声信号のレベルは、解析部５３０のレベル解析部５３３に解析させればよい。

また、表示制御部５２１は、音声信号のレベルに限らず、例えば、音声信号の周波数に応じて色を変化させてもよい。この場合には、解析部５３０に、音声信号の周波数解析を行える構成を設ければよい。このように、音声信号の周波数に応じて色を変化させることで、表示制御部５２１は、例えば、男性が発話した場合と女性が発話した場合とを識別可能に表示させることが可能となる。

また、表示制御部５２１は、発話したユーザに応じて、領域ｖ５１１の色を変化させてもよい。この場合には、表示制御部５２１は、例えば、情報処理装置１０にログインしているユーザのログイン情報に基づき、情報処理装置１０を操作しているユーザを特定してもよい。

また、音声認識処理に用いる音声認識エンジンの中には、認識された音声情報の信頼度（確度）を示す情報をスコア値として出力できるものがある。そのため、スコア値を出力できる音声認識エンジンが使用されている場合には、表示制御部５２１は、音声認識エンジンから出力されるスコア値に応じて、各領域ｖ５１１の色を変化させてもよい。このように、スコア値に応じて色を変化させることで、ユーザ１は、そのタイミングで認識された音声情報の信頼度を直感的に認識することが可能となる。

また、集音装置１１０を複数設けている場合には、表示制御部５２１は、音声信号が集音された集音装置１１０に応じて色を変化させてもよい。例えば、各集音装置１１０の位置情報を、表示制御部５２１にあらかじめ記憶させておくことで、表示制御部５２１は、音声信号の音源の方向や距離に応じて色を変化させることも可能となる。また、複数のユーザがそれぞれ異なる集音装置１１０を使用しているような場合には、表示制御部５２１は、音声信号が集音された集音装置１１０に応じて、発話したユーザを識別可能に提示することが可能となる。なお、複数ユーザによる操作の一例については、実施例８でも説明する。

また、図３９に示すように、システム情報についても表示させる場合には、表示制御部５２１は、その処理の種別に応じて、対応する領域の色を変えて表示させてもよい。具体的な一例として、表示制御部５２１は、「ゲームの起動」、「録画再生」、「音楽再生」、「メッセージの受信」のような処理のジャンルに応じて、処理の種別を分けるようにしてもよい。

また、表示制御部５２１は、例えば「ＡＨ．．．」のように意味をなさない音声情報を無効な認識結果として識別し、無効な認識結果に対応する履歴情報を表示させなくてもよい。また、表示制御部５２１は、無効な認識結果に対応する履歴情報を、例えばグレーアウトさせて表示させる等のように、他の履歴情報と識別可能に表示させてもよい。また、表示制御部５２１は、無効な認識結果に対応する音声バーの領域を無効領域として、他の領域（発話中を示す領域や無音区間の領域）と識別可能に表示させてもよい。このとき、表示制御部５２１は、無効領域以外の他の領域が強調されるように、無効領域を例えばグレー系の色で表示させてもよい。なお、対象となる音声情報が無効な認識結果か否かは、例えば、解析部５３０が、辞書データと比較することで判定して表示制御部５２１に通知すればよい。このように、意味をなさない音声情報を無効な認識結果として、対応する領域や履歴情報を、表示させない、または、他の音声情報と識別可能に表示させることで、意味をなす音声情報に対応する領域や履歴情報をより強調して表示させることが可能となる。

また、表示制御部５２１は、音声バーや履歴情報を、所望のタイミングでのみ表示させてもよい。具体的な一例として、表示制御部５２１は、ユーザ１から所定の操作（例えば、操作部１２０を介した操作や、所定のキーワードの発話）が行われた場合に音声バーや履歴情報を表示させ、ユーザからの操作が行われていない場合には音声バーや履歴情報を非表示としてもよい。また、他の一例として、表示制御部５２１は、所定のレベル以上の音声信号の入力が検知された場合に、音声バーや履歴情報を表示させるように動作してもよい。このように、所定の操作が認識された場合、即ち、ユーザ１が操作を所望する場合にのみ音声バーや履歴情報を表示させることで、必要以上に画面が煩雑になることを防止することが可能となる。

｛３−６−２．実施例３の動作｝
次に、本実施形態の実施例２に係る情報処理装置１０の動作について図４０を参照しながら、図３８に示す音声バーｖ５１０を表示させる場合を例に説明する。図４０は、本実施形態の実施例３に係る情報処理装置１０の情報の表示に係る動作の一例を示したフローチャートである。なお、ここでは、実施例２（図３６参照）とは異なるステップＳ５０２、Ｓ５０３、Ｓ５６１、及びＳ５６２に係る処理に着目して説明することとし、その他の処理については実施例２と同様のため詳細な説明は省略する。

（ステップＳ５０２）
画面ｖ５０が生成され、生成された画面ｖ５０が表示部１０２に表示されると、表示装置１００は、音声信号の受付を開始する。具体的には、信号取得部５１０が、集音装置１１０で集音された音声信号の取得を開始する。信号取得部５１０は、音声信号の取得に係る処理を、表示装置１００が起動している限り（厳密には、音声認識処理が有効になっている限り）継続する。

（ステップＳ５６２）
信号取得部５１０から、音声信号の取得が通知されない間（ステップＳ５０３、Ｎ）は、表示制御部５２１は、音声バーｖ５１０に、無音区間を示す領域ｖ５１２を表示させる。なお、このとき表示制御部５２１は、領域ｖ５１２を開始してから経過した時間に応じて、領域ｖ５１２の表示態様を変化させてもよい。

（ステップＳ５６１）
音声信号が検知されると（ステップＳ５０３、Ｙ）、音声信号が検知されている間は、信号取得部５１０から表示制御部５２１に音声信号を検知した旨が通知される。信号取得部５１０から、音声信号の取得が通知されている間（ステップＳ５０３、Ｙ）は、表示制御部５２１は、音声バーｖ５１０に、発話中を示す領域ｖ５１１を表示させる。

なお、信号取得部５１０から通知を受けた場合に、表示制御部５２１は、解析結果取得部５２２を介して、解析部５３０から音声信号の解析結果を取得するようにしてもよい。この場合には、表示制御部５２１は、解析結果に応じて領域ｖ５１１の表示態様を変更してもよい。具体的な一例として、表示制御部５２１は、解析結果として音声信号のレベルを示す情報を取得することで、音声信号のレベルに応じて領域ｖ５１１の色を変化させることが可能となる。

なお、以降の処理については、実施例２（図３６参照）と同様である。そのため、詳細な説明は省略する。

以上のように、本実施形態の実施例３に係る情報処理装置１０は、集音装置１１０から集音される音声信号の検知状況をモニタリングし、各タイミングで発話が行われていたか否かを識別可能に示した音声バーｖ５１０を表示させる。これにより、ユーザ１は、発話した音声が情報処理装置１０により認識されているか否かを直感的に識別することが可能となる。

［３−７．第３の実施形態の実施例４］
第３の実施形態の実施例４に係る情報処理装置１０の具体的な一例について説明する。本実施形態の実施例４に係る情報処理装置１０では、表示制御部５２１は、音声情報の履歴に加えて、システム情報（即ち、所定の処理の実行に伴い処理部から通知された情報）を履歴情報として提示する。システム情報として、例えば、「ユーザがログインした場合」や「メールを受信した場合」のように、あらかじめ決められた処理が実行された場合に出力される情報が含まれる。以降では、履歴情報を提示するための一例について、図４１を参照しながら説明する。図４１は、本実施形態の実施例４に係る表示の一態様を示した図である。なお、図４１に示す例に限らず、表示制御部５２１は、システム情報に対応する履歴情報を、実施例１、３に示すように提示してもよい。

図４１に示す例では、表示制御部５２１は、履歴情報ｖ５２４をメッセージウィンドゥとして時系列順に並べて表示させる。方向ｄ５４は、時系列に沿った方向を示しており、下端が最も新しく、上側に配置された履歴情報ｖ５２４ほど古い履歴を示している。履歴情報の中には、音声情報の履歴に対応した履歴情報ｖ５２４と、システム情報に対応する履歴情報ｖ５２４とが含まれる。例えば、履歴情報ｖ５２４ａは、ユーザ１が過去に発話した「ＴＶ」という音声情報の履歴に対応している。また、履歴情報ｖ５２４ｃは、「Ｍｉｃｈｅｌがログオンした」ことを示す処理に対応している。

また表示制御部５２１は、実施例３と同様に、無音区間を識別可能に表示させてもよい。例えば、履歴情報ｖ５２４が表示されていない領域ｖ５２４ｂは、音声信号が検知されていない無音区間を示している。なお、無音区間の検知方法は、実施例３と同様の方法を用いればよい。もちろん、表示制御部５２１は、無音区間を示す領域ｖ５２４ｂを表示させずに、履歴情報ｖ５２４を時系列に沿って並べて表示させてもよい。

なお、システム情報は、システム情報取得部５７０が、履歴記憶部５５０に履歴として記憶させる。具体的には、情報処理装置１０の処理部（図示しない）により所定の処理が実行されると、その処理に対応するシステム情報がシステム情報取得部５７０に出力される。そして、システム情報取得部５７０は、取得したシステム情報を、履歴記憶部５５０に履歴として記憶させる。これにより、履歴記憶部５５０には、音声情報の履歴に加えて、システム情報の履歴が記憶される。このとき、履歴記憶部５５０は、音声情報の履歴と、システム情報との履歴を識別可能に記憶してもよい。

履歴記憶部５５０に記憶された、システム情報の履歴は、音声情報の履歴と同様に、履歴情報取得部５２４により読み出される。履歴情報取得部５２４により読み出された履歴は、表示制御部５２１により履歴情報ｖ５２４として画面に表示される。このとき、表示制御部５２１は、音声情報に対応する履歴情報ｖ５２４と、システム情報に対応する履歴情報ｖ５２４とを識別可能に表示させてもよい。

例えば、図４１に示す例では、表示制御部５２１は、音声情報とシステム情報とのいずれに対応する履歴情報ｖ５２４かに応じて、その履歴情報ｖ５２４を左寄りに表示させるか、右寄りに表示させるかを切り替えている。また、実施例３の図３９に示す例のように、表示制御部５２１は、対応する領域の色を変えることで、音声情報に対応する履歴情報ｖ５２４と、システム情報に対応する履歴情報ｖ５２４とを識別可能に表示させてもよい。

また、表示制御部５２１は、音声情報とシステム情報とのいずれに対応する履歴情報かに応じて、各履歴情報の表示領域を変更してもよい。例えば、実施例３の図３９に示すように、バー状の表示態様で示す場合には、音声情報に対応する履歴情報と、システム情報に対応する履歴情報とを異なるバー上に表示させてもよい。

以上のように、実施例４に係る情報処理装置１０は、音声情報に対応する履歴情報とあわせて、システム情報に対応する履歴情報を表示させる。このような構成により、音声情報に関連するコンテンツと同様に、システム情報に関連するコンテンツを参照し、所望のコンテンツを実行することが可能となる。また、音声情報及びシステム情報のそれぞれに対応する履歴情報が時系列に沿って並べて表示されるため、ユーザ１は、各情報が取得されたタイミングを直感的に識別することが可能となる。

［３−８．第３の実施形態の実施例５］
｛３−８−１．実施例５の概要｝
第３の実施形態の実施例５に係る情報処理装置１０の具体的な一例について説明する。履歴の追加に伴い、画面上に表示される履歴情報の数が増えると、画面が煩雑になり各履歴情報を識別することが困難となる場合がある。そこで、本実施形態の実施例５に係る情報処理装置１０では、表示制御部５２１は、画面に表示される履歴情報の数が所定数を超えた場合に、表示される履歴情報の数が所定数以下となるように一部の履歴に対応する履歴情報を非表示とする。このように一度に表示される履歴情報の数を制限することで、履歴情報の増加に伴い画面が煩雑になることを防止することが可能となる。以降では、本実施形態の実施例５に係る情報処理装置１０の一態様について、図４２を参照しながら説明する。図４２は、本実施形態の実施例５に係る表示の一態様を示した図である。

図４２に示す例は、画面ｖ５０の音声バーｖ５１０上に履歴情報ｖ５２１ａ〜ｖ５２１ｄが表示されている状態で、表示制御部５２１が、ユーザ１の発話に基づき、履歴情報ｖ５２１ｅが追加表示させた場合を示している。なお、履歴情報ｖ５２１ａ〜ｖ５２１ｄは、履歴情報ｖ５２１ａが最も古い履歴に対応しており、ｖ５２１ｂ、ｖ５２１ｃ、ｖ５２１ｄの順に新しい履歴に対応しているものとする。また、図４２に示す例では、表示制御部５２１は、同時に表示できる履歴情報ｖ５２１の数の最大値（以降では、「最大表示数」と呼ぶ）を「４」に設定しているものとする。

履歴情報ｖ５２１ｅが、音声バーｖ５１０上に追加されると、表示されている履歴情報ｖ５２１の数が「５」となり最大表示数を超える。このような場合には、表示制御部５２１は、既に表示されている履歴情報ｖ５２１ａ〜ｖ５２１ｄのうち、いずれかの履歴情報ｖ５２１を非表示とする。具体的な一例として、図４２に示す例では、表示制御部５２１は、対応する履歴が記録されたタイミングが最も古い履歴情報ｖ５２１ａを非表示としている。

なお、非表示とする履歴情報ｖ５２１は、対応する履歴が記録されたタイミングに限定はされない。他の一例として、表示制御部５２１は、履歴が取得された数（即ち、音声情報として発話された回数）の大小に応じて、非表示とする履歴情報ｖ５２１を特定してもよい。例えば、表示制御部５２１は、履歴が取得された数が最も少ない履歴情報ｖ５２１を優先して非表示とすることで、発話数の多い音声情報、即ち、ユーザにより着目されている音声情報に対応する履歴情報ｖ５２１を優先して表示してもよい。なお、表示制御部５２１が、取得された数を判定する期間は、運用に応じて適宜変更できるようにしてもよい。例えば、表示制御部５２１は、過去に取得された全ての履歴について判定を行ってもよいし、現時点を基準として直近の所定期間（例えば、直近の１週間）に取得された履歴について判定を行ってもよい。

また、他の一例として、ユーザ１があらかじめ優先して表示させる音声情報を登録できるようにしてもよい。この場合には、表示制御部５２１は、登録された音声情報の履歴に対応する履歴情報ｖ５２１以外の他の履歴情報ｖ５２１から、非表示とする履歴情報ｖ５２１を特定するようにしてもよい。これにより、例えば、ユーザ１が、所望の音声情報をお気に入りとして登録しておくことで、表示制御部５２１は、登録された音声情報に対応する履歴情報ｖ５２１を優先して表示させることが可能となる。

また、履歴情報の表示態様は図４２の例（即ち、実施例１に対応する図３１の例）に限定されない。例えば、実施例３に示した図３９の例に適用してもよい。この場合には、表示制御部５２１は、履歴情報ｖ５２２が関連付けられた領域ｖ５４１の数が最大表示数以下となるように表示を制御すればよい。また、実施例４に示した図４１の例に適用してもよい。この場合には、表示制御部５２１は、ウィンドゥとして表示された履歴情報ｖ５２４の数が最大表示数以下となるように表示を制御すればよい。

また、上記では最大表示数を制限する例について説明したが、表示制御部５２１は、最大表示数を制限せずに、履歴情報ｖ５２１を表示させるサイズを縮小することで、全ての履歴情報ｖ５２１を表示させてもよい。このように履歴情報ｖ５２１のサイズを変更して表示させることで、履歴情報ｖ５２１の数が増えたとしても、各履歴情報ｖ５２１を重畳させずに表示させることが可能となる。一方で、履歴情報ｖ５２１のサイズを縮小すると、個々の履歴情報ｖ５２１を認識するのが困難になる場合がある。そのため、表示制御部５２１は、最大縮小率をあらかじめ決めて、履歴情報ｖ５２１のサイズが最大縮小率を超えて縮小されないように制御してもよい。

なお、表示制御部５２１は、履歴情報ｖ５２１のサイズを、最大縮小率を超えて縮小させなければ新たに履歴情報ｖ５２１を表示するスペースが確保できない場合には、履歴情報ｖ５２１のサイズ変更に替えて、一部の履歴情報ｖ５２１を非表示としてもよい。表示制御部５２１が非表示とする履歴情報ｖ５２１の選定基準は、最大表示数以下となるように制御する場合と同様に決定すればよい。

また、表示制御部５２１は、履歴情報の縮小率と表示数との双方をパラメータとして、画面ｖ５０に表示させる履歴情報ｖ５２１の数やサイズを適宜変更するようにしてもよい。例えば、表示制御部５２１は、履歴情報の縮小率に応じて、最大表示数を段階的に設けてもよい。具体的には、表示制御部５２１は、履歴情報のサイズを「大」「中」「小」の３段階に分けて、サイズが「大」に相当する場合には最大表示数を小さく設定し、履歴情報のサイズが「中」「小」と変化した場合に、各サイズに応じて最大表示数を動的に変更してもよい。同様に、表示制御部５２１は、履歴情報の表示数に応じて、各履歴情報を表示させるサイズを段階的に変化させてもよい。具体的には、表示制御部５２１は、履歴情報の数が５個以下の場合は、各履歴情報のサイズを「大」に設定し、履歴情報の数が６〜１０個、１１個以上と変化するにつれて、各履歴情報のサイズを「中」、「小」と段階的に変化させてもよい。

｛３−８−２．実施例５の動作｝
次に、本実施形態の実施例５に係る情報処理装置１０の動作について、図４３を参照しながら説明する。図４３は、本実施形態の実施例５に係る情報処理装置１０の履歴情報の表示処理（即ち、図３３、図３６、及び図４０におけるステップＳ５２０の処理）の一態様を示したフローチャートである。なお、以降では、前述した実施例１〜４とは異なる、履歴情報の表示に係る動作に着目して説明するものとし、他の動作については詳細な説明は省略するものとする。

（ステップＳ５２１）
信号取得部５１０は、集音装置１１０で集音された音声信号を取得すると、取得した音声信号を解析部５３０に出力する。信号取得部５１０から解析部５３０に出力された音声信号は、音声情報取得部５３１により、音声認識処理が施されて音声情報となる。生成された音声情報は、発話内容解析部５３２で意味解釈された後に、履歴として履歴記憶部５５０に記憶される。

また、信号取得部５１０は、音声信号が検知された旨を表示制御部５２１に通知する。信号取得部５１０から音声信号を検知した旨が通知されると、表示制御部５２１は、履歴情報取得部５２４を介して、履歴記憶部５５０に記憶された履歴を取得する。

（ステップＳ５２３）
取得された履歴に対応する履歴情報ｖ５２１が画面ｖ５０に表示されていない場合には（ステップＳ５２２、Ｎ）、表示制御部５２１は、取得した履歴に対応する履歴情報ｖ５２１を生成し、生成した履歴情報ｖ５２１に取得した履歴を関連づけて画面ｖ５０に表示させる。なお、取得した履歴に対応する履歴情報ｖ５２１が既に画面ｖ５０に表示されている場合には（ステップＳ５２２、Ｙ）、履歴情報ｖ５２１の生成及び表示に係る処理は実行されなくてもよい。

（ステップＳ５２４）
次に、表示制御部５２１は、画面ｖ５０に表示されている履歴情報ｖ５２１の数が最大表示数を超えるか否かを判定する。

（ステップＳ５２５）
履歴情報ｖ５２１の数が最大表示数を超える場合には（ステップＳ５２４、Ｙ）、表示制御部５２１は、既に表示されていた履歴情報ｖ５２１のうちいずれかの履歴情報ｖ５２１を非表示とする。具体的な一例として、表示制御部５２１は、表示されている履歴情報ｖ５２１のうち、対応する履歴が記録されたタイミングが最も古い履歴情報ｖ５２１を非表示とする。なお、履歴情報ｖ５２１の数が最大表示数を超えない場合には（ステップＳ５２４、Ｎ）、履歴情報ｖ５２１を非表示とする処理は実行されない。

以上のように、本実施形態の実施例５に係る情報処理装置１０は、画面に表示される履歴情報の数が最大表示数を超えた場合に、表示される履歴情報の数が最大表示数以下となるように一部の履歴に対応する履歴情報を非表示とする。これより、新たに履歴情報が追加された場合においても、同時に表示される履歴情報の数が最大表示数を超えることはないため、表示された履歴情報の増加に伴い画面が煩雑になる事態を防止することが可能となる。

［３−９．第３の実施形態の実施例６］
｛３−９−１．実施例６の概要｝
実施例５では、画面に表示された履歴情報の数が最大表示数以下となるように、一部の履歴情報を非表示とする例について説明した。また、実施例５で示した例に限らず、例えば、履歴情報がスクロール移動に伴い画面外に消えた場合に再度表示させないように動作させることも可能である。そこで、第３の実施形態の実施例６では、このように非表示となった履歴情報を再度アクセス可能に表示させる場合の一例について、図４４を参照しながら説明する。図４４は、本実施形態の実施例６に係る表示の一態様を示した図である。

図４４に示す例では、履歴情報ｖ５２１ａ〜ｖ５２１ｅが画面ｖ５０の音声バーｖ５１０上に追加され、履歴情報ｖ５２１の表示数が最大表示数の「４」を超えたため、履歴情報ｖ５２１ａが非表示となった状態を示している。

本実施形態の実施例６に係る情報処理装置１０では、表示制御部５２１は、一部の履歴情報ｖ５２１が非表示となっている状態で、ユーザ１が、あらかじめ決められた操作を実行すると、非表示となっている履歴情報ｖ５２１を再度表示させる。具体的な一例として、図４４に示す例では、表示制御部５２１は、ユーザ１が所定のキーワード「Ｌｉｓｔ」を発話したことを検知した場合に、非表示となっている履歴情報ｖ５２１ａを再度表示させる。このように所定の操作に基づき非表示となっている履歴情報を表示させることで、ユーザ１は、非表示となっていた履歴情報ｖ５２１ａに再度アクセスすることが可能となる。

なお、図４４に示す例では、ユーザ１が所定のキーワードを発話した場合に、非表示となっている履歴情報ｖ５２１を再度表示させる例について説明したが、非表示となっている履歴情報ｖ５２１を再度表示させる契機を特定できれば、この例には限定されない。他の一例として、表示制御部５２１は、ユーザ１が、操作部１２０に対して所定の操作を行った場合を契機に、非表示となっている履歴情報ｖ５２１を再度表示させてもよい。この場合には、入力情報取得部５２５が、操作部１２０に対する操作の内容を解析することで、所定の操作が行われたことを検知して、検知結果を通知すればよい。また、このとき入力情報取得部５２５は、表示制御部５２１に対して、所定のキーワード（例えば、「Ｌｉｓｔ」）に対応する音声情報が取得された場合と同様の通知を行ってもよい。

なお、所定の操作の具体的な一例としては、操作部１２０がタッチパネルやタッチパッドのような場合には、所定のパターンのスライド操作やタップ操作が挙げられる。また、操作部１２０が加速度センサのようなセンサを内蔵している場合には、入力情報取得部５２５は、所定のジェスチャー操作を、所定の操作として認識してもよい。また、操作部１２０がキーボードやマウスのような場合には、入力情報取得部５２５は、所定のボタンが押下された場合を、所定の操作として認識してもよい。

｛３−９−２．実施例６の動作｝
次に、本実施形態の実施例６に係る情報処理装置１０の動作について、図４５を参照しながら説明する。図４５は、本実施形態の実施例６に係る情報処理装置１０の所定語句に基づく処理（即ち、図３６及び図４０におけるステップＳ５４０の処理）の一態様を示したフローチャートである。なお、以降では、前述した実施例２、３とは異なる、所定語句に基づく処理に着目して説明するものとし、他の動作については詳細な説明は省略するものとする。

（ステップＳ５８１）
発話内容解析部５３２は、集音装置１１０で集音された音声信号に基づき取得された音声情報が所定のキーワードに一致するか否かを判定する。取得された音声情報が所定のキーワードに一致する場合には、発話内容解析部５３２は、判定結果を解析結果取得部５２２に通知し、そのキーワードに対応する処理を示す情報を解析結果取得部５２２に出力する。例えば、取得された音声情報が「Ｌｉｓｔ」というキーワードに一致する場合には、発話内容解析部５３２は、解析結果取得部５２２に「非表示となった履歴情報の再表示」に係る処理を示す情報を出力する。また、実施例２（図３５参照）に示した例のように、取得された音声情報が「Ａｃｔｉｏｎｓ」というキーワードに一致する場合には、解析結果取得部５２２に「関連情報の生成及び表示」に係る処理を示す情報を出力するように動作させてもよい。

（ステップＳ５８２）
取得された音声情報が「非表示となった履歴情報の再表示」に対応するキーワードに一致する場合には（ステップＳ５８１、Ｙ）、表示制御部５２１は、解析結果取得部５２２を介して発話内容解析部５３２から「非表示となった履歴情報の再表示」に係る処理を示す情報を受ける。この指示を受けると、表示制御部５２１は、通知された情報に基づき、非表示となっている履歴情報ｖ５２１を再度表示させる。

（ステップＳ５８１）
なお、取得された音声情報が「非表示となった履歴情報の再表示」に対応するキーワードとは異なる他のキーワードに一致する場合には（ステップＳ５８１、Ｎ）、表示制御部５２１は、当該キーワードに対応する処理を示す情報を受ける。この場合についても同様に、表示制御部５２１は、通知された情報に基づき、対応する処理を実行するように動作させればよい。

具体的な一例として、図４５に示す例では、「関連情報の生成及び表示」に対応するキーワード（「Ａｃｔｉｏｎｓ」）に一致する場合を示している。この場合には、表示制御部５２１は、解析結果取得部５２２を介して発話内容解析部５３２から通知された、「関連情報の生成及び表示」に対応する処理を示す情報に基づき、ステップＳ５４１〜Ｓ５４５で示された、「関連情報の生成及び表示」に係る処理を実行すればよい。なお、ステップＳ５４１〜Ｓ５４５に係る処理については、実施例２（図３７参照）と同様のため詳細な説明は省略する。

以上のように、本実施形態の実施例６に係る情報処理装置１０は、ユーザ１による所定の操作が検知された場合に、非表示となった履歴情報を再度アクセス可能に表示させる。このような構成により、新たな履歴情報の追加に伴い一部の履歴情報が非表示となった場合においても、ユーザ１は、非表示となっていた履歴情報を再度表示させ、表示された履歴情報にアクセスすることが可能となる。

［３−１０．第３の実施形態の実施例７］
第３の実施形態の実施例７に係る情報処理装置１０の具体的な一例について説明する。
本実施形態の実施例７に係る情報処理装置１０では、表示制御部５２１は、例えば、「面白いゲームない？」といった問い合わせを意味する音声情報が取得された場合に、その問い合わせに対する応答を、履歴情報や関連情報として提示する。具体的には、表示制御部５２１は、問い合わせを意味する音声情報が取得された場合に、その問合せに対して実行すべき処理（例えば、「ストアで人気のゲームを提示する」処理）を特定し、特定された処理の結果を、履歴情報を介して提示する。以降では、本実施形態の実施例７に係る情報処理装置１０の一態様について、図４６を参照しながら説明する。図４６は、本実施形態の実施例７に係る表示の一態様を示した図である。

図４６に示す例は、ユーザ１が「面白いゲームない？」といった問い合わせを意味する内容を発話し、その後に、関連情報を表示するための「Ａｃｔｉｏｎｓ」というキーワードを発話した状況を示している。

図４６に示すように、ユーザ１が「面白いゲームない？」といった問い合わせを意味する内容を発話すると、表示制御部５２１は、その問合せに対する応答を意味する「ＨＩＴＧＡＭＥＬＩＳＴ」という語句が提示された履歴情報ｖ５２７を表示させる。

履歴情報ｖ５２７が表示された状態で、ユーザ１が「Ａｃｔｉｏｎｓ」というキーワードを発話すると、表示制御部５２１は、ストアで人気のゲームを検索し、対応するコンテンツｖ５３１を関連情報ｖ５３０として表示させる。

以下に、本実施形態の実施例７に係る情報処理装置１０の具体的な動作について、図４６に示す例に基づき説明する。

ユーザ１により発話された音声信号は、集音装置１１０により集音され、信号取得部５１０により取得される。信号取得部５１０により取得された音声信号は、解析部５３０の音声情報取得部５３１により、音声認識処理が施されて音声情報が生成される。音声情報取得部５３１は、生成された音声情報を発話内容解析部５３２に出力する。ここまでの処理は、上述した各実施例と同様である。

発話内容解析部５３２は、音声情報取得部５３１から取得した音声情報を、形態素解析や構文解析のような自然言語処理を用いて解析し、その音声情報が問合せを意味する音声情報か否かを判定する。

また、発話内容解析部５３２は、あらかじめ決められた（想定される）問合せを意味する音声情報と、その問合せに対する応答を意味する語句、及び、応答に対応する処理を示す情報を関連付けてリストとして記憶している。

音声情報が問合せを意味する音声情報であると認識した場合に、発話内容解析部５３２は、当該音声情報をリストと比較して、その問合せを意味する音声情報に関連付けられた応答を意味する音声情報と、その応答に対応する処理とを特定する。そして、発話内容解析部５３２は、その取得された音声情報に、特定された応答を意味する語句を関連付けて、履歴記憶部５５０に履歴として記録する。

また、発話内容解析部５３２は、特定された処理を示す情報を、解析結果取得部５２２を介して表示制御部５２１に通知する。例えば、問合せを意味する音声情報が「面白いゲームない？」の場合には、発話内容解析部５３２は、「ストアで人気のゲームを提示する」処理を示す情報を表示制御部５２１に通知する。このとき、発話内容解析部５３２は、音声情報が所定のキーワードと一致する場合と区別するために、通知する情報が、問合せを意味する音声情報に対する応答に対応した処理であることを、表示制御部５２１にあわせて通知してもよい。なお、以降では、問合せを意味する音声情報が「面白いゲームない？」を意味するものとし、発話内容解析部５３２は、表示制御部５２１に、「ストアで人気のゲームを提示する」処理を示す情報を通知したものとして説明する。

また、信号取得部５１０は、音声信号が検知された旨を表示制御部５２１に通知する。信号取得部５１０から音声信号を検知した旨が通知されると、表示制御部５２１は、履歴情報取得部５２４を介して、履歴記憶部５５０に記憶された履歴を取得する。表示制御部５２１は、取得された履歴に対応する履歴情報ｖ５２１を生成する。

このとき、取得された履歴が、問合せを意味する音声情報に対応している場合には、その取得された履歴に応答を意味する語句が関連付けられている場合がある。この場合には、表示制御部５２１は、生成された履歴情報ｖ５２１に、対応する履歴に関連付けられた応答を意味する語句を提示してもよい。例えば、図４６に示す例では、「面白いゲームない？」という音声情報の履歴に対して、「ＨＩＴＧＡＭＥＬＩＳＴ」という応答を意味する語句が関連付けられている。この場合には、表示制御部５２１は、履歴情報ｖ５２１に、「ＨＩＴＧＡＭＥＬＩＳＴ」という応答を意味する語句が提示された、履歴情報ｖ５２７を生成している。

また、表示制御部５２１は、「面白いゲームない？」という音声情報の解析結果として、発話内容解析部５３２から、「ストアで人気のゲームを提示する」処理を示す情報を受ける。表示制御部５２１は、発話内容解析部５３２から取得した「ストアで人気のゲームを提示する」処理を示す情報を、生成された履歴情報ｖ５２７に関連付ける。表示制御部５２１は、発話内容解析部５３２から取得した情報が関連付けられた履歴情報ｖ５２７を、画面ｖ５０の音声バーｖ５１０上に表示させる。

次に、履歴情報ｖ５２７が表示された状態で、ユーザ１により「Ａｃｔｉｏｎｓ」というキーワードが発話された場合の動作について説明する。ユーザ１により「Ａｃｔｉｏｎｓ」というキーワードが発話されると、上記の実施例で示したように、発話内容解析部５３２から表示制御部５２１に「関連情報の生成及び表示」に係る処理を示す情報が出力される。

表示制御部５２１は、発話内容解析部５３２から取得した「関連情報の生成及び表示」に係る処理を示す情報に従い、各履歴情報ｖ５２１に関連する関連情報をコンテンツ情報取得部５２３に取得させる。また、表示制御部５２１は、履歴情報ｖ５２７のように、所定の処理（例えば、「ストアで人気のゲームを提示する」処理）を示す情報が関連付けられている場合には、当該処理に対応する関連情報をコンテンツ情報取得部５２３に取得させる。例えば、「ストアで人気のゲームを提示する」処理の場合には、表示制御部５２１は、コンテンツ情報取得部５２３に、「ストアで人気のゲーム」を検索し対応するコンテンツを取得するための検索式を生成させる。

コンテンツ情報取得部５２３は、表示制御部５２１の指示に基づき生成された検索式をコンテンツ特定部５６１に出力する。コンテンツ特定部５６１は、コンテンツ情報取得部５２３から取得した検索式に一致するコンテンツの情報をコンテンツＤＢ５６０から抽出する。これにより、「ストアで人気のゲーム」に対応するコンテンツの情報が抽出される。

コンテンツ特定部５６１は、コンテンツＤＢ５６０から抽出されたコンテンツの一覧を、コンテンツ情報取得部５２３に出力する。コンテンツ情報取得部５２３は、コンテンツ特定部５６１から履歴ごとに取得したコンテンツの一覧を、対応する履歴ごとに表示制御部５２１に出力する。これにより、表示制御部５２１は、「ＨＩＴＧＡＭＥＬＩＳＴ」として示された履歴情報ｖ５２７に対応する情報として、ストアで人気のゲームに対応するコンテンツの一覧をコンテンツ情報取得部５２３から取得する。

表示制御部５２１は、履歴ごとに取得されたコンテンツの一覧を、その履歴に対応する履歴情報ｖ５２７に関連付けて関連情報ｖ５３０として表示させる。例えば、図４６に示す例では、表示制御部５２１は、取得された「ストアで人気のゲーム」に対応するコンテンツｖ５３１の一覧を、関連情報ｖ５３０として、履歴情報ｖ５２７に関連付けて表示させている。

なお、問合せに対応する音声情報は、上記に示した例に限られない。例えば、「楽しい感じの音楽を流してくれない？」といった問い合わせの場合には、特定のジャンル（例えば、ジャズ）の音楽に関連するコンテンツが抽出されるように、発話内容解析部５３２、表示制御部５２１、コンテンツ情報取得部５２３、及びコンテンツ特定部５６１を動作させればよい。

また、「昨日ゲームどこまでやったっけ？」という、ユーザ１の利用履歴に関連する問合せに対して応答できるようにしてもよい。この場合には、コンテンツＤＢ５６０に記憶された各コンテンツの利用履歴や、履歴記憶部５５０に記憶された音声情報の履歴に基づき、対応するコンテンツの情報が抽出されるように動作させればよい。

また、対応するコンテンツを実際に動作させ、その結果を出力できるようにしてもよい。具体的な一例として、「今日の天気は？」という問合せに対して、天気を検索するコンテンツを実行させ、その結果を取得する処理を関連付けておくことで、天気の検索結果をユーザ１に提示することが可能となる。

以上のように、本実施形態の実施例７に係る情報処理装置１０では、表示制御部５２１は、例えば、「面白いゲームない？」といった問い合わせを意味する音声情報を取得した場合に、その問い合わせに対する応答を、履歴情報や関連情報として提示する。これにより、ユーザ１は、所望の処理を実行させるために、処理を命令内容を考えて発話する必要が無くなり、より直感的に操作を行うことが可能となる。

［３−１１．第３の実施形態の実施例８］
｛３−１１−１．実施例８の概要｝
第３の実施形態の実施例８に係る情報処理装置１０の具体的な一例について説明する。本実施形態の実施例８に係る情報処理装置１０では、異なる複数のユーザが、それぞれ異なる集音装置１１０を介して音声入力を行い、表示制御部５２１は、各ユーザの発話に基づく音声情報の履歴を履歴情報として識別可能に表示させる。以降では、本実施形態の実施例８に係る情報処理装置１０の一態様について、図４７を参照しながら説明する。図４７は、本実施形態の実施例８に係る表示の一態様を示した図である。

図４７に示す例は、音声バーｖ５１０及び履歴情報ｖ５２１が表示された画面ｖ５０に対して、ユーザ１ａ及び１ｂが、それぞれ異なる集音装置１１０を介して音声入力を行う場合について示している。具体的には、図４７に示す例は、まずユーザ１ａが音声入力を行い、次いで、ユーザ１ｂが音声入力を行った場合を示している。また、図４７において、履歴情報ｖ５２８ａは、ユーザ１ａの発話に基づく履歴情報を示しており、履歴情報ｖ５２８ｂは、ユーザ１ｂの発話に基づく履歴情報を示している。

なお、以降の説明では、ユーザ１ａが操作する集音装置１１０を「集音装置１１０ａ」とし、ユーザ１ｂが操作する集音装置１１０を「集音装置１１０ｂ」として説明する。また、特に集音装置１１０ａ及び１１０ｂを区別する必要が無い場合には、単に「集音装置１１０」と記すものとする。

ユーザ１ａが、集音装置１１０ａに対して音声入力を行うと、集音装置１１０ａで集音された音声信号は解析部５３０で音声情報に変換され、履歴として履歴記憶部５５０に記憶される。そして、表示制御部５２１が、この履歴を読み出し、履歴情報ｖ５２８ａとして、画面ｖ５０に表示された音声バーｖ５１０上に表示させる。

次いで、ユーザ１ｂが、集音装置１１０ｂに対して音声入力を行うと、集音装置１１０ｂで集音された音声信号は解析部５３０で音声情報に変換され、履歴として履歴記憶部５５０に記憶される。そして、表示制御部５２１が、この履歴を読み出し、履歴情報ｖ５２８ｂとして、画面ｖ５０に表示された音声バーｖ５１０上に表示させる。このとき、履歴情報ｖ５２８ｂに対応する履歴は、履歴情報ｖ５２８ａに対応する履歴よりも新しい。そのため、表示制御部５２１は、履歴情報ｖ５２８ａを基準として、時系列に沿って新しい側（図４７の例では右側）に、履歴情報ｖ５３８ｂを表示させる。

なお、表示制御部５２１は、履歴情報ｖ５２８ａ及びｖ５２８ｂを、例えば、異なる色で表示させる等のように表示態様を変えて、それぞれを識別可能に表示させてもよい。

また、表示制御部５２１は、ユーザごとに音声バーｖ５１０を生成し、生成されたユーザごとの音声バーｖ５１０を画面ｖ５０に表示させてもよい。ユーザごとに音声バーｖ５１０を生成する場合には、表示制御部５２１は、各ユーザの発話に基づく履歴情報ｖ５２８を、発話したユーザに対応する音声バーｖ５１０上に表示させる。このように、ユーザごとに音声バーｖ５１０を生成して表示させることで、各ユーザの発話に基づく履歴情報ｖ５２８を識別することが可能となる。また、表示制御部５２１は、複数のユーザについて音声バーｖ５１０を生成した場合に、作成した全ての音声バーｖ５１０のうち一部のみを画面ｖ５０上に表示させてもよい。具体的な一例として、表示制御部５２１は、直近に発話したユーザに対応する音声バーｖ５１０を画面ｖ５０に表示させてもよい。

また、上述した例では、情報処理装置１０は、入力元の集音装置１１０に基づき、取得された音声信号がどのユーザの発話に基づくものかを認識していたが、音声信号を発話したユーザが特定できればこの方法には限定されない。例えば、情報処理装置１０は、各ユーザが発話を行う前に、そのユーザを特定するためにあらかじめ決められた操作を受け付けることで、その操作後に入力される音声信号を発話したユーザを特定してもよい。ユーザを特定するための操作の、具体的な一例としては、タッチ入力、音声入力、ジェスチャー入力、顔認識等が挙げられる。また、各ユーザに操作部１２０を割り当て、どの操作部１２０から操作を受け付けたかに応じて、以降に発話を行うユーザを特定してもよい。このような構成とすることで、例えば、集音装置１１０がユーザの人数分設けられない場合においても、情報処理装置１０は、各ユーザを識別して音声信号を取得することが可能となる。

｛３−１１−２．実施例８の動作｝
次に、本実施形態の実施例８に係る情報処理装置１０の具体的な動作の一例について、履歴情報ｖ５２８ａ及びｖ５２８ｂを、識別可能に表示させる場合を例に説明する。

ユーザ１ａが、集音装置１１０ａに対して音声入力を行うと、集音装置１１０ａで集音された音声信号が信号取得部５１０に出力される。信号取得部５１０は、取得した音声信号を解析部５３０に出力する。このとき、信号取得部５１０は、音声信号の取得元である集音装置１１０ａを識別するための識別情報を解析部５３０にあわせて通知する。解析部５３０の音声情報取得部５３１は、信号取得部５１０から取得した音声信号に音声認識処理を施して音声情報を生成し、生成された音声情報を発話内容解析部５３２に出力する。

発話内容解析部５３２は、取得した音声情報が所定のキーワード（例えば、「関連情報の生成及び表示」や「非表示となった履歴情報の再表示」に対応するキーワード）に一致するか否かを判定する。以降では、取得した音声情報が、所定のキーワードに一致せず、履歴情報として表示されるものとして説明する。

発話内容解析部５３２は、取得した音声情報を履歴として、履歴記憶部５５０に記憶させる。このとき、発話内容解析部５３２は、取得した音声情報の履歴に、ユーザ１ａの発話に基づくことを示す属性情報（ここでは、集音装置１１０ａを示す識別情報）を関連付けて記憶させる。

また、信号取得部５１０は、集音装置１１０ａからの音声信号が検知された旨を表示制御部５２１に通知する。信号取得部５１０から音声信号を検知した旨が通知されると、表示制御部５２１は、履歴情報取得部５２４を介して、履歴記憶部５５０に記憶された履歴を取得する。これにより、ユーザ１ａの発話に基づく履歴が、表示制御部５２１に取得される。

表示制御部５２１は、取得した、ユーザ１ａの発話に基づく履歴に対応する履歴情報ｖ５２８ａを生成し、生成された履歴情報ｖ５２８ａに取得された履歴を関連づける。

また、表示制御部５２１は、履歴に関連付けられた属性情報に基づき、取得した履歴が、いずれのユーザの発話に基づく履歴であるかを特定する。この場合には、表示制御部５２１は、取得した履歴が、ユーザ１ａの発話に基づく履歴であることを特定する。

表示制御部５２１は、特定されたユーザ１ａに対応する表示態様で、生成した履歴情報ｖ５２８ａを、画面ｖ５０に表示された音声バーｖ５１０上に表示させる。図４７に示す例では、表示制御部５２１は、履歴情報ｖ５２８ａを、ユーザ１ａに対応する色で表示させている。なお、どのユーザの履歴情報を、どのような表示態様で表示させるかを判別するためのデータは、あらかじめ作成しておき、表示制御部５２１が読み出し可能な記憶領域に記憶させておけばよい。

次いで、ユーザ１ｂが、集音装置１１０ｂに対して音声入力を行うと、集音装置１１０ｂで集音された音声信号が信号取得部５１０に出力される。信号取得部５１０は、取得した音声信号を解析部５３０に出力する。このとき、信号取得部５１０は、音声信号の取得元である集音装置１１０ｂを識別するための識別情報を解析部５３０にあわせて通知する。解析部５３０の音声情報取得部５３１は、信号取得部５１０から取得した音声信号に音声認識処理を施して音声情報を生成し、生成された音声情報を発話内容解析部５３２に出力する。

発話内容解析部５３２は、取得された音声情報が所定のキーワードに一致するか否かを判定する。以降では、取得された音声情報が、所定のキーワードに一致せず、履歴情報として表示されるものとして説明する。

発話内容解析部５３２は、取得された音声情報を履歴として、履歴記憶部５５０に記憶させる。このとき、発話内容解析部５３２は、取得された音声情報の履歴に、ユーザ１ｂの発話に基づくことを示す属性情報（ここでは、集音装置１１０ｂを示す識別情報）を関連付けて記憶させる。

また、信号取得部５１０は、集音装置１１０ｂからの音声信号が検知された旨を表示制御部５２１に通知する。信号取得部５１０から音声信号を検知した旨が通知されると、表示制御部５２１は、履歴情報取得部５２４を介して、履歴記憶部５５０に記憶された履歴を取得する。これにより、ユーザ１ｂの発話に基づく履歴が、表示制御部５２１に取得される。

表示制御部５２１は、取得した、ユーザ１ｂの発話に基づく履歴に対応する履歴情報ｖ５２８ｂを生成し、生成された履歴情報ｖ５２８ｂに取得された履歴を関連づける。

また、表示制御部５２１は、履歴に関連付けられた属性情報に基づき、取得した履歴が、いずれのユーザの発話に基づく履歴であるかを特定する。この場合には、表示制御部５２１は、取得した履歴が、ユーザ１ｂの発話に基づく履歴であることを特定する。

表示制御部５２１は、特定されたユーザ１ｂに対応する表示態様で、生成した履歴情報ｖ５２８ａを、画面ｖ５０に表示された音声バーｖ５１０上に表示させる。図４７に示す例では、表示制御部５２１は、履歴情報ｖ５２８ｂを、ユーザ１ｂに対応する色（ユーザ１ａの場合とは異なる色）で表示させている。なお、このとき表示制御部５２１は、履歴情報ｖ５２８ａを基準として、時系列に沿って新しい側（図４７の例では右側）に、履歴情報ｖ５３８ｂを表示させる。

以上のように、本実施形態の実施例８に係る情報処理装置１０は、複数のユーザ（例えば、ユーザ１ａ及び１ｂ）が、それぞれ異なる集音装置１１０を介して入力した音声信号を履歴情報として表示させる。このような構成により、一のユーザが、他のユーザの発話に基づく履歴にアクセスし、対応するコンテンツを実行することが可能となる。

なお、上述したような構成をソーシャルネットワークやグループウェアのような複数ユーザが利用可能な環境に適用してもよい。これにより、例えば、あるユーザの発話に基づく履歴情報や、その履歴情報に関連する関連情報を、その環境を利用する各ユーザが参照しアクセスすることが可能となる。

［３−１２．第３の実施形態のまとめ］
以上、第３の実施形態に係る情報処理装置１０の構成や、具体的な実施例について説明した。上述したように、第３の実施形態に係る情報処理装置１０は、集音された音声信号の認識結果を履歴として蓄積し、蓄積された履歴をアクセス可能に画面上に表示させることが可能な情報処理装置を提供する。このような構成とすることで、雑音が誤って認識されたとしても、その雑音に対応する処理が誤って動作する事態を防止することが可能となる。

なお、上述した各構成の動作は、情報処理装置１０のＣＰＵを機能させるためのプログラムによって構成することができる。このプログラムは、その装置にインストールされたＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）を介して実行されるように構成してもよい。また、このプログラムは、上述した各構成が含まれる装置が読み出し可能であれば、記憶される位置は限定されない。例えば、装置の外部から接続される記録媒体にプログラムが格納されていてもよい。この場合には、プログラムが格納された記録媒体を装置に接続することによって、その装置のＣＰＵに当該プログラムを実行させるように構成するとよい。

＜４．ハードウェア構成例＞
上記の情報処理装置１０の動作は、例えば、図４８に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、情報処理装置１０の動作は、コンピュータプログラムを用いて図４８に示すハードウェアを制御することにより実現されてもよい。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、接触式又は非接触式のＩＣチップ、接触式又は非接触式のＩＣカード、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍの略である。また、上記のＰＤＡは、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔの略である。

図４８に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。また、上記のＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。そして、上記のＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。

ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、ＣａｔｈｏｄｅＲａｙＴｕｂｅの略である。また、上記のＬＣＤは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙの略である。そして、上記のＰＤＰは、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ−ＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙの略である。

記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。

ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。

接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。また、上記のＳＣＳＩは、ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅの略である。

通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、ＷｉｒｅｌｅｓｓＵＳＢの略である。そして、上記のＡＤＳＬは、ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅの略である。

本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本技術は以下のような構成も取ることができる。
（１）
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、
前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、
を備える、情報処理装置。
（２）
前記解析結果提示部は、前記発話内容取得部による、確定された前記話者の発話内容の取得前に、前記発話内容取得部が該発話内容の確定前から逐次取得した情報を用いて前記話者による発話内容を可視化した情報を逐次生成する、前記（１）に記載の情報処理装置。
（３）
前記解析結果提示部は、前記発話内容取得部が取得する、前記話者により発話された内容の長さを用いて前記話者による発話内容を可視化した情報を生成する、前記（２）に記載の情報処理装置。
（４）
前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは無関係の情報である、前記（２）または（３）に記載の情報処理装置。
（５）
前記解析結果提示部は、前記発話内容取得部が取得した話者の発話音の長さに基づいた単語を、前記発話内容とは無関係の情報として生成する、前記（４）に記載の情報処理装置。
（６）
確定された前記話者の発話内容を前記発話内容取得部が取得すると、前記解析結果提示部は、提示してきた可視化した情報を、確定された前記話者の発話内容に変化させる、前記（２）〜（５）のいずれかに記載の情報処理装置。
（７）
前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは関係のある情報である、前記（２）に記載の情報処理装置。
（８）
前記話者による発話内容と関係のある情報は、前記発話内容取得部が取得する、前記話者の発話から得られる音素情報である、前記（７）に記載の情報処理装置。
（９）
前記解析結果提示部による情報の逐次生成の取り消しを受け付ける取消受付部を更に備える、前記（１）〜（８）のいずれかに記載の情報処理装置。
（１０）
前記解析結果提示部は、前記取消受付部による取り消しの受け付けに伴って、前記解析結果提示部が提示してきた情報を消去させる、前記（９）に記載の情報処理装置。
（１１）
音声情報を逐次取得する音声情報取得部と、
前記音声情報取得部が逐次取得した前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析部と、
を備え、
前記発話内容解析部は、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理装置。
（１２）
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
を備える、情報処理方法。
（１３）
音声情報を逐次取得する音声情報取得ステップと、
前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
を備え、
前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理方法。
（１４）
コンピュータに、
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
を実行させる、コンピュータプログラム。
（１５）
コンピュータに、
音声情報を逐次取得する音声情報取得ステップと、
前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
を実行させ、
前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、コンピュータプログラム。

１０情報処理装置
１００表示装置
１０２表示部
１１０集音装置
３１０、４２１、５１０信号取得部
３２０、４２０、５２０表示制御ユニット
３２１、５２１表示制御部
３２２、５２２解析結果取得部
３２３、５２３コンテンツ情報取得部
３３０、５３０解析部
３３１、４２２、５３１音声情報取得部
３３２、４２３、５３２発話内容解析部
３３３、５３３レベル解析部
３４０、４３０、５４０辞書データ保持部
３５０、５５０履歴記憶部
３６１、５６１コンテンツ特定部
４２４発話内容取得部
４２５解析結果提示部
４２６取消受付部
５２４履歴情報取得部
５７０システム情報取得部

Claims

話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得部と、
前記発話内容取得部が逐次取得した情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示部と、
を備える、情報処理装置。
前記解析結果提示部は、前記発話内容取得部による、確定された前記話者の発話内容の取得前に、前記発話内容取得部が該発話内容の確定前から逐次取得した情報を用いて前記話者による発話内容を可視化した情報を逐次生成する、請求項１に記載の情報処理装置。
前記解析結果提示部は、前記発話内容取得部が取得する、前記話者により発話された内容の長さを用いて前記話者による発話内容を可視化した情報を生成する、請求項２に記載の情報処理装置。
前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは無関係の情報である、請求項２に記載の情報処理装置。
前記解析結果提示部は、前記発話内容取得部が取得した話者の発話音の長さに基づいた単語を、前記発話内容とは無関係の情報として生成する、請求項４に記載の情報処理装置。
確定された前記話者の発話内容を前記発話内容取得部が取得すると、前記解析結果提示部は、提示してきた可視化した情報を、確定された前記話者の発話内容に変化させる、請求項２に記載の情報処理装置。
前記解析結果提示部が生成する前記話者による発話内容を可視化した情報は、該発話内容とは関係のある情報である、請求項２に記載の情報処理装置。
前記話者による発話内容と関係のある情報は、前記発話内容取得部が取得する、前記話者の発話から得られる音素情報である、請求項７に記載の情報処理装置。
前記解析結果提示部による情報の逐次生成の取り消しを受け付ける取消受付部を更に備える、請求項１に記載の情報処理装置。
前記解析結果提示部は、前記取消受付部による取り消しの受け付けに伴って、前記解析結果提示部が提示してきた情報を消去させる、請求項９に記載の情報処理装置。
音声情報を逐次取得する音声情報取得部と、
前記音声情報取得部が逐次取得した前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析部と、
を備え、
前記発話内容解析部は、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理装置。
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
を備える、情報処理方法。
音声情報を逐次取得する音声情報取得ステップと、
前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
を備え、
前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、音声処理方法。
コンピュータに、
話者による発話内容が含まれる音声情報の解析により得られる情報を、該発話内容の確定前から逐次取得する発話内容取得ステップと、
前記発話内容取得ステップで逐次取得された情報を用いて、前記話者による発話内容を可視化した情報を逐次生成して提示する解析結果提示ステップと、
を実行させる、コンピュータプログラム。
コンピュータに、
音声情報を逐次取得する音声情報取得ステップと、
前記音声情報取得ステップで逐次取得された前記音声情報を用いて、話者による発話内容を解析して、解析結果を出力する発話内容解析ステップと、
を実行させ、
前記発話内容解析ステップは、前記話者による発話内容が確定する前でも解析の経過を逐次出力する、コンピュータプログラム。