JP2020086364A

JP2020086364A - 情報提示システム、情報提示装置、情報提示方法及びコンピュータプログラム

Info

Publication number: JP2020086364A
Application number: JP2018224896A
Authority: JP
Inventors: 昂平高橋; Kohei Takahashi; 諒伊澤; Ryo Izawa
Original assignee: NTT Plala Inc
Current assignee: NTT Plala Inc
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-04

Abstract

【課題】より簡単にスマートスピーカを操作することが可能となる。【解決手段】発話された音声を取得し、音声に応じて音声信号を生成する音声取得部と、音声信号に基づいて、音声取得部に対して入力できる情報を表す入力情報を１つ以上決定する入力情報決定部と、音声取得部に対して入力できる情報を文字で表した部分画像を入力情報毎に生成し、部分画像を含む画像情報を生成する画像情報生成部と、画像情報を表示装置に表示させる表示指示部と、を備える、情報提示システムである。【選択図】図４

Description

本発明は、情報提示システム、情報提示装置、情報提示方法及びコンピュータプログラムに関する。

近年、音声によって操作可能な装置であるスマートスピーカが普及してきている。スマートスピーカは、受け付けた音声に予め定められた言葉が含まれている場合、言葉に応じた処理を行う。そのため、話者は、予め定められた言葉を発話する。これにより、話者はスマートスピーカに意図した動作を行わせることができる。

特開２０１７−１７３５３０号公報

しかしながら、話者がスマートスピーカを動作させる言葉を知るには、取扱説明書等の別手段を通じたり、スマートスピーカの使用を通じて習得したりする必要がある。また、話者は、スマートスピーカがどのような動作ができるのかわからない場合、スマートスピーカにどのように発話すればよいのかわからないことがある。このように、話者にとって、スマートスピーカに対して意図した操作を行わせることが難しいという問題があった。

上記事情に鑑み、本発明は、より簡単にスマートスピーカを操作することができる技術を提供することを目的としている。

本発明の一態様は、発話された音声を取得し、前記音声に応じて音声信号を生成する音声取得部と、前記音声信号に基づいて、前記音声取得部に対して入力できる情報を表す入力情報を１つ以上決定する入力情報決定部と、前記音声取得部に対して入力できる情報を文字で表した部分画像を前記入力情報毎に生成し、前記部分画像を含む画像情報を生成する画像情報生成部と、前記画像情報を表示装置に表示させる表示指示部と、を備える、情報提示システムである。

本発明の一態様は、上記の情報提示システムであって、音声信号に基づいて文字列を生成する文字列生成部と、発話した個人の意図を表す意図情報を前記文字列から取得する文字列解析部と、前記入力情報に対応付けられ、前記入力情報の特徴を表す特徴情報を前記意図情報に基づいて取得する特徴情報取得部と、をさらに備え、前記入力情報決定部は、前記特徴情報に基づいて前記入力情報を決定する。

本発明の一態様は、上記の情報提示システムであって、発話した個人を前記音声信号に基づいて識別された前記個人の状態を表す状態情報を取得する状態情報取得部と、をさらに備え、前記入力情報決定部は、前記入力情報毎に入力される音声として適切であるか否かを表す評価情報を前記状態情報に基づいて決定し、前記評価情報に基づいて前記入力情報を１つ以上決定する。

本発明の一態様は、上記の情報提示システムであって、前記画像情報生成部は、決定された前記入力情報の数が所定の閾値よりも大きい場合、前記所定の閾値の数に応じて前記部分画像を生成する。

本発明の一態様は、上記の情報提示システムであって、前記画像情報生成部は、前記入力情報に決定された評価情報の順に前記部分画像が並べられた前記画像情報を生成する。

本発明の一態様は、上記の情報提示システムであって、前記入力情報は予め定められたアイコン画像を含み、前記画像情報生成部は、前記文字と前記アイコン画像とを並べて表される前記部分画像を生成する。

本発明の一態様は、発話された音声を取得し、前記音声に応じて音声信号を生成する音声取得部と、前記音声信号に基づいて、前記音声取得部に対して入力できる情報を表す入力情報を１つ以上決定する入力情報決定部と、前記音声取得部に対して入力できる情報を文字で表した部分画像を前記入力情報毎に生成し、前記部分画像を含む画像情報を生成する画像情報生成部と、前記画像情報を表示装置に表示させる表示指示部と、を備える、情報提示装置である。

本発明の一態様は、情報提示装置が、発話された音声を取得し、前記音声に応じて音声信号を生成する音声取得ステップと、情報提示装置が、前記音声信号に基づいて、前記音声取得ステップにおいて入力できる情報を表す入力情報を１つ以上決定する入力情報決定ステップと、情報提示装置が、前記音声取得ステップにおいて入力できる情報を文字で表した部分画像を前記入力情報毎に生成し、前記部分画像を含む画像情報を生成する画像情報生成ステップと、情報提示装置が、前記画像情報を表示装置に表示させる表示指示ステップと、を有する、情報提示方法である。

本発明の一態様は、上記の情報提示システムとしてコンピュータを機能させるためのコンピュータプログラムである。

本発明により、より簡単にスマートスピーカを操作することが可能となる。

第１の実施形態の情報提示システム１のシステム構成を表すシステム構成図である。第１の実施形態の音声入出力装置１００の機能構成を表す機能ブロック図である。第１の実施形態の音声解析装置２００の機能構成を表す機能ブロック図である。第１の実施形態の情報提示装置３００の機能構成を表す機能ブロック図である。第１の実施形態の特徴情報テーブルの具体例を示す図である。第１の実施形態の状態情報テーブルの具体例を示す図である。第１の実施形態の入力情報テーブルの具体例を示す図である。第１の実施形態のパラメータテーブルの具体例を示す図である。第１の実施形態の表示装置４００に表示される画像情報の第一の具体例を表す図である。第１の実施形態の画像情報を表示装置４００に表示するまでの処理の流れを示すシーケンスチャートである。第１の実施形態の表示装置４００の電源がオンされた場合に表示される画像情報の一具体例を示す図である。第１の実施形態の表示装置４００に表示される画像情報にその他の値を含む場合の一具体例を表す図である。第２の実施形態の情報提示システム１ａのシステム構成を表すシステム構成図である。第２の実施形態の音声入出力装置１００ａの機能構成を表す機能ブロック図である。第２の実施形態の音声解析装置２００ａの機能構成を表す機能ブロック図である。

（第１の実施形態）
図１は、第１の実施形態の情報提示システム１のシステム構成を表すシステム構成図である。情報提示システム１は、音声入出力装置１００に対して音声で入力可能な言葉を含む画像を表示装置４００に表示する。情報提示システム１は、ネットワーク５００に設けられる。情報提示システム１は、ネットワーク５００を介して互いに通信可能に接続される音声入出力装置１００、音声解析装置２００、情報提示装置３００及び表示装置４００を備える。ネットワーク５００は、どのようなネットワークで構築されてもよい。例えば、ネットワーク５００は、インターネットで構成されてもよい。

音声入出力装置１００は、スマートスピーカ等の音声を入力及び音声を出力可能な装置である。音声入出力装置１００は、所定の場所に設けられる。音声入出力装置１００は、集音した音声を音声信号として音声解析装置２００に送信する。音声入出力装置１００は、音声解析装置２００から受け付けた音声信号又は指示された音声を出力する。所定の場所は、例えば、音声入出力装置１００を所有する者（以下「ユーザ」という。）の宅内であってもよいし、不特定多数の人が訪れる公共の空間であってもよい。

音声解析装置２００は、サーバ、パーソナルコンピュータ、スマートフォン、タブレットコンピュータ又はウェアラブルデバイス等の情報処理装置である。音声解析装置２００は、音声入出力装置１００によって送信された音声信号を解析する。音声解析装置２００は、解析結果に基づいて、集音された音声を表す文字列を生成する。音声解析装置２００は、解析結果に基づいて、話者を識別してもよい。

情報提示装置３００は、サーバ、パーソナルコンピュータ、スマートフォン、タブレットコンピュータ又はウェアラブルデバイス等の情報処理装置である。情報提示装置３００は、音声解析装置２００によって生成された文字列に基づいて、音声入出力装置１００に対して入力可能な文言を決定する。

表示装置４００は、テレビ、デジタルサイネージ、ＶＲ（Virtual Reality）ゴーグル又はディスプレイ等の表示装置である。表示装置４００は、情報提示装置３００によって決定された文言を示す画像を表示する。表示装置４００は、表示装置に対して行われた操作（例えば、リモコン操作、コンテンツ再生、録画等）を情報提示装置３００に送信する。

図２は、第１の実施形態の音声入出力装置１００の機能構成を表す機能ブロック図である。音声入出力装置１００は、音声入出力プログラムを実行することによって通信部１０１、集音部１０２、発音部１０３及び制御部１０４を備える装置として機能する。

通信部１０１は、ネットワークインタフェースである。通信部１０１はネットワーク５００を介して、音声解析装置２００及び情報提示装置３００と通信する。通信部１０１は、例えば無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＬＴＥ（Long Term Evolution）（登録商標）等の通信方式で通信してもよい。

集音部１０２は、マイク等の集音装置を用いて構成される。集音部１０２は、集音部１０２近傍の音声を集音する。集音部１０２は、例えば人間によって発話された音声を集音する。集音部１０２は、集音装置を音声入出力装置１００に接続するためのインタフェースであってもよい。この場合、集音部１０２は、集音装置において入力された音声信号から音声データ（例えば、集音装置に対して話しかけられた音声）を生成し、音声入出力装置１００に入力する。

発音部１０３は、スピーカ又はイヤホン等の音声出力装置を用いて構成される。発音部１０３は、音声出力装置を音声入出力装置１００に接続するためのインタフェースであってもよい。この場合、発音部１０３は、音声信号（例えば、音声解析装置２００から取得された音声信号）を音声出力装置に出力する。

制御部１０４は、音声入出力装置１００の各部の動作を制御する。制御部１０４は、例えばＣＰＵ（Central Processing Unit）等のプロセッサ及びＲＡＭ（Random Access Memory）を備えた装置により実行される。制御部１０４は、音声入出力プログラムを実行することによって、音声取得部１０５及び音声出力部１０６として機能する。

音声取得部１０５は、集音部１０２によって集音された音声に基づいて音声信号を生成する。音声取得部１０５は、生成された音声信号を音声解析装置２００に送信する。

音声出力部１０６は、音声信号に基づいて、発音部１０３に音声を発音させる。音声出力部１０６は、音声信号を音声解析装置２００から受信してもよいし、音声入出力装置１００に予め記録された音声信号を取得してもよい。

図３は、第１の実施形態の音声解析装置２００の機能構成を表す機能ブロック図である。音声解析装置２００は、音声解析プログラムを実行することによって通信部２０１、個人識別情報記憶部２０２及び制御部２０３を備える装置として機能する。

通信部２０１は、ネットワークインタフェースである。通信部２０１はネットワーク５００を介して、音声入出力装置１００及び情報提示装置３００と通信する。通信部２０１は、例えば無線ＬＡＮ、有線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ又はＬＴＥ等の通信方式で通信してもよい。

個人識別情報記憶部２０２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。個人識別情報記憶部２０２は、音声情報と個人識別子とを対応付けて記憶する。音声情報は、例えば声紋等のように音声信号に基づいて得られる情報である。声紋は、各個人の音声から生成される。声紋は、各個人によって異なる。以下、本実施形態では音声情報は声紋であるとして説明する。個人識別子は、音声入出力装置１００を使用する個人を識別可能な情報である。個人識別子は、例えば文字又は数字等が組み合わされた文字列である。個人識別子は、声紋等の音声情報に対して所定の処理（例えば、ハッシュ処理等）を行うことで生成されてもよいし、任意の文字列が指定されてもよいし、予め定められた文字列が指定されてもよいし、他の個人識別子と重複しなければどのような情報であってもよい。

制御部２０３は、音声解析装置２００の各部の動作を制御する。制御部２０３は、例えばＣＰＵ等のプロセッサ及びＲＡＭを備えた装置により実行される。制御部２０３は、音声解析プログラムを実行することによって、音声信号取得部２０４、文字列生成部２０５、個人識別部２０６、送信部２０７及び音声出力指示部２０８として機能する。

音声信号取得部２０４は、音声入出力装置１００から送信された音声信号を取得する。音声信号取得部２０４は、取得された音声信号を文字列生成部２０５及び個人識別部２０６に出力する。

文字列生成部２０５は、音声信号に基づいて文字列を生成する。具体的には、文字列生成部２０５は、音声信号によって表される波形の形状又は周波数成分に応じて文字列を生成する。文字列生成部２０５は、公知の手法を用いて文字列を生成してもよい。文字列生成部２０５は、生成された文字列を送信部２０７に出力する。

個人識別部２０６は、音声信号に基づいて音声を発話した個人を識別する。個人識別部２０６は、例えば、音声信号に対して周波数分析を行うことで声紋を生成する。個人識別部２０６は、生成された声紋と一致する声紋を個人識別情報記憶部２０２から特定する。個人識別部２０６は、特定された声紋に対応付けされた個人識別子を取得する。個人識別部２０６は、個人識別子を送信部２０７に出力する。

送信部２０７は、出力された個人識別子と出力された文字列とを対応付けて情報提示装置３００に送信する。なお、送信部２０７は、個人識別子が出力されていない場合、文字列のみを情報提示装置３００に送信するように構成されてもよい。

音声出力指示部２０８は、音声信号を音声入出力装置１００に送信する。音声出力指示部２０８は、例えば、音声信号取得部２０４によって取得された音声信号に応じて、送信される音声信号を決定する。音声出力指示部２０８は、ネットワーク５００を介して取得された音声信号を送信してもよいし、音声解析装置２００に予め記録された音声信号を送信してもよい。送信された音声信号は、音声入出力装置１００によって発音される。

図４は、第１の実施形態の情報提示装置３００の機能構成を表す機能ブロック図である。情報提示装置３００は、情報提示プログラムを実行することによって通信部３０１、特徴情報記憶部３０２、状態情報記憶部３０３、入力情報記憶部３０４及び制御部３０５を備える装置として機能する。

通信部３０１は、ネットワークインタフェースである。通信部３０１はネットワーク５００を介して、音声解析装置２００及び表示装置４００と通信する。通信部３０１は、例えば無線ＬＡＮ、有線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ又はＬＴＥ等の通信方式で通信してもよい。

特徴情報記憶部３０２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。特徴情報記憶部３０２は、特徴情報テーブルを記憶する。特徴情報テーブルは、音声入出力装置１００に対して行わせる処理の特徴を記憶する。図５は、第１の実施形態の特徴情報テーブルの具体例を示す図である。特徴情報テーブルは、特徴情報レコードを有する。特徴情報レコードは、形態素及び特徴情報の各値を有する。形態素は、何らかの意味を持つ最小単位の文字である。形態素は、形態素をさらに分解した場合に意味を有さなくなる文字のまとまりを表す。特徴情報は、音声入出力装置１００に対して入力された音声から生成された文字列の特徴を表す。特徴情報は、音声入出力装置１００に対して行わせる処理を決定するために用いられる。特徴情報は、１つの特徴情報レコードに複数保持されてもよい。特徴情報レコードは、予め特徴情報テーブルに記録される。

図５に示される例では、特徴情報テーブルの最上段の特徴情報レコードは、形態素の値が“テレビ”、特徴情報の値が“テレビ、録画、ビデオ”である。従って、特徴情報テーブルの最上段のレコードによると、音声解析装置２００から取得された文字列の形態素に“テレビ”が含まれている場合、特徴情報として “テレビ、録画、ビデオ”が特定される。なお、図５に示される特徴情報テーブルは一具体例に過ぎない。そのため、図５とは異なる態様で特徴情報テーブルが構成されてもよい。例えば、特徴情報テーブルは、名詞又は動詞等の品詞のカラムを有してもよい。

図４に戻って、情報提示装置３００の説明を続ける。状態情報記憶部３０３は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。状態情報記憶部３０３は、状態情報テーブルを記憶する。状態情報テーブルは、表示装置４００の使用履歴を音声入出力装置１００の利用者毎に記憶する。図６は、第１の実施形態の状態情報テーブルの具体例を示す図である。状態情報テーブルは、状態情報レコードを有する。状態情報レコードは、個人識別子及び状態情報の各値を有する。個人識別子は、音声解析装置２００から送信される。個人識別子は、個人識別情報記憶部２０２に記録される個人識別子と同じ情報である。状態情報は、個人識別子によって特定される個人の情報を保持する。状態情報は、例えば、画面別の遷移履歴、リモコン操作履歴、コンテンツ利用履歴、個人設定情報等の表示装置４００に対して行われた操作の履歴を保持する。

画面別の遷移履歴は、例えば、表示装置４００に表示される画面の遷移履歴を表す。
リモコン操作履歴は、例えば、個人が表示装置４００に対して操作されたリモコンの操作の履歴を表す。コンテンツ利用履歴は、例えば、個人が表示装置４００を介してどのようなコンテンツを利用したのか、コンテンツをどれくらいの時間、視聴したのかを表す。
個人設定情報は、例えば、個人の年齢、性別、コンテンツ視聴の履歴又は音声入出力装置１００に対する音声入力の履歴を含む情報である。状態情報レコードは、予め状態情報テーブルに記録されていてもよいし、表示装置４００から送信された情報（画面別の遷移履歴、リモコン操作履歴、コンテンツ利用履歴、個人設定情報等）に応じて、更新されてもよい。

図６に示される例では、状態情報テーブルの最上段の状態情報レコードは、個人識別子の値が“Ａ０００１”、状態情報の値が“画面別の遷移履歴Ａ、リモコン操作履歴Ｂ、コンテンツ利用履歴Ｃ、個人設定情報Ｄ、…”である。従って、状態情報テーブルの最上段のレコードによると、個人識別子“Ａ０００１”によって特定される個人は、状態情報“画面別の遷移履歴Ａ、リモコン操作履歴Ｂ、コンテンツ利用履歴Ｃ、個人設定情報Ｄ、…”によって表される情報が特定される。なお、図６に示される状態情報テーブルは一具体例に過ぎない。そのため、図６とは異なる態様で状態情報テーブルが構成されてもよい。例えば、状態情報テーブルは、個人識別子によって特定される個人の世帯を表す世帯識別子のカラムを有してもよい。

図４に戻って、情報提示装置３００の説明を続ける。入力情報記憶部３０４は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。入力情報記憶部３０４は、入力情報テーブルを記憶する。入力情報テーブルは、音声入出力装置１００に対して、所定の処理を行わせるための言葉を記憶する。所定の処理は、例えば、テレビの録画であってもよいし、食品の注文であってもよいし、近隣のお店の検索であってもよいし、音声入出力装置１００によって行える処理であればどのような処理であってもよい。

図７は、第１の実施形態の入力情報テーブルの具体例を示す図である。入力情報テーブルは、入力情報レコードを有する。入力情報レコードは、支援情報、特徴情報及びその他の各値を有する。支援情報は、音声入出力装置１００に対して入力可能な音声を表す文字である。支援情報は、音声入出力装置１００に対して音声を入力する話者に対して、どのような言葉を発話すればよいのか教えるための情報である。特徴情報は、支援情報に対応付けられた特徴情報を表す。特徴情報は、特徴情報記憶部３０２に記憶された特徴情報と同じ情報である。その他は、任意の情報が保持される。例えば、その他には、表示装置４００に表示される文字列が記録されてもよいし、表示装置４００に表示される画像が記録されてもよい。

図７に示される例では、入力情報テーブルの最上段の入力情報レコードは、支援情報の値が“ＴＶの録画一覧画面を開く”、特徴情報の値が“テレビ、録画、ビデオ”、その他の値が空値である。従って、入力情報テーブルの最上段のレコードによると、音声解析装置２００から取得された文字に基づいて、特徴情報として“テレビ、録画、ビデオ”が取得された場合、支援情報として“ＴＶの録画一覧画面を開く”が決定される。なお、図７に示される入力情報テーブルは一具体例に過ぎない。そのため、図７とは異なる態様で入力情報テーブルが構成されてもよい。例えば、入力情報テーブルは、支援情報のカラムに保持される文字列が音声入出力装置１００に入力された場合に表示装置４００に表示される支援情報を有するカラムを有していてもよい。入力情報レコードは、予め入力情報テーブルに保持されていてもよいし、ネットワーク５００を介して手動又はマニュアル等の電子文書に基づいて生成されてもよい。

図４に戻って、情報提示装置３００の説明を続ける。制御部３０５は、情報提示装置３００の各部の動作を制御する。制御部３０５は、例えばＣＰＵ等のプロセッサ及びＲＡＭを備えた装置により実行される。制御部３０５は、情報提示プログラムを実行することによって、文字列取得部３０６、文字列解析部３０７、特徴情報取得部３０８、状態情報取得部３０９、支援情報決定部３１０、画像情報生成部３１１及び表示指示部３１２として機能する。

文字列取得部３０６は、音声解析装置２００から送信された文字列及び個人識別子を取得する。文字列取得部３０６は、取得された文字列を文字列解析部３０７に出力する。文字列取得部３０６は、取得された個人識別子を状態情報取得部３０９に出力する。

文字列解析部３０７は、所定の処理を行うことで文字列からユーザの意図を示す意図情報を取得する。意図情報は、ユーザの意図を表す情報である。所定の処理は、例えば形態素解析又はトピック分析等の公知の自然言語処理手法が用いられてもよい。所定の処理として形態素解析が用いられる場合、意図情報は形態素である。所定の処理としてトピック分析が用いられる場合、意図情報はトピックモデルである。以下、所定の処理として形態素解析が用いられるものとして説明する。

文字列解析部３０７は、文字列に対して形態素解析を行うことで１つ以上の形態素を取得する。形態素解析は、文字列を形態素に分解する処理である。形態素解析には、公知のアルゴリズムが用いられてもよい。形態素は、文字列を分割することで得られる。形態素解析は、分解された形態素に対して品詞を判別する処理が含まれていてもよい。文字列解析部３０７は、取得された形態素を特徴情報取得部３０８に出力する。

特徴情報取得部３０８は、形態素に基づいて特徴情報を取得する。具体的には、特徴情報取得部３０８は、形態素解析によって得られた形態素を保持する特徴情報レコードを、特徴情報テーブルから特定する。特徴情報取得部３０８は、特定された特徴情報レコードが保持する特徴情報を取得する。特徴情報取得部３０８は、取得された特徴情報を支援情報決定部３１０に出力する。なお、特徴情報取得部３０８は、複数の特徴情報レコードを特定した場合、それぞれの特徴情報レコードが保持する特徴情報を取得する。

状態情報取得部３０９は、個人識別子に基づいて状態情報を取得する。具体的には、状態情報取得部３０９は、文字列取得部３０６によって取得された個人識別子を保持する状態情報レコードを、状態情報テーブルから特定する。状態情報取得部３０９は、特定された状態情報レコードが保持する状態情報を取得する。状態情報取得部３０９は、取得された状態情報を支援情報決定部３１０に出力する。また、状態情報取得部３０９は、ネットワーク５００を介して、現在の時刻、現在の曜日、現在の天気、現在の気温、コマンド実行先サービスの通知数等の付加的な情報を取得してもよい。この場合、状態情報取得部３０９は、取得された付加的な情報を支援情報決定部３１０に出力する。

支援情報決定部３１０は、形態素、特徴情報及び状態情報とに基づいて、表示装置４００に表示される支援情報を決定する。決定される支援情報は、音声入出力装置１００に対して入力可能な言葉を表す。支援情報決定部３１０は、１つ以上の支援情報を決定する。

支援情報決定部３１０は、例えば、以下の手段で支援情報を特定する。支援情報決定部３１０は、生成された各形態素と取得された各特徴情報との相関距離を決定する。相関距離は、例えば、０以上１以下の範囲で決定される。支援情報決定部３１０は、相関距離が１に近いほど、形態素と特徴情報との距離は近いと判定する。支援情報決定部３１０は、公知の手法を用いて相関距離を決定してもよい。支援情報決定部３１０は、各入力情報レコードに保持される特徴情報に予め定められた重みと、決定された相関距離との加重平均を決定する。

支援情報決定部３１０は、各入力情報レコードに対する評価情報を加重平均に基づいて決定する。評価情報は、音声入出力装置１００に入力される音声として適切であるか否かの程度を表す指標である。評価情報が大きいほど、音声入出力装置１００に入力される音声として適切であると判断される。評価情報は、以下の数式（１）によって算出される。

数式（１）の、ｗ_ｉは、支援情報レコードに保持される特徴情報に予め定められた重みである。ｗ_ｉの総和は１である。ｄ_ｉは、特徴情報の相関距離を表す。ｐ_ｎは、パラメータである。パラメータは、表示装置４００に表示されている現在の画面、天気、気温又は曜日等の外部の環境、個人の操作の情報等の状態情報に基づいて算出される。パラメータは、以下の数式（２）とパラメータテーブルとを用いて算出される。

数式（２）の、ｍ_ｋは、状態情報の各項目に定められた重みである。ｍ_ｋの総和は１である。ｍ_ｋの各値は、予め指定される。ｘ_kは、−１以上１以下の範囲で決定される。ｘ_kは、重みｍ_ｋに対する評価値を表す。ｋは、パラメータテーブルのレコードの識別情報の数を表す。

図８は、第１の実施形態のパラメータテーブルの具体例を示す図である。支援情報決定部３１０は、入力情報テーブルに保持される特徴情報の種類の数だけパラメータテーブルを有する。パラメータテーブルは、パラメータレコードを有する。パラメータレコードは、パラメータレコードを識別するｋ、評価要素、重み及び評価値の各値を有する。ｋは、数式（２）の添え字である。支援情報決定部３１０は、ｋの値によってパラメータレコードを一意に識別可能になる。評価要素は、状態情報に含まれるいずれの情報を用いるかを識別するために用いられる。重みは、状態情報に定められた重みである。重みは、ｍ_ｋの値を表す。評価値は、ｘ_kの算出方法を表す。ｘ_kは、状態情報に含まれる各値に応じて、決定される。

図８に示される例では、パラメータテーブルの最上段のパラメータレコードは、ｋの値が“０”、評価要素の値が“未視聴の録画数”、重みの値が“０．２”、評価値の値が“未視聴の録画数×０．１”である。従って、パラメータテーブルの最上段のレコードによると、数式（２）において、ｋ＝０の場合、重みｍ_０は０．２であり、状態情報に含まれる未視聴の録画数に０．１を乗じた値が、ｘ_０であることがわかる。なお、上述の手法は一例であり、評価情報の決定にはどのような手法が用いられてもよい。

支援情報決定部３１０は、入力情報レコードに対して決定された評価情報に基づいて表示装置４００に表示される支援情報を決定する。例えば、支援情報決定部３１０は、決定された評価情報が所定の条件を満たす入力情報レコードに保持される支援情報を表示装置４００に表示される支援情報として決定してもよい。所定の条件とは、例えば、予め定められた閾値よりも決定された評価情報の値が大きいことであってもよいし、決定された評価情報の値を降順に並べた際に、評価情報の値が大きい順に予め指定された個数まで選択することであってもよい。所定の条件とは、決定された評価情報が用いられるならばどのような条件であってもよい。支援情報決定部３１０は、決定された支援情報を画像情報生成部３１１に出力する。なお、支援情報決定部３１０は、特定された入力情報レコードがその他の値を有する場合、その他の値を取得してもよい。この場合、支援情報決定部３１０は、取得されたその他の値を画像情報生成部３１１に出力する。支援情報決定部３１０は、入力情報決定部の一態様である。

画像情報生成部３１１は、支援情報に基づいて部分画像を生成する。画像情報生成部３１１は、生成された部分画像を含む画像情報を生成する。具体的には、画像情報生成部３１１は、支援情報に含まれる言葉を表した部分画像を入力情報毎に生成する。画像情報生成部３１１は、生成された部分画像を含む画像情報を生成する。なお、画像情報生成部３１１は、画像情報に音声解析装置２００から送信された文字列を含めてもよいし、特徴情報取得部３０８によって取得された特徴情報を含めてもよい。なお、画像情報生成部３１１は、決定された支援情報の数が所定の閾値の数よりも大きい場合、所定の閾値の数に応じた部分画像を生成してもよい。例えば、決定された支援情報の数が１０であるのに対して、所定の閾値が７である場合、画像情報生成部３１１は、部分画像を７つ生成するように構成されてもよい。この場合、画像情報生成部３１１は、部分画像を生成する対象となる支援情報を７つ選択する指示をネットワーク５００を介して受け付けてもよいし、決定された評価情報（例えば、評価情報の値が大きい順に７つ）に応じて決定されてもよい。画像情報生成部３１１は、外部の通信装置からＨＴＭＬ（HyperText Markup Language）ファイル等のウエブページ情報を取得して画像情報としてもよいし、文字と画像とを取得して画像情報としてもよい。画像情報生成部３１１は、生成された画像情報を表示指示部３１２に出力する。

表示指示部３１２は、生成された画像情報を音声入出力装置１００に対応付けされた表示装置４００に表示させる。具体的には、表示指示部３１２は、画像情報を表示装置４００に送信する。表示装置４００は、送信された画像情報を表示する。表示指示部３１２は、画像情報を表示装置４００に送信した際に、音声解析装置２００に対して発話情報を送信する。発話情報は、音声入出力装置１００から出力される音声信号を含む。音声出力指示部２０８は、発話情報を受信した場合、音声入出力装置１００に対して、発話情報に含まれる音声信号を出力させる音声出力指示を送信する。

音声入出力装置１００と表示装置４００との対応付けの具体例について説明する。第１の具体例として、表示指示部３１２は、個人識別子と表示装置４００のＩＰアドレスとを対応付けた対応情報を保持していてもよい。この場合、表示指示部３１２は、取得された個人識別子を保持する対応情報を特定する。表示指示部３１２は、特定された対応情報から、表示装置４００のＩＰアドレスを取得する。表示指示部３１２は、取得されたＩＰアドレスに対して、画像情報を送信する。

第２の具体例として、表示指示部３１２は、音声入出力装置１００のＩＰアドレスと表示装置４００のＩＰアドレスとを対応付けた対応情報を保持していてもよい。この場合、文字列取得部３０６は、音声解析装置２００から、文字列及び個人識別子とともに音声入出力装置１００のＩＰアドレスを取得する。表示指示部３１２は、取得されたＩＰアドレスの値を音声入出力装置のＩＰアドレスとして保持する対応情報を特定する。表示指示部３１２は、特定された対応情報から、表示装置４００のＩＰアドレスを取得する。表示指示部３１２は、取得されたＩＰアドレスに対して、画像情報を送信する。なお、音声入出力装置１００と表示装置４００との対応付けはこれらに限定されない。音声入出力装置１００から得られる情報に基づいて、表示装置４００が特定できるならばどのような手法が用いられてもよい。なお、音声入出力装置１００と表示装置４００との対応付けは、予め表示指示部３１２に記録される。

図９は、第１の実施形態の表示装置４００に表示される画像情報の第一の具体例を表す図である。図９（ａ）は、音声入出力装置１００に対して音声入力を行った際に、表示装置４００に表示される画像情報である。図９（ａ）によると、表示装置４００に表示される画像情報は、領域４０１、領域４０２、領域４０３、領域４０４、領域４０５、領域４０６、領域４０７、領域４０８及び領域４０９を含む。

領域４０１は、文字列生成部２０５によって生成された文字列が表示される領域である。領域４０２は、特徴情報取得部３０８によって取得された特徴情報が表示される領域である。領域４０３から領域４０８は、画像情報生成部３１１によって生成された部分画像を表す領域である。領域４０３は、“ピザ食べたい”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４０４は、“お寿司食べたい”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４０５は、“〇〇を使ったレシピ教えて”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４０６は、“安いスーパーどこ”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４０７は、“おすすめの出前教えて”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４０８は、“胃薬の飲み方教えて”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４０９は、部分画像を含む領域が配置される領域である。話者は、表示装置４００に表示された領域４０１を見ることで、自身が発話した音声がどのように認識されているのかを確認することができる。また、話者は、表示装置４００に表示された領域４０３から領域４０８を見ることで、次にどのような言葉を発すればよいのかを簡単に知ることができる。

図９（ｂ）は、図９（ａ）の画像情報が表示されている場合において、音声入出力装置１００に対して話者が“ピザ食べたい”と音声入力を行った際に、表示装置４００に表示される画像情報である。図９（ｂ）によると、表示装置４００に表示される画像情報は、領域４１０、領域４１１、領域４０９ａ、領域４３１、領域４３２、領域４３３、領域４３４、領域４３５及び領域４３６を含む。

領域４１０は、話者の現在地から最寄りのピザ屋の店舗情報を表す領域である。話者の現在地は、ネットワーク５００を介して公知の手法によって取得されてもよい。公知の手法は、例えば、無線ＬＡＮを用いた手法であってもよいし、ＩＰ（Internet Protocol）を用いた手法であってもよく、どのような手法であってもよい。店舗情報は、話者の現在地から最も近いピザ屋の店舗情報を取得されるように構成されてもよい。ピザ屋の店舗情報は、話者の現在地から店舗の住所までの距離が最も短い店舗の店舗情報が取得されてもよいし、徒歩時間等の所要時間が最も短い店舗の店舗情報が取得されてもよい。領域４１１は、ピザ屋がどのようなサービスを提供しているかを表す。領域４１１によれば、ピザ屋は配達（デリバリー）又はお持ち帰り（テイクアウト）のサービスを提供していることがわかる。領域４１１に表示される情報は、ネットワーク５００を介して取得されてもよいし、入力情報レコードのその他のカラムに保持されていてもよい。

領域４０９ａは、部分画像を含む領域が配置される領域である。領域４３１から領域４３６は、画像情報生成部３１１によって生成された部分画像を表す領域である。領域４３１は、“デリバリー”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４３２は、“テイクアウト”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４３３は、“お店どこ”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４３４は、“電話して”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４３５は、“次へ”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域４３６は、“やめる”を保持する支援情報に基づいて生成された部分画像を表す領域である。なお、領域４３５に表される部分画像は、他の部分画像とは異なる色で表示されている。このように、画像情報生成部３１１は、音声入出力装置１００が入力を受け付けできない言葉については、異なる色で部分画像を生成してもよい。

図１０は、第１の実施形態の画像情報を表示装置４００に表示するまでの処理の流れを示すシーケンスチャートである。音声取得部１０５は、集音部１０２によって集音された音声に基づいて音声信号を生成する（ステップＳ１０１）。音声取得部１０５は、生成された音声信号を音声解析装置２００に送信する（ステップＳ１０２）。

文字列生成部２０５は、送信された音声信号によって表される波形の形状又は周波数成分に応じて文字列を生成する（ステップＳ１０３）。個人識別部２０６は、音声信号に基づいて音声を発話した個人を識別する。個人識別部２０６は、例えば、個人識別部２０６は、個人識別情報記憶部２０２に記録された声紋のうち、音声信号から生成された声紋と一致する声紋を特定する。個人識別部２０６は、特定された声紋に対応付けられた個人識別子を取得する（ステップＳ１０４）。送信部２０７は、個人識別子と文字列とを対応付けて情報提示装置３００に送信する（ステップＳ１０５）。

文字列解析部３０７は、送信された文字列に対して形態素解析を行うことで１つ以上の形態素を取得する（ステップＳ１０６）。特徴情報取得部３０８は、形態素解析によって得られた形態素を保持する特徴情報レコードから特徴情報を取得する（ステップＳ１０７）。状態情報取得部３０９は、送信された個人識別子を保持する状態情報レコードから状態情報を取得する（ステップＳ１０８）。

支援情報決定部３１０は、取得された特徴情報を保持する入力情報レコードを入力情報テーブルから特定する（ステップＳ１０９）。支援情報決定部３１０は、特定された入力情報レコードが保持する特徴情報と、状態情報の各値と、に基づいて、入力情報レコードに対する評価情報を決定する（ステップＳ１１０）。なお、評価情報の決定にはどのような手法が用いられてもよい。支援情報決定部３１０は、決定された評価情報に基づいて表示装置４００に表示される支援情報を決定する（ステップＳ１１１）。画像情報生成部３１１は、支援情報に基づいて部分画像を生成する。画像情報生成部３１１は、部分画像を含む画像情報を生成する（ステップＳ１１２）。表示指示部３１２は、画像情報を表示装置４００に送信する（ステップＳ１１３）。

表示装置４００は、送信された画像情報を表示する（ステップＳ１１４）。表示指示部３１２は、画像情報を表示装置４００に送信した際に、音声解析装置２００に対して発話情報を送信する（ステップＳ１１５）。音声出力指示部２０８は、音声入出力装置１００に対して受信された発話情報に含まれる音声信号を出力させる音声出力指示を送信する（ステップＳ１１６）。音声出力部１０６は、音声出力指示に基づいて、発音部１０３に音声を発音させる。（ステップＳ１１７）。

このように構成された情報提示システム１では、話者が音声入出力装置１００に対して発話した音声に基づいて文字列が生成される。文字列解析部３０７は、生成された文字列から形態素を取得する。特徴情報取得部３０８は、形態素に基づいて特徴情報を取得する。支援情報決定部３１０は、特徴情報に基づいて支援情報を取得する。画像情報生成部３１１は、取得された指示情報に基づいて、話者がどのような言葉を発話すればよいかを示す画像情報を生成する。表示指示部３１２は、生成された画像情報を表示装置４００に表示させる。話者は、表示装置４００に表示された画像情報を見ることで、正しい言葉を事前に調べる必要がなくなり、音声入出力装置１００に対してどのような言葉を発すれば意図した動作を行わせることができるのかを知ることができる。したがって、話者は、表示装置に表示された画像情報に応じて発話することで、音声入出力装置１００に対する意図した操作をより簡単に行うことができる。また、支援情報決定部３１０は、話者が抽象的な言葉を発話した場合であっても、発話された文字列から特徴情報を取得し、支援情報を決定する。このため、情報提示システム１は、抽象的な言葉が発話された場合であっても、話者の意図に沿った、複数の正しい言葉を含む画像表示を表示させることが可能になる。また、話者による音声入出力装置１００に対する発話に応じて表示装置４００に支援情報に基づいた画像情報を表示させることで、複数回の発話が必要となる処理であっても、話者は次にどのような言葉を発話すればよいのか容易に知ることが可能になる。

図１１は、第１の実施形態の表示装置４００の電源がオンされた場合に表示される画像情報の一具体例を示す図である。図１１に示されるように、画像情報生成部３１１は、表示装置４００の電源がオンされた場合に、画像情報を生成するように構成されてもよい。図１１（ａ）は、表示装置４００の電源がオンされた直後の画像情報を表す。画像情報は、部分画像を含む領域４０９ｂに加えて、本日の天気（３時間）、ニュース及び交通情報を含む。この場合、画像情報生成部３１１は、本日の天気（３時間）、ニュース及び交通情報をネットワーク５００を介して取得する。領域４０９ｂに表される部分画像は話者又は情報提示装置３００の提供者によって予め決定される。話者は、表示装置４００に表示された領域４０９ｂを見ることで、自身が知りたい情報を表示装置４００に表示させるためには何を発話すればよいのかすぐに知ることができる。なお、画像情報は、本日の天気（３時間）、ニュース及び交通情報以外の情報を含むように構成されてもよい。例えば、画像情報は、予め定められたコンテンツの映像を表示するように構成されてもよい。コンテンツは、例えば、ネットワーク５００を介して配信される動画であってもよいし、テレビ放送波を介して送信されるテレビ番組であってもよい。

図１１（ｂ）は、図１１（ａ）の画像情報が表示されている場合において、音声入出力装置１００に対して話者が“天気詳しく”と音声入力を行った際に、表示装置４００に表示される画像情報である。図１１（ｂ）によると、表示装置４００に表示される画像情報は、領域４０９ｃに加えて、本日の天気（３時間）、日本列島の天気概況及び週間天気予報を含む。この場合、画像情報生成部３１１は、本日の天気（３時間）、日本列島の天気概況及び週間天気予報をネットワーク５００を介して取得する。話者は、表示装置４００に表示された領域４０９ｃを見ることで、自身が知りたい情報を表示装置４００に表示させるためには何を発話すればよいのかすぐに知ることができる。なお、画像情報は、本日の天気（３時間）、日本列島の天気概況及び週間天気予報以外の情報を含むように構成されてもよい。例えば、画像情報は、最寄りの気象台から撮影されている現在の外の様子を表す映像を表示するように構成されてもよい。

図１２は、第１の実施形態の表示装置４００に表示される画像情報にその他の値を含む場合の一具体例を表す図である。図１２によると、表示装置４００に表示される画像情報は、領域４０１、領域４０２、領域４０３、領域４０４、領域４０５、領域４０６、領域４０７、領域４０８、領域４０９、領域４０３ａ、領域４０４ａ及び領域４０５ａを含む。なお、領域４０１、領域４０２、領域４０３、領域４０４、領域４０５、領域４０６、領域４０７、領域４０８及び領域４０９は、図９の領域と同じであるため説明を省略する。

領域４０３ａは、入力情報レコードのその他のカラムにピザを表すアイコン画像が保持されている場合に表示される領域である。領域４０３ａは、領域４０３に表される部分画像の一部に含まれる領域４０３ａによると、部分画像に表される指示情報と、ピザを表すアイコン画像とは並べて表される。領域４０４ａは、入力情報レコードのその他のカラムに寿司を表すアイコン画像が保持されている場合に表示される領域である。領域４０４ａは、領域４０４に表される部分画像の一部に含まれる領域４０４ａによると、部分画像に表される指示情報と、寿司を表すアイコン画像とは並べて表される。領域４０５ａは、入力情報レコードのその他のカラムにレシピを表すアイコン画像が保持されている場合に表示される領域である。領域４０５ａは、領域４０５に表される部分画像の一部に含まれる領域４０５ａによると、部分画像に表される指示情報と、レシピを表すアイコン画像とは並べて表される。このように、指示情報とアイコン画像とが並べて表示されることで、話者に選択される可能性を高めることができる。また、アイコン画像は、食品の画像に限定されない。例えばアイコン画像は、食品を提供するお店のロゴ画像であってもよいし、店員のイメージであってもよく、どのような画像であってもよい。

状態情報レコードが世帯識別子のカラムを有する場合、状態情報取得部３０９は、特定された状態情報レコードが保持する世帯識別子と同じ世帯識別子の値を有する状態情報レコードを取得するように構成されてもよい。このように構成されることで、支援情報決定部３１０は、特定の個人の状態情報に限らず、世帯毎の状態情報に基づいて、支援情報を決定することが可能になる。

音声入出力装置１００と表示装置４００との対応付けの変形例について説明する。音声入出力装置１００と表示装置４００とが、同一のネットワークアドレスを持つＩＰネットワークで接続されていたり、アドホック通信等によって直接通信可能に構成されていてもよい。この場合、表示指示部３１２は、画像情報を表示装置４００に送信せずに、音声入出力装置１００に送信するように構成されてもよい。この場合、画像情報は、音声入出力装置１００によって表示装置４００に表示される。

（第２の実施形態）
次に、第２の実施形態における情報提示システム１ａについて説明する。図１３は、第２の実施形態の情報提示システム１ａのシステム構成を表すシステム構成図である。第２の実施形態における情報提示システム１ａは、音声入出力装置１００の代わりに音声入出力装置１００ａを備え、音声解析装置２００の代わりに音声解析装置２００ａを備え、通信装置６００をさらに備える点で第１の実施形態とは異なるが、それ以外の構成は同じである。以下、第１の実施形態と異なる点について説明する。

通信装置６００は、パーソナルコンピュータ、スマートデバイス又はタブレットコンピュータ等の情報処理装置である。通信装置６００は、プログラムを実行することによって通信部６０１、入力部６０２、表示部６０３、装置識別子記憶部６０４及び制御部６０５を備える装置として機能する。通信装置６００は、ユーザからの入力に応じて、装置識別子を音声入出力装置１００ａに送信する。

通信部６０１は、ネットワークインタフェースである。通信部６０１は音声入出力装置１００ａと通信する。通信部６０１は、例えば無線ＬＡＮ、有線ＬＡＮ又はＢｌｕｅｔｏｏｔｈ等の通信方式で通信してもよい。通信部６０１は、音声入出力装置１００ａと１対１で通信が可能であればどのような通信方式で通信してもよい。通信部６０１は、音声入出力装置１００ａと１対１で通信を行うことで、装置識別子を送信する。

入力部６０２は、タッチパネル、マウス及びキーボード等の入力装置を用いて構成される。入力部６０２は、入力装置を通信装置６００に接続するためのインタフェースであってもよい。この場合、入力部６０２は、入力装置において入力された入力信号から入力データを生成し、通信装置６００に入力する。入力データは、例えば、通信装置６００に対する指示を示す指示情報（例えば、装置識別子の送信を指示する送信指示）であってもよい。

表示部６０３は、ＣＲＴディスプレイ、液晶ディスプレイ、有機ＥＬディスプレイ等の出力装置である。表示部６０３は、出力装置を通信装置６００に接続するためのインタフェースであってもよい。この場合、表示部６０３は、映像データから映像信号を生成し自身に接続されている映像出力装置に映像信号を出力する。

装置識別子記憶部６０４は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。装置識別子記憶部６０４は、装置識別子を記憶する。装置識別子は、通信装置６００を一意に識別可能な情報である。装置識別子は、文字又は数字等が組み合わされた文字列である。装置識別子は、例えば、ＭＡＣアドレス、ＩＤＦＡ、ＡＡＩＤ等の装置が備える識別子である。装置識別子は、他の装置識別子と重複しなければどのような情報であってもよい。

制御部６０５は、通信装置６００の各部の動作を制御する。制御部６０５は、例えばＣＰＵ等のプロセッサ及びＲＡＭを備えた装置により実行される。制御部６０５は、プログラムを実行することによって、装置識別子記憶部６０４に記憶された装置識別子を取得する。制御部６０５は、取得された装置識別子を音声入出力装置１００ａに送信する。

図１４は、第２の実施形態の音声入出力装置１００ａの機能構成を表す機能ブロック図である。音声入出力装置１００ａは、制御部１０４の代わりに制御部１０４ａを備え、装置識別子記憶部１０８を更に備える点で第１の実施形態とは異なるが、それ以外の構成は同じである。以下、第１の実施形態と異なる点について説明する。

装置識別子記憶部１０８は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。装置識別子記憶部１０８は、装置識別子を記憶する。装置識別子は、通信装置６００から送信される。

制御部１０４ａは、音声入出力装置１００ａの各部の動作を制御する。制御部１０４ａは、例えばＣＰＵ等のプロセッサ及びＲＡＭを備えた装置により実行される。制御部１０４ａは、音声入出力プログラムを実行することによって、音声取得部１０５ａ、音声出力部１０６及び装置識別子記録部１０７として機能する。

音声取得部１０５ａは、集音部１０２によって集音された音声に基づいて音声信号を生成する。音声取得部１０５ａは、生成された音声信号を装置識別子記録部１０７に記憶された装置識別子と対応付けて音声解析装置２００ａに送信する。

装置識別子記録部１０７は、通信装置６００から装置識別子を受信した場合、装置識別子記憶部１０８に装置識別子を記録する。装置識別子記録部１０７は、記録された装置識別子を音声解析装置２００ａに送信する。

図１５は、第２の実施形態の音声解析装置２００ａの機能構成を表す機能ブロック図である。音声解析装置２００ａは、個人識別情報記憶部２０２の代わりに個人識別情報記憶部２０２ａを備え、制御部２０３の代わりに制御部２０３ａを備える点で第１の実施形態とは異なるが、それ以外の構成は同じである。以下、第１の実施形態と異なる点について説明する。

個人識別情報記憶部２０２ａは、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。個人識別情報記憶部２０２ａは、装置識別子と個人識別子とを対応付けて記憶する。個人識別子は、装置識別子に対して所定の処理（例えば、ハッシュ処理等）を行うことで生成されてもよいし、任意の文字列が指定されてもよいし、予め定められた文字列が指定されてもよいし、他の個人識別子と重複しなければどのような情報であってもよい。

制御部２０３ａは、音声解析装置２００ａの各部の動作を制御する。制御部２０３ａは、例えばＣＰＵ等のプロセッサ及びＲＡＭを備えた装置により実行される。制御部２０３ａは、音声解析プログラムを実行することによって、音声信号取得部２０４、文字列生成部２０５、個人識別部２０６ａ、送信部２０７及び音声出力指示部２０８として機能する。

個人識別部２０６ａは、装置識別子に基づいて音声を発話した個人を識別する。個人識別部２０６ａは、音声信号に対応付けて送信された装置識別子と一致する装置識別子を個人識別情報記憶部２０２ａから特定する。個人識別部２０６ａは、特定された装置識別子に対応付けされた個人識別子を取得する。個人識別部２０６ａは、個人識別子を送信部２０７に出力する。

このように構成された情報提示システム１ａでは、音声解析装置２００ａは、装置識別子と個人識別子とを対応付けて記憶する。音声入出力装置１００ａは、音声信号と装置識別子とを対応付けて音声解析装置２００ａに送信する。音声解析装置２００ａの個人識別部２０６ａは、音声信号に対応付けて送信された装置識別子と一致する装置識別子を個人識別情報記憶部２０２ａから特定する。個人識別部２０６ａは、特定された装置識別子に対応付けされた個人識別子を取得することで、音声信号が不明瞭な場合であっても、個人を識別することが可能になる。

本実施形態では、音声入出力装置１００、音声解析装置２００及び情報提示装置３００は各１台の装置であるとして説明したが、複数の装置で構成されてもよい。音声解析装置２００及び情報提示装置３００は、クラウドコンピューティングシステムによって構成されてもよい。また、音声入出力装置１００、音声解析装置２００及び情報提示装置３００は、それぞれの機能をすべて有する１台の装置として構成されてもよい。

上述した実施形態における音声信号取得部２０４、文字列生成部２０５、個人識別部２０６、送信部２０７、音声出力指示部２０８、文字列取得部３０６、文字列解析部３０７、特徴情報取得部３０８、状態情報取得部３０９、支援情報決定部３１０、画像情報生成部３１１及び表示指示部３１２をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、スマートスピーカに対する入力を支援するサービスに適用可能である。

１…情報提示システム，１００…音声入出力装置，１０１…通信部，１０２…集音部，１０３…発音部，１０４…制御部，１０５…音声取得部，１０６…音声出力部，２００…音声解析装置，２０１…通信部，２０２…個人識別情報記憶部，２０３…制御部，２０４…音声信号取得部，２０５…文字列生成部，２０６…個人識別部，２０７…送信部，２０８…音声出力指示部，３００…情報提示装置，３０１…通信部，３０２…特徴情報記憶部，３０３…状態情報記憶部，３０４…入力情報記憶部，３０５…制御部，３０６…文字列取得部，３０７…文字列解析部，３０８…特徴情報取得部，３０９…状態情報取得部，３１０…支援情報決定部，３１１…画像情報生成部，３１２…表示指示部，４００…表示装置，５００…ネットワーク，１ａ…情報提示システム，６００…通信装置，６０１…通信部，６０２…入力部，６０３…表示部，６０４…装置識別子記憶部，６０６…制御部，１００ａ…音声入出力装置，１０４ａ…制御部，１０７…装置識別子記録部，１０８…装置識別子記憶部，２００ａ…音声解析装置，２０２ａ…個人識別情報記憶部，２０３ａ…制御部，２０６ａ…個人識別部

Claims

発話された音声を取得し、前記音声に応じて音声信号を生成する音声取得部と、
前記音声信号に基づいて、前記音声取得部に対して入力できる情報を表す入力情報を１つ以上決定する入力情報決定部と、
前記音声取得部に対して入力できる情報を文字で表した部分画像を前記入力情報毎に生成し、前記部分画像を含む画像情報を生成する画像情報生成部と、
前記画像情報を表示装置に表示させる表示指示部と、
を備える、情報提示システム。
音声信号に基づいて文字列を生成する文字列生成部と、
発話した個人の意図を表す意図情報を前記文字列から取得する文字列解析部と、
前記入力情報に対応付けられ、前記入力情報の特徴を表す特徴情報を前記意図情報に基づいて取得する特徴情報取得部と、
をさらに備え、
前記入力情報決定部は、前記特徴情報に基づいて前記入力情報を決定する、
請求項１に記載の情報提示システム。
発話した個人を前記音声信号に基づいて識別された前記個人の状態を表す状態情報を取得する状態情報取得部と、
をさらに備え、
前記入力情報決定部は、前記入力情報毎に入力される音声として適切であるか否かを表す評価情報を前記状態情報に基づいて決定し、前記評価情報に基づいて前記入力情報を１つ以上決定する、
請求項１又は２に記載の情報提示システム。
前記画像情報生成部は、決定された前記入力情報の数が所定の閾値よりも大きい場合、前記所定の閾値の数に応じて前記部分画像を生成する、
請求項１から３のいずれか一項に記載の情報提示システム。
前記画像情報生成部は、前記入力情報に決定された評価情報の順に前記部分画像が並べられた前記画像情報を生成する、
請求項３又は４に記載の情報提示システム。
前記入力情報は予め定められたアイコン画像を含み、
前記画像情報生成部は、前記文字と前記アイコン画像とを並べて表される前記部分画像を生成する、
請求項１から５のいずれか一項に記載の情報提示システム。
発話された音声を取得し、前記音声に応じて音声信号を生成する音声取得部と、
前記音声信号に基づいて、前記音声取得部に対して入力できる情報を表す入力情報を１つ以上決定する入力情報決定部と、
前記音声取得部に対して入力できる情報を文字で表した部分画像を前記入力情報毎に生成し、前記部分画像を含む画像情報を生成する画像情報生成部と、
前記画像情報を表示装置に表示させる表示指示部と、
を備える、情報提示装置。
情報提示装置が、発話された音声を取得し、前記音声に応じて音声信号を生成する音声取得ステップと、
情報提示装置が、前記音声信号に基づいて、前記音声取得ステップにおいて入力できる情報を表す入力情報を１つ以上決定する入力情報決定ステップと、
情報提示装置が、前記音声取得ステップにおいて入力できる情報を文字で表した部分画像を前記入力情報毎に生成し、前記部分画像を含む画像情報を生成する画像情報生成ステップと、
情報提示装置が、前記画像情報を表示装置に表示させる表示指示ステップと、
を有する、情報提示方法。
請求項１から６のいずれか一項に記載の情報提示システムとしてコンピュータを機能させるためのコンピュータプログラム。