(第1の実施形態)
図1は、第1の実施形態の情報提示システム1のシステム構成を表すシステム構成図である。情報提示システム1は、音声入出力装置100に対して音声で入力可能な言葉を含む画像を表示装置400に表示する。情報提示システム1は、ネットワーク500に設けられる。情報提示システム1は、ネットワーク500を介して互いに通信可能に接続される音声入出力装置100、音声解析装置200、情報提示装置300及び表示装置400を備える。ネットワーク500は、どのようなネットワークで構築されてもよい。例えば、ネットワーク500は、インターネットで構成されてもよい。
音声入出力装置100は、スマートスピーカ等の音声を入力及び音声を出力可能な装置である。音声入出力装置100は、所定の場所に設けられる。音声入出力装置100は、集音した音声を音声信号として音声解析装置200に送信する。音声入出力装置100は、音声解析装置200から受け付けた音声信号又は指示された音声を出力する。所定の場所は、例えば、音声入出力装置100を所有する者(以下「ユーザ」という。)の宅内であってもよいし、不特定多数の人が訪れる公共の空間であってもよい。
音声解析装置200は、サーバ、パーソナルコンピュータ、スマートフォン、タブレットコンピュータ又はウェアラブルデバイス等の情報処理装置である。音声解析装置200は、音声入出力装置100によって送信された音声信号を解析する。音声解析装置200は、解析結果に基づいて、集音された音声を表す文字列を生成する。音声解析装置200は、解析結果に基づいて、話者を識別してもよい。
情報提示装置300は、サーバ、パーソナルコンピュータ、スマートフォン、タブレットコンピュータ又はウェアラブルデバイス等の情報処理装置である。情報提示装置300は、音声解析装置200によって生成された文字列に基づいて、音声入出力装置100に対して入力可能な文言を決定する。
表示装置400は、テレビ、デジタルサイネージ、VR(Virtual Reality)ゴーグル又はディスプレイ等の表示装置である。表示装置400は、情報提示装置300によって決定された文言を示す画像を表示する。表示装置400は、表示装置に対して行われた操作(例えば、リモコン操作、コンテンツ再生、録画等)を情報提示装置300に送信する。
図2は、第1の実施形態の音声入出力装置100の機能構成を表す機能ブロック図である。音声入出力装置100は、音声入出力プログラムを実行することによって通信部101、集音部102、発音部103及び制御部104を備える装置として機能する。
通信部101は、ネットワークインタフェースである。通信部101はネットワーク500を介して、音声解析装置200及び情報提示装置300と通信する。通信部101は、例えば無線LAN(Local Area Network)、有線LAN、Bluetooth(登録商標)又はLTE(Long Term Evolution)(登録商標)等の通信方式で通信してもよい。
集音部102は、マイク等の集音装置を用いて構成される。集音部102は、集音部102近傍の音声を集音する。集音部102は、例えば人間によって発話された音声を集音する。集音部102は、集音装置を音声入出力装置100に接続するためのインタフェースであってもよい。この場合、集音部102は、集音装置において入力された音声信号から音声データ(例えば、集音装置に対して話しかけられた音声)を生成し、音声入出力装置100に入力する。
発音部103は、スピーカ又はイヤホン等の音声出力装置を用いて構成される。発音部103は、音声出力装置を音声入出力装置100に接続するためのインタフェースであってもよい。この場合、発音部103は、音声信号(例えば、音声解析装置200から取得された音声信号)を音声出力装置に出力する。
制御部104は、音声入出力装置100の各部の動作を制御する。制御部104は、例えばCPU(Central Processing Unit)等のプロセッサ及びRAM(Random Access Memory)を備えた装置により実行される。制御部104は、音声入出力プログラムを実行することによって、音声取得部105及び音声出力部106として機能する。
音声取得部105は、集音部102によって集音された音声に基づいて音声信号を生成する。音声取得部105は、生成された音声信号を音声解析装置200に送信する。
音声出力部106は、音声信号に基づいて、発音部103に音声を発音させる。音声出力部106は、音声信号を音声解析装置200から受信してもよいし、音声入出力装置100に予め記録された音声信号を取得してもよい。
図3は、第1の実施形態の音声解析装置200の機能構成を表す機能ブロック図である。音声解析装置200は、音声解析プログラムを実行することによって通信部201、個人識別情報記憶部202及び制御部203を備える装置として機能する。
通信部201は、ネットワークインタフェースである。通信部201はネットワーク500を介して、音声入出力装置100及び情報提示装置300と通信する。通信部201は、例えば無線LAN、有線LAN、Bluetooth又はLTE等の通信方式で通信してもよい。
個人識別情報記憶部202は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。個人識別情報記憶部202は、音声情報と個人識別子とを対応付けて記憶する。音声情報は、例えば声紋等のように音声信号に基づいて得られる情報である。声紋は、各個人の音声から生成される。声紋は、各個人によって異なる。以下、本実施形態では音声情報は声紋であるとして説明する。個人識別子は、音声入出力装置100を使用する個人を識別可能な情報である。個人識別子は、例えば文字又は数字等が組み合わされた文字列である。個人識別子は、声紋等の音声情報に対して所定の処理(例えば、ハッシュ処理等)を行うことで生成されてもよいし、任意の文字列が指定されてもよいし、予め定められた文字列が指定されてもよいし、他の個人識別子と重複しなければどのような情報であってもよい。
制御部203は、音声解析装置200の各部の動作を制御する。制御部203は、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部203は、音声解析プログラムを実行することによって、音声信号取得部204、文字列生成部205、個人識別部206、送信部207及び音声出力指示部208として機能する。
音声信号取得部204は、音声入出力装置100から送信された音声信号を取得する。音声信号取得部204は、取得された音声信号を文字列生成部205及び個人識別部206に出力する。
文字列生成部205は、音声信号に基づいて文字列を生成する。具体的には、文字列生成部205は、音声信号によって表される波形の形状又は周波数成分に応じて文字列を生成する。文字列生成部205は、公知の手法を用いて文字列を生成してもよい。文字列生成部205は、生成された文字列を送信部207に出力する。
個人識別部206は、音声信号に基づいて音声を発話した個人を識別する。個人識別部206は、例えば、音声信号に対して周波数分析を行うことで声紋を生成する。個人識別部206は、生成された声紋と一致する声紋を個人識別情報記憶部202から特定する。個人識別部206は、特定された声紋に対応付けされた個人識別子を取得する。個人識別部206は、個人識別子を送信部207に出力する。
送信部207は、出力された個人識別子と出力された文字列とを対応付けて情報提示装置300に送信する。なお、送信部207は、個人識別子が出力されていない場合、文字列のみを情報提示装置300に送信するように構成されてもよい。
音声出力指示部208は、音声信号を音声入出力装置100に送信する。音声出力指示部208は、例えば、音声信号取得部204によって取得された音声信号に応じて、送信される音声信号を決定する。音声出力指示部208は、ネットワーク500を介して取得された音声信号を送信してもよいし、音声解析装置200に予め記録された音声信号を送信してもよい。送信された音声信号は、音声入出力装置100によって発音される。
図4は、第1の実施形態の情報提示装置300の機能構成を表す機能ブロック図である。情報提示装置300は、情報提示プログラムを実行することによって通信部301、特徴情報記憶部302、状態情報記憶部303、入力情報記憶部304及び制御部305を備える装置として機能する。
通信部301は、ネットワークインタフェースである。通信部301はネットワーク500を介して、音声解析装置200及び表示装置400と通信する。通信部301は、例えば無線LAN、有線LAN、Bluetooth又はLTE等の通信方式で通信してもよい。
特徴情報記憶部302は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。特徴情報記憶部302は、特徴情報テーブルを記憶する。特徴情報テーブルは、音声入出力装置100に対して行わせる処理の特徴を記憶する。図5は、第1の実施形態の特徴情報テーブルの具体例を示す図である。特徴情報テーブルは、特徴情報レコードを有する。特徴情報レコードは、形態素及び特徴情報の各値を有する。形態素は、何らかの意味を持つ最小単位の文字である。形態素は、形態素をさらに分解した場合に意味を有さなくなる文字のまとまりを表す。特徴情報は、音声入出力装置100に対して入力された音声から生成された文字列の特徴を表す。特徴情報は、音声入出力装置100に対して行わせる処理を決定するために用いられる。特徴情報は、1つの特徴情報レコードに複数保持されてもよい。特徴情報レコードは、予め特徴情報テーブルに記録される。
図5に示される例では、特徴情報テーブルの最上段の特徴情報レコードは、形態素の値が“テレビ”、特徴情報の値が“テレビ、録画、ビデオ”である。従って、特徴情報テーブルの最上段のレコードによると、音声解析装置200から取得された文字列の形態素に“テレビ”が含まれている場合、特徴情報として “テレビ、録画、ビデオ”が特定される。なお、図5に示される特徴情報テーブルは一具体例に過ぎない。そのため、図5とは異なる態様で特徴情報テーブルが構成されてもよい。例えば、特徴情報テーブルは、名詞又は動詞等の品詞のカラムを有してもよい。
図4に戻って、情報提示装置300の説明を続ける。状態情報記憶部303は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。状態情報記憶部303は、状態情報テーブルを記憶する。状態情報テーブルは、表示装置400の使用履歴を音声入出力装置100の利用者毎に記憶する。図6は、第1の実施形態の状態情報テーブルの具体例を示す図である。状態情報テーブルは、状態情報レコードを有する。状態情報レコードは、個人識別子及び状態情報の各値を有する。個人識別子は、音声解析装置200から送信される。個人識別子は、個人識別情報記憶部202に記録される個人識別子と同じ情報である。状態情報は、個人識別子によって特定される個人の情報を保持する。状態情報は、例えば、画面別の遷移履歴、リモコン操作履歴、コンテンツ利用履歴、個人設定情報等の表示装置400に対して行われた操作の履歴を保持する。
画面別の遷移履歴は、例えば、表示装置400に表示される画面の遷移履歴を表す。
リモコン操作履歴は、例えば、個人が表示装置400に対して操作されたリモコンの操作の履歴を表す。コンテンツ利用履歴は、例えば、個人が表示装置400を介してどのようなコンテンツを利用したのか、コンテンツをどれくらいの時間、視聴したのかを表す。
個人設定情報は、例えば、個人の年齢、性別、コンテンツ視聴の履歴又は音声入出力装置100に対する音声入力の履歴を含む情報である。状態情報レコードは、予め状態情報テーブルに記録されていてもよいし、表示装置400から送信された情報(画面別の遷移履歴、リモコン操作履歴、コンテンツ利用履歴、個人設定情報等)に応じて、更新されてもよい。
図6に示される例では、状態情報テーブルの最上段の状態情報レコードは、個人識別子の値が“A0001”、状態情報の値が“画面別の遷移履歴A、リモコン操作履歴B、コンテンツ利用履歴C、個人設定情報D、…”である。従って、状態情報テーブルの最上段のレコードによると、個人識別子“A0001”によって特定される個人は、状態情報“画面別の遷移履歴A、リモコン操作履歴B、コンテンツ利用履歴C、個人設定情報D、…”によって表される情報が特定される。なお、図6に示される状態情報テーブルは一具体例に過ぎない。そのため、図6とは異なる態様で状態情報テーブルが構成されてもよい。例えば、状態情報テーブルは、個人識別子によって特定される個人の世帯を表す世帯識別子のカラムを有してもよい。
図4に戻って、情報提示装置300の説明を続ける。入力情報記憶部304は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。入力情報記憶部304は、入力情報テーブルを記憶する。入力情報テーブルは、音声入出力装置100に対して、所定の処理を行わせるための言葉を記憶する。所定の処理は、例えば、テレビの録画であってもよいし、食品の注文であってもよいし、近隣のお店の検索であってもよいし、音声入出力装置100によって行える処理であればどのような処理であってもよい。
図7は、第1の実施形態の入力情報テーブルの具体例を示す図である。入力情報テーブルは、入力情報レコードを有する。入力情報レコードは、支援情報、特徴情報及びその他の各値を有する。支援情報は、音声入出力装置100に対して入力可能な音声を表す文字である。支援情報は、音声入出力装置100に対して音声を入力する話者に対して、どのような言葉を発話すればよいのか教えるための情報である。特徴情報は、支援情報に対応付けられた特徴情報を表す。特徴情報は、特徴情報記憶部302に記憶された特徴情報と同じ情報である。その他は、任意の情報が保持される。例えば、その他には、表示装置400に表示される文字列が記録されてもよいし、表示装置400に表示される画像が記録されてもよい。
図7に示される例では、入力情報テーブルの最上段の入力情報レコードは、支援情報の値が“TVの録画一覧画面を開く”、特徴情報の値が“テレビ、録画、ビデオ”、その他の値が空値である。従って、入力情報テーブルの最上段のレコードによると、音声解析装置200から取得された文字に基づいて、特徴情報として“テレビ、録画、ビデオ”が取得された場合、支援情報として“TVの録画一覧画面を開く”が決定される。なお、図7に示される入力情報テーブルは一具体例に過ぎない。そのため、図7とは異なる態様で入力情報テーブルが構成されてもよい。例えば、入力情報テーブルは、支援情報のカラムに保持される文字列が音声入出力装置100に入力された場合に表示装置400に表示される支援情報を有するカラムを有していてもよい。入力情報レコードは、予め入力情報テーブルに保持されていてもよいし、ネットワーク500を介して手動又はマニュアル等の電子文書に基づいて生成されてもよい。
図4に戻って、情報提示装置300の説明を続ける。制御部305は、情報提示装置300の各部の動作を制御する。制御部305は、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部305は、情報提示プログラムを実行することによって、文字列取得部306、文字列解析部307、特徴情報取得部308、状態情報取得部309、支援情報決定部310、画像情報生成部311及び表示指示部312として機能する。
文字列取得部306は、音声解析装置200から送信された文字列及び個人識別子を取得する。文字列取得部306は、取得された文字列を文字列解析部307に出力する。文字列取得部306は、取得された個人識別子を状態情報取得部309に出力する。
文字列解析部307は、所定の処理を行うことで文字列からユーザの意図を示す意図情報を取得する。意図情報は、ユーザの意図を表す情報である。所定の処理は、例えば形態素解析又はトピック分析等の公知の自然言語処理手法が用いられてもよい。所定の処理として形態素解析が用いられる場合、意図情報は形態素である。所定の処理としてトピック分析が用いられる場合、意図情報はトピックモデルである。以下、所定の処理として形態素解析が用いられるものとして説明する。
文字列解析部307は、文字列に対して形態素解析を行うことで1つ以上の形態素を取得する。形態素解析は、文字列を形態素に分解する処理である。形態素解析には、公知のアルゴリズムが用いられてもよい。形態素は、文字列を分割することで得られる。形態素解析は、分解された形態素に対して品詞を判別する処理が含まれていてもよい。文字列解析部307は、取得された形態素を特徴情報取得部308に出力する。
特徴情報取得部308は、形態素に基づいて特徴情報を取得する。具体的には、特徴情報取得部308は、形態素解析によって得られた形態素を保持する特徴情報レコードを、特徴情報テーブルから特定する。特徴情報取得部308は、特定された特徴情報レコードが保持する特徴情報を取得する。特徴情報取得部308は、取得された特徴情報を支援情報決定部310に出力する。なお、特徴情報取得部308は、複数の特徴情報レコードを特定した場合、それぞれの特徴情報レコードが保持する特徴情報を取得する。
状態情報取得部309は、個人識別子に基づいて状態情報を取得する。具体的には、状態情報取得部309は、文字列取得部306によって取得された個人識別子を保持する状態情報レコードを、状態情報テーブルから特定する。状態情報取得部309は、特定された状態情報レコードが保持する状態情報を取得する。状態情報取得部309は、取得された状態情報を支援情報決定部310に出力する。また、状態情報取得部309は、ネットワーク500を介して、現在の時刻、現在の曜日、現在の天気、現在の気温、コマンド実行先サービスの通知数等の付加的な情報を取得してもよい。この場合、状態情報取得部309は、取得された付加的な情報を支援情報決定部310に出力する。
支援情報決定部310は、形態素、特徴情報及び状態情報とに基づいて、表示装置400に表示される支援情報を決定する。決定される支援情報は、音声入出力装置100に対して入力可能な言葉を表す。支援情報決定部310は、1つ以上の支援情報を決定する。
支援情報決定部310は、例えば、以下の手段で支援情報を特定する。支援情報決定部310は、生成された各形態素と取得された各特徴情報との相関距離を決定する。相関距離は、例えば、0以上1以下の範囲で決定される。支援情報決定部310は、相関距離が1に近いほど、形態素と特徴情報との距離は近いと判定する。支援情報決定部310は、公知の手法を用いて相関距離を決定してもよい。支援情報決定部310は、各入力情報レコードに保持される特徴情報に予め定められた重みと、決定された相関距離との加重平均を決定する。
支援情報決定部310は、各入力情報レコードに対する評価情報を加重平均に基づいて決定する。評価情報は、音声入出力装置100に入力される音声として適切であるか否かの程度を表す指標である。評価情報が大きいほど、音声入出力装置100に入力される音声として適切であると判断される。評価情報は、以下の数式(1)によって算出される。
数式(1)の、wiは、支援情報レコードに保持される特徴情報に予め定められた重みである。wiの総和は1である。diは、特徴情報の相関距離を表す。pnは、パラメータである。パラメータは、表示装置400に表示されている現在の画面、天気、気温又は曜日等の外部の環境、個人の操作の情報等の状態情報に基づいて算出される。パラメータは、以下の数式(2)とパラメータテーブルとを用いて算出される。
数式(2)の、mkは、状態情報の各項目に定められた重みである。mkの総和は1である。mkの各値は、予め指定される。xkは、−1以上1以下の範囲で決定される。xkは、重みmkに対する評価値を表す。kは、パラメータテーブルのレコードの識別情報の数を表す。
図8は、第1の実施形態のパラメータテーブルの具体例を示す図である。支援情報決定部310は、入力情報テーブルに保持される特徴情報の種類の数だけパラメータテーブルを有する。パラメータテーブルは、パラメータレコードを有する。パラメータレコードは、パラメータレコードを識別するk、評価要素、重み及び評価値の各値を有する。kは、数式(2)の添え字である。支援情報決定部310は、kの値によってパラメータレコードを一意に識別可能になる。評価要素は、状態情報に含まれるいずれの情報を用いるかを識別するために用いられる。重みは、状態情報に定められた重みである。重みは、mkの値を表す。評価値は、xkの算出方法を表す。xkは、状態情報に含まれる各値に応じて、決定される。
図8に示される例では、パラメータテーブルの最上段のパラメータレコードは、kの値が“0”、評価要素の値が“未視聴の録画数”、重みの値が“0.2”、評価値の値が“未視聴の録画数×0.1”である。従って、パラメータテーブルの最上段のレコードによると、数式(2)において、k=0の場合、重みm0は0.2であり、状態情報に含まれる未視聴の録画数に0.1を乗じた値が、x0であることがわかる。なお、上述の手法は一例であり、評価情報の決定にはどのような手法が用いられてもよい。
支援情報決定部310は、入力情報レコードに対して決定された評価情報に基づいて表示装置400に表示される支援情報を決定する。例えば、支援情報決定部310は、決定された評価情報が所定の条件を満たす入力情報レコードに保持される支援情報を表示装置400に表示される支援情報として決定してもよい。所定の条件とは、例えば、予め定められた閾値よりも決定された評価情報の値が大きいことであってもよいし、決定された評価情報の値を降順に並べた際に、評価情報の値が大きい順に予め指定された個数まで選択することであってもよい。所定の条件とは、決定された評価情報が用いられるならばどのような条件であってもよい。支援情報決定部310は、決定された支援情報を画像情報生成部311に出力する。なお、支援情報決定部310は、特定された入力情報レコードがその他の値を有する場合、その他の値を取得してもよい。この場合、支援情報決定部310は、取得されたその他の値を画像情報生成部311に出力する。支援情報決定部310は、入力情報決定部の一態様である。
画像情報生成部311は、支援情報に基づいて部分画像を生成する。画像情報生成部311は、生成された部分画像を含む画像情報を生成する。具体的には、画像情報生成部311は、支援情報に含まれる言葉を表した部分画像を入力情報毎に生成する。画像情報生成部311は、生成された部分画像を含む画像情報を生成する。なお、画像情報生成部311は、画像情報に音声解析装置200から送信された文字列を含めてもよいし、特徴情報取得部308によって取得された特徴情報を含めてもよい。なお、画像情報生成部311は、決定された支援情報の数が所定の閾値の数よりも大きい場合、所定の閾値の数に応じた部分画像を生成してもよい。例えば、決定された支援情報の数が10であるのに対して、所定の閾値が7である場合、画像情報生成部311は、部分画像を7つ生成するように構成されてもよい。この場合、画像情報生成部311は、部分画像を生成する対象となる支援情報を7つ選択する指示をネットワーク500を介して受け付けてもよいし、決定された評価情報(例えば、評価情報の値が大きい順に7つ)に応じて決定されてもよい。画像情報生成部311は、外部の通信装置からHTML(HyperText Markup Language)ファイル等のウエブページ情報を取得して画像情報としてもよいし、文字と画像とを取得して画像情報としてもよい。画像情報生成部311は、生成された画像情報を表示指示部312に出力する。
表示指示部312は、生成された画像情報を音声入出力装置100に対応付けされた表示装置400に表示させる。具体的には、表示指示部312は、画像情報を表示装置400に送信する。表示装置400は、送信された画像情報を表示する。表示指示部312は、画像情報を表示装置400に送信した際に、音声解析装置200に対して発話情報を送信する。発話情報は、音声入出力装置100から出力される音声信号を含む。音声出力指示部208は、発話情報を受信した場合、音声入出力装置100に対して、発話情報に含まれる音声信号を出力させる音声出力指示を送信する。
音声入出力装置100と表示装置400との対応付けの具体例について説明する。第1の具体例として、表示指示部312は、個人識別子と表示装置400のIPアドレスとを対応付けた対応情報を保持していてもよい。この場合、表示指示部312は、取得された個人識別子を保持する対応情報を特定する。表示指示部312は、特定された対応情報から、表示装置400のIPアドレスを取得する。表示指示部312は、取得されたIPアドレスに対して、画像情報を送信する。
第2の具体例として、表示指示部312は、音声入出力装置100のIPアドレスと表示装置400のIPアドレスとを対応付けた対応情報を保持していてもよい。この場合、文字列取得部306は、音声解析装置200から、文字列及び個人識別子とともに音声入出力装置100のIPアドレスを取得する。表示指示部312は、取得されたIPアドレスの値を音声入出力装置のIPアドレスとして保持する対応情報を特定する。表示指示部312は、特定された対応情報から、表示装置400のIPアドレスを取得する。表示指示部312は、取得されたIPアドレスに対して、画像情報を送信する。なお、音声入出力装置100と表示装置400との対応付けはこれらに限定されない。音声入出力装置100から得られる情報に基づいて、表示装置400が特定できるならばどのような手法が用いられてもよい。なお、音声入出力装置100と表示装置400との対応付けは、予め表示指示部312に記録される。
図9は、第1の実施形態の表示装置400に表示される画像情報の第一の具体例を表す図である。図9(a)は、音声入出力装置100に対して音声入力を行った際に、表示装置400に表示される画像情報である。図9(a)によると、表示装置400に表示される画像情報は、領域401、領域402、領域403、領域404、領域405、領域406、領域407、領域408及び領域409を含む。
領域401は、文字列生成部205によって生成された文字列が表示される領域である。領域402は、特徴情報取得部308によって取得された特徴情報が表示される領域である。領域403から領域408は、画像情報生成部311によって生成された部分画像を表す領域である。領域403は、“ピザ食べたい”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域404は、“お寿司食べたい”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域405は、“〇〇を使ったレシピ教えて”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域406は、“安いスーパーどこ”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域407は、“おすすめの出前教えて”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域408は、“胃薬の飲み方教えて”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域409は、部分画像を含む領域が配置される領域である。話者は、表示装置400に表示された領域401を見ることで、自身が発話した音声がどのように認識されているのかを確認することができる。また、話者は、表示装置400に表示された領域403から領域408を見ることで、次にどのような言葉を発すればよいのかを簡単に知ることができる。
図9(b)は、図9(a)の画像情報が表示されている場合において、音声入出力装置100に対して話者が“ピザ食べたい”と音声入力を行った際に、表示装置400に表示される画像情報である。図9(b)によると、表示装置400に表示される画像情報は、領域410、領域411、領域409a、領域431、領域432、領域433、領域434、領域435及び領域436を含む。
領域410は、話者の現在地から最寄りのピザ屋の店舗情報を表す領域である。話者の現在地は、ネットワーク500を介して公知の手法によって取得されてもよい。公知の手法は、例えば、無線LANを用いた手法であってもよいし、IP(Internet Protocol)を用いた手法であってもよく、どのような手法であってもよい。店舗情報は、話者の現在地から最も近いピザ屋の店舗情報を取得されるように構成されてもよい。ピザ屋の店舗情報は、話者の現在地から店舗の住所までの距離が最も短い店舗の店舗情報が取得されてもよいし、徒歩時間等の所要時間が最も短い店舗の店舗情報が取得されてもよい。領域411は、ピザ屋がどのようなサービスを提供しているかを表す。領域411によれば、ピザ屋は配達(デリバリー)又はお持ち帰り(テイクアウト)のサービスを提供していることがわかる。領域411に表示される情報は、ネットワーク500を介して取得されてもよいし、入力情報レコードのその他のカラムに保持されていてもよい。
領域409aは、部分画像を含む領域が配置される領域である。領域431から領域436は、画像情報生成部311によって生成された部分画像を表す領域である。領域431は、“デリバリー”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域432は、“テイクアウト”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域433は、“お店どこ”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域434は、“電話して”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域435は、“次へ”を保持する支援情報に基づいて生成された部分画像を表す領域である。領域436は、“やめる”を保持する支援情報に基づいて生成された部分画像を表す領域である。なお、領域435に表される部分画像は、他の部分画像とは異なる色で表示されている。このように、画像情報生成部311は、音声入出力装置100が入力を受け付けできない言葉については、異なる色で部分画像を生成してもよい。
図10は、第1の実施形態の画像情報を表示装置400に表示するまでの処理の流れを示すシーケンスチャートである。音声取得部105は、集音部102によって集音された音声に基づいて音声信号を生成する(ステップS101)。音声取得部105は、生成された音声信号を音声解析装置200に送信する(ステップS102)。
文字列生成部205は、送信された音声信号によって表される波形の形状又は周波数成分に応じて文字列を生成する(ステップS103)。個人識別部206は、音声信号に基づいて音声を発話した個人を識別する。個人識別部206は、例えば、個人識別部206は、個人識別情報記憶部202に記録された声紋のうち、音声信号から生成された声紋と一致する声紋を特定する。個人識別部206は、特定された声紋に対応付けられた個人識別子を取得する(ステップS104)。送信部207は、個人識別子と文字列とを対応付けて情報提示装置300に送信する(ステップS105)。
文字列解析部307は、送信された文字列に対して形態素解析を行うことで1つ以上の形態素を取得する(ステップS106)。特徴情報取得部308は、形態素解析によって得られた形態素を保持する特徴情報レコードから特徴情報を取得する(ステップS107)。状態情報取得部309は、送信された個人識別子を保持する状態情報レコードから状態情報を取得する(ステップS108)。
支援情報決定部310は、取得された特徴情報を保持する入力情報レコードを入力情報テーブルから特定する(ステップS109)。支援情報決定部310は、特定された入力情報レコードが保持する特徴情報と、状態情報の各値と、に基づいて、入力情報レコードに対する評価情報を決定する(ステップS110)。なお、評価情報の決定にはどのような手法が用いられてもよい。支援情報決定部310は、決定された評価情報に基づいて表示装置400に表示される支援情報を決定する(ステップS111)。画像情報生成部311は、支援情報に基づいて部分画像を生成する。画像情報生成部311は、部分画像を含む画像情報を生成する(ステップS112)。表示指示部312は、画像情報を表示装置400に送信する(ステップS113)。
表示装置400は、送信された画像情報を表示する(ステップS114)。表示指示部312は、画像情報を表示装置400に送信した際に、音声解析装置200に対して発話情報を送信する(ステップS115)。音声出力指示部208は、音声入出力装置100に対して受信された発話情報に含まれる音声信号を出力させる音声出力指示を送信する(ステップS116)。音声出力部106は、音声出力指示に基づいて、発音部103に音声を発音させる。(ステップS117)。
このように構成された情報提示システム1では、話者が音声入出力装置100に対して発話した音声に基づいて文字列が生成される。文字列解析部307は、生成された文字列から形態素を取得する。特徴情報取得部308は、形態素に基づいて特徴情報を取得する。支援情報決定部310は、特徴情報に基づいて支援情報を取得する。画像情報生成部311は、取得された指示情報に基づいて、話者がどのような言葉を発話すればよいかを示す画像情報を生成する。表示指示部312は、生成された画像情報を表示装置400に表示させる。話者は、表示装置400に表示された画像情報を見ることで、正しい言葉を事前に調べる必要がなくなり、音声入出力装置100に対してどのような言葉を発すれば意図した動作を行わせることができるのかを知ることができる。したがって、話者は、表示装置に表示された画像情報に応じて発話することで、音声入出力装置100に対する意図した操作をより簡単に行うことができる。また、支援情報決定部310は、話者が抽象的な言葉を発話した場合であっても、発話された文字列から特徴情報を取得し、支援情報を決定する。このため、情報提示システム1は、抽象的な言葉が発話された場合であっても、話者の意図に沿った、複数の正しい言葉を含む画像表示を表示させることが可能になる。また、話者による音声入出力装置100に対する発話に応じて表示装置400に支援情報に基づいた画像情報を表示させることで、複数回の発話が必要となる処理であっても、話者は次にどのような言葉を発話すればよいのか容易に知ることが可能になる。
図11は、第1の実施形態の表示装置400の電源がオンされた場合に表示される画像情報の一具体例を示す図である。図11に示されるように、画像情報生成部311は、表示装置400の電源がオンされた場合に、画像情報を生成するように構成されてもよい。図11(a)は、表示装置400の電源がオンされた直後の画像情報を表す。画像情報は、部分画像を含む領域409bに加えて、本日の天気(3時間)、ニュース及び交通情報を含む。この場合、画像情報生成部311は、本日の天気(3時間)、ニュース及び交通情報をネットワーク500を介して取得する。領域409bに表される部分画像は話者又は情報提示装置300の提供者によって予め決定される。話者は、表示装置400に表示された領域409bを見ることで、自身が知りたい情報を表示装置400に表示させるためには何を発話すればよいのかすぐに知ることができる。なお、画像情報は、本日の天気(3時間)、ニュース及び交通情報以外の情報を含むように構成されてもよい。例えば、画像情報は、予め定められたコンテンツの映像を表示するように構成されてもよい。コンテンツは、例えば、ネットワーク500を介して配信される動画であってもよいし、テレビ放送波を介して送信されるテレビ番組であってもよい。
図11(b)は、図11(a)の画像情報が表示されている場合において、音声入出力装置100に対して話者が“天気詳しく”と音声入力を行った際に、表示装置400に表示される画像情報である。図11(b)によると、表示装置400に表示される画像情報は、領域409cに加えて、本日の天気(3時間)、日本列島の天気概況及び週間天気予報を含む。この場合、画像情報生成部311は、本日の天気(3時間)、日本列島の天気概況及び週間天気予報をネットワーク500を介して取得する。話者は、表示装置400に表示された領域409cを見ることで、自身が知りたい情報を表示装置400に表示させるためには何を発話すればよいのかすぐに知ることができる。なお、画像情報は、本日の天気(3時間)、日本列島の天気概況及び週間天気予報以外の情報を含むように構成されてもよい。例えば、画像情報は、最寄りの気象台から撮影されている現在の外の様子を表す映像を表示するように構成されてもよい。
図12は、第1の実施形態の表示装置400に表示される画像情報にその他の値を含む場合の一具体例を表す図である。図12によると、表示装置400に表示される画像情報は、領域401、領域402、領域403、領域404、領域405、領域406、領域407、領域408、領域409、領域403a、領域404a及び領域405aを含む。なお、領域401、領域402、領域403、領域404、領域405、領域406、領域407、領域408及び領域409は、図9の領域と同じであるため説明を省略する。
領域403aは、入力情報レコードのその他のカラムにピザを表すアイコン画像が保持されている場合に表示される領域である。領域403aは、領域403に表される部分画像の一部に含まれる領域403aによると、部分画像に表される指示情報と、ピザを表すアイコン画像とは並べて表される。領域404aは、入力情報レコードのその他のカラムに寿司を表すアイコン画像が保持されている場合に表示される領域である。領域404aは、領域404に表される部分画像の一部に含まれる領域404aによると、部分画像に表される指示情報と、寿司を表すアイコン画像とは並べて表される。領域405aは、入力情報レコードのその他のカラムにレシピを表すアイコン画像が保持されている場合に表示される領域である。領域405aは、領域405に表される部分画像の一部に含まれる領域405aによると、部分画像に表される指示情報と、レシピを表すアイコン画像とは並べて表される。このように、指示情報とアイコン画像とが並べて表示されることで、話者に選択される可能性を高めることができる。また、アイコン画像は、食品の画像に限定されない。例えばアイコン画像は、食品を提供するお店のロゴ画像であってもよいし、店員のイメージであってもよく、どのような画像であってもよい。
状態情報レコードが世帯識別子のカラムを有する場合、状態情報取得部309は、特定された状態情報レコードが保持する世帯識別子と同じ世帯識別子の値を有する状態情報レコードを取得するように構成されてもよい。このように構成されることで、支援情報決定部310は、特定の個人の状態情報に限らず、世帯毎の状態情報に基づいて、支援情報を決定することが可能になる。
音声入出力装置100と表示装置400との対応付けの変形例について説明する。音声入出力装置100と表示装置400とが、同一のネットワークアドレスを持つIPネットワークで接続されていたり、アドホック通信等によって直接通信可能に構成されていてもよい。この場合、表示指示部312は、画像情報を表示装置400に送信せずに、音声入出力装置100に送信するように構成されてもよい。この場合、画像情報は、音声入出力装置100によって表示装置400に表示される。
(第2の実施形態)
次に、第2の実施形態における情報提示システム1aについて説明する。図13は、第2の実施形態の情報提示システム1aのシステム構成を表すシステム構成図である。第2の実施形態における情報提示システム1aは、音声入出力装置100の代わりに音声入出力装置100aを備え、音声解析装置200の代わりに音声解析装置200aを備え、通信装置600をさらに備える点で第1の実施形態とは異なるが、それ以外の構成は同じである。以下、第1の実施形態と異なる点について説明する。
通信装置600は、パーソナルコンピュータ、スマートデバイス又はタブレットコンピュータ等の情報処理装置である。通信装置600は、プログラムを実行することによって通信部601、入力部602、表示部603、装置識別子記憶部604及び制御部605を備える装置として機能する。通信装置600は、ユーザからの入力に応じて、装置識別子を音声入出力装置100aに送信する。
通信部601は、ネットワークインタフェースである。通信部601は音声入出力装置100aと通信する。通信部601は、例えば無線LAN、有線LAN又はBluetooth等の通信方式で通信してもよい。通信部601は、音声入出力装置100aと1対1で通信が可能であればどのような通信方式で通信してもよい。通信部601は、音声入出力装置100aと1対1で通信を行うことで、装置識別子を送信する。
入力部602は、タッチパネル、マウス及びキーボード等の入力装置を用いて構成される。入力部602は、入力装置を通信装置600に接続するためのインタフェースであってもよい。この場合、入力部602は、入力装置において入力された入力信号から入力データを生成し、通信装置600に入力する。入力データは、例えば、通信装置600に対する指示を示す指示情報(例えば、装置識別子の送信を指示する送信指示)であってもよい。
表示部603は、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ等の出力装置である。表示部603は、出力装置を通信装置600に接続するためのインタフェースであってもよい。この場合、表示部603は、映像データから映像信号を生成し自身に接続されている映像出力装置に映像信号を出力する。
装置識別子記憶部604は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。装置識別子記憶部604は、装置識別子を記憶する。装置識別子は、通信装置600を一意に識別可能な情報である。装置識別子は、文字又は数字等が組み合わされた文字列である。装置識別子は、例えば、MACアドレス、IDFA、AAID等の装置が備える識別子である。装置識別子は、他の装置識別子と重複しなければどのような情報であってもよい。
制御部605は、通信装置600の各部の動作を制御する。制御部605は、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部605は、プログラムを実行することによって、装置識別子記憶部604に記憶された装置識別子を取得する。制御部605は、取得された装置識別子を音声入出力装置100aに送信する。
図14は、第2の実施形態の音声入出力装置100aの機能構成を表す機能ブロック図である。音声入出力装置100aは、制御部104の代わりに制御部104aを備え、装置識別子記憶部108を更に備える点で第1の実施形態とは異なるが、それ以外の構成は同じである。以下、第1の実施形態と異なる点について説明する。
装置識別子記憶部108は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。装置識別子記憶部108は、装置識別子を記憶する。装置識別子は、通信装置600から送信される。
制御部104aは、音声入出力装置100aの各部の動作を制御する。制御部104aは、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部104aは、音声入出力プログラムを実行することによって、音声取得部105a、音声出力部106及び装置識別子記録部107として機能する。
音声取得部105aは、集音部102によって集音された音声に基づいて音声信号を生成する。音声取得部105aは、生成された音声信号を装置識別子記録部107に記憶された装置識別子と対応付けて音声解析装置200aに送信する。
装置識別子記録部107は、通信装置600から装置識別子を受信した場合、装置識別子記憶部108に装置識別子を記録する。装置識別子記録部107は、記録された装置識別子を音声解析装置200aに送信する。
図15は、第2の実施形態の音声解析装置200aの機能構成を表す機能ブロック図である。音声解析装置200aは、個人識別情報記憶部202の代わりに個人識別情報記憶部202aを備え、制御部203の代わりに制御部203aを備える点で第1の実施形態とは異なるが、それ以外の構成は同じである。以下、第1の実施形態と異なる点について説明する。
個人識別情報記憶部202aは、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。個人識別情報記憶部202aは、装置識別子と個人識別子とを対応付けて記憶する。個人識別子は、装置識別子に対して所定の処理(例えば、ハッシュ処理等)を行うことで生成されてもよいし、任意の文字列が指定されてもよいし、予め定められた文字列が指定されてもよいし、他の個人識別子と重複しなければどのような情報であってもよい。
制御部203aは、音声解析装置200aの各部の動作を制御する。制御部203aは、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部203aは、音声解析プログラムを実行することによって、音声信号取得部204、文字列生成部205、個人識別部206a、送信部207及び音声出力指示部208として機能する。
個人識別部206aは、装置識別子に基づいて音声を発話した個人を識別する。個人識別部206aは、音声信号に対応付けて送信された装置識別子と一致する装置識別子を個人識別情報記憶部202aから特定する。個人識別部206aは、特定された装置識別子に対応付けされた個人識別子を取得する。個人識別部206aは、個人識別子を送信部207に出力する。
このように構成された情報提示システム1aでは、音声解析装置200aは、装置識別子と個人識別子とを対応付けて記憶する。音声入出力装置100aは、音声信号と装置識別子とを対応付けて音声解析装置200aに送信する。音声解析装置200aの個人識別部206aは、音声信号に対応付けて送信された装置識別子と一致する装置識別子を個人識別情報記憶部202aから特定する。個人識別部206aは、特定された装置識別子に対応付けされた個人識別子を取得することで、音声信号が不明瞭な場合であっても、個人を識別することが可能になる。
本実施形態では、音声入出力装置100、音声解析装置200及び情報提示装置300は各1台の装置であるとして説明したが、複数の装置で構成されてもよい。音声解析装置200及び情報提示装置300は、クラウドコンピューティングシステムによって構成されてもよい。また、音声入出力装置100、音声解析装置200及び情報提示装置300は、それぞれの機能をすべて有する1台の装置として構成されてもよい。
上述した実施形態における音声信号取得部204、文字列生成部205、個人識別部206、送信部207、音声出力指示部208、文字列取得部306、文字列解析部307、特徴情報取得部308、状態情報取得部309、支援情報決定部310、画像情報生成部311及び表示指示部312をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。