JP2004301980A

JP2004301980A - 音声対話装置及び音声対話代行装置並びにそれらのプログラム

Info

Publication number: JP2004301980A
Application number: JP2003093194A
Authority: JP
Inventors: Tadashi Suzuki; 鈴木　　忠; Yasushi Ishikawa; 泰石川; Minoru Nishida; 稔西田; Masato Sumida; 昌人炭田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-03-31
Filing date: 2003-03-31
Publication date: 2004-10-28
Anticipated expiration: 2023-03-31
Also published as: JP4292846B2

Abstract

【課題】定型的な音声対話操作の省力化手段を提供する。
【解決手段】ネットワークを通じて取得した対話操作を伴うコンテンツの使用時に利用者が行った操作指示を使用履歴として記憶する履歴記憶手段１１と、前記使用履歴として記憶された操作指示を、前記コンテンツの対話操作制御情報に則した操作指示として出力する対話操作代行手段１２とを備え、前記コンテンツの使用条件が所定の条件に合致する場合に、利用者の発話による対話操作指示に代えて、前記履歴記憶手段１１が記憶する前記使用履歴から、前記対話操作代行手段１２が操作指示を取得して出力するようにした。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
この発明は、ネットワーク経由で取得可能し対話操作により利用するコンテンツを音声により利用する音声対話装置及び音声対話代行装置並びにそれらのプログラムに係るものであり、特に操作回数を低減し、短時間で所望のコンテンツを得ることができる音声対話装置及び音声対話代行装置並びにそれらのプログラムに関する。
【０００２】
【従来の技術】
近年、電話を介して音声によりインターネットサービスを利用できるようにしたボイスポータルが増えてきている。例えば、株式会社ＮＴＴコミュニケーションズの「Ｖポータル」（ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｎｔｔ．ｃｏｍ／ｖ−ｐｏｒｔａｌ／）や、株式会社電話放送局の「大阪ボイスポータル」（ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｖｐｓｉｔｅ．ｎｅｔ／）などがある。
【０００３】
これらは、もともと文字として表現されていたインターネット上のコンテンツを、音声合成により音声として利用者に提供するものである。ここで、これらのコンテンツが対話操作を含む場合には、対話操作を促す文字情報が音声ガイダンスに変換され、また本来キーボードやマウスによる操作指示の入力が必要な場面では、音声認識技術を利用して、利用者の発話を音声認識技術により操作指示に変換して利用できるようにしている。
【０００４】
ところで、音声によるガイダンスと音声入力とを組み合わせた対話操作と、通常のインターネットコンテンツが前提としている画面での文字表示とキーボードあるいはマウスによる操作指示とを組み合わせた対話操作とでは、次のような点が異なっている。
【０００５】
例えば、音声ガイダンスや発話は、言語として完結しなければ、意味が不明確となる。そこで、音声ガイダンスを再現したり、発話を最後まで行うために、数秒以上の時間を要する。このため、音声による対話処理は、画面に文字列を表示し、キーボードやマウスを通じて操作指示を行う対話処理よりも、所要時間が長い。音声を通じて何度も同じコンテンツを利用しようとする利用者は、毎回同じような操作を行うにもかかわらず、本来必要とする情報に辿りつくまでに長い間待たされることになる。
【０００６】
音声による対話操作を通じて、情報機器を操作するインターフェースは、ＩＴＳ（ＩｎｔｅｌｌｉｇｅｎｔＴｒａｎｓｐｏｒｔＳｙｓｔｅｍ：高度道路交通システム）の普及につれて、運転者が視線を逸らさずに情報を得る手段として有望視されている。特に今後ＤＳＲＣ（ＤｅｄｉｃａｔｅｄＳｈｏｒｔＲａｎｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ、専用狭域通信）技術によって、運転中に高度な情報を供給できるようになってくることが想定される。そこで、音声対話操作インターフェースを普及させるためにも、上記のような煩わしさを解決する必要がある。
【０００７】
このような音声対話の操作性上の問題点を解決しようとした技術として、情報提供の順序を利用者に合わせて変更し、利用者が頻繁に利用する情報に辿りつくまでの操作を省略できるようにした方法が提案されている（例えば、特許文献１）。
【０００８】
【特許文献１】
特開２０００−２７０１０５「音声応答システム」（第１図、第７図、第３頁−第５頁）
【０００９】
【発明が解決しようとする課題】
しかし上記の方法は、情報を利用者に供給するサーバの側で、情報提供の方法を利用者ごとに変更する手段を採用している。そのため、情報を利用者に供給するサーバが、利用者固有の情報提供順序を記憶しておかなければならない。例えば、現在のインターネットでは、おびただしい量のコンテンツが存在する。このような場合に、大量のコンテンツそれぞれについて情報提供の順序を利用者ごとに変更し、さらにその変更内容を記憶させることは現実的ではない。
【００１０】
この発明は、上記のような問題を解決するために行われたもので、ネットワークを通じて取得したコンテンツを音声によって操作するインターフェースにおいて、定型の対話操作の回数を低減するものである。
【００１１】
【課題を解決するための手段】
この発明に係る音声対話装置は、
コンテンツ取得手段と、履歴記憶手段と、コンテンツ解釈手段と、対話操作代行手段と、音声認識手段とを備えた音声対話装置であって、
前記コンテンツ取得手段は、利用者の操作指示を促すメッセージと操作指示毎に異なる動作とを定義した対話操作制御情報を有するコンテンツをネットワークを通じて取得し、
前記履歴記憶手段は、前記コンテンツ取得手段が取得したコンテンツについて前記利用者がこれまで行った操作指示を使用履歴として記憶し、
前記コンテンツ解釈手段は、前記履歴記憶手段の記憶している使用履歴が所定の条件を満たす場合には、前記対話操作代行手段の出力する操作指示に基づいて、前記コンテンツの有する対話操作制御情報に定義された動作を決定する一方で、前記使用履歴が前記所定の条件を満たさない場合には、前記コンテンツの有する対話操作制御情報のメッセージを前記利用者に提示するとともに、前記音声認識手段が出力する操作指示に基づいて前記動作を決定し、
前記対話操作代行手段は、前記履歴記憶手段が記憶している使用履歴の操作指示を出力し、
前記音声認識手段は、前記コンテンツ解釈手段が提示したメッセージに対して前記利用者が行った発話を音声認識し、前記コンテンツの有する対話操作制御情報に対する操作指示として出力するとともに、該操作指示を前記履歴記憶手段に記憶させることを特徴とするものである。
【００１２】
またこの発明に係る音声対話代行装置は、利用者の操作指示により異なる動作を行い、かつ前記利用者の操作指示を促すメッセージを含むコンテンツをネットワークを通じて取得するコンテンツ取得手段と、
前記利用者の発話を音声認識により前記コンテンツ取得手段が取得するコンテンツに対する操作指示に変換し出力する音声認識手段と、
前記コンテンツ取得手段が取得するコンテンツの有する前記メッセージを前記利用者に報知する報知手段と、
前記音声認識手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えた音声対話装置とともに使用する音声対話代行装置であって、
前記コンテンツ取得手段が取得したコンテンツと前記利用者の発話とを関連づけて使用履歴として記憶する履歴記憶手段と、
前記利用者が使用するコンテンツについて、前記履歴記憶手段が前記利用者の発話を記憶している場合に、前記利用者の発話を再生して前記音声認識手段に出力する発話再生手段と、
を備えるものである。
【００１３】
以下、この発明の実施の形態について説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声対話装置の構成を表すブロック図である。図において、コンテンツ記憶部１は、コンテンツを記憶し、ネットワークを経由して利用者にそのコンテンツを供給する装置である。具体的には、コンテンツ記憶部１はコンピュータを用いて構成されたサーバ装置である。コンテンツ２は、コンテンツ記憶部１によって供給されるコンテンツである。ここで、コンテンツとは、利用者が利用する情報を総称するものであり、具体的には、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ（ｅＸｔｅｎｄｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）などの構造化文書形式、その他のバイナリ形式で供給される情報を含む。ネットワーク３は、ＬＡＮや電話通信回線を初めとする双方向でデジタルデータを送受信するための通信路である。ここでネットワーク３は、このような目的を達するものであればどのようなものでもよく、有線／無線の別を問わない。
【００１４】
音声対話装置４は、実施の形態１による音声対話装置であって、コンテンツ２を取得して、利用者に提供する装置である。メッセージ５は、コンテンツ２に対する対話操作を促すためのメッセージであり、音声又は文字やアイコンによって利用者に提供されるものである。発話６は、メッセージ５に応答して、利用者がコンテンツ２に対する操作指示を行うために発声する音声である。音声対話装置４は、発話６を音声認識により解釈して、コンテンツ２の対話操作制御情報に適合した形式の操作指示に変換するものである。
【００１５】
ここで対話操作制御情報とは、コンテンツ２に組み込まれた、あるいはコンテンツ２と関連づけられた対話操作処理を実行するためのプログラムコードである。コンテンツ２がＨＴＭＬやＸＭＬであるならば、このような対話操作制御情報はジャバスクリプトやＶｏｉｃｅＸＭＬ、あるいはＨＴＭＬとｃｇｉプログラムとの組み合わせなどによって実現されることが多い。もっとも、実施の形態１におけるコンテンツ２は、必ずしも音声対話操作を前提として構成されている必要はない。
【００１６】
次に音声対話装置４の構成について説明する。図２は、音声対話装置４の詳細な構成を示すブロック図である。図において、コンテンツ取得手段７は、ネットワーク３を経由してコンテンツ２を取得する部位であって、具体的にはネットワーク入出力を行ってコンテンツ２を取得するものである。
【００１７】
制御ＩＤ取得手段８は、コンテンツ２の対話操作制御情報に割り振られた制御ＩＤを取得する部位である。制御ＩＤとは、対話操作制御情報に割り振られた識別子であって、対話操作制御情報を一意に識別する識別子である。このような識別子としては、例えば、コンテンツ２がＨＴＭＬデータであれば、特定のタグを用いてもよいし、そのようなタグがないデータの場合は、行番号やデータの先頭からのオフセット値（データの先頭を０番地とした場合のそのデータの開始アドレス）を用いてもよい。
【００１８】
コンテンツ解釈手段９は、コンテンツ取得手段７が取得したコンテンツ２の内容を解析して、図示せぬディスプレイ装置やスピーカーなどによって、利用者に対話操作を促すメッセージ５を利用者に報知する。また利用者からの操作指示に従って、対話操作制御情報に予め定められているいずれかの動作を選択し、場合によってはその動作を実行する部位である。
【００１９】
音声認識手段１０は、利用者がメッセージ５に応答して操作指示を発話すると、この発話をマイクロホンで集音し、集音した発話を音声認識してコンテンツ２の対話操作制御情報に適合した操作指示に変換するものである。
【００２０】
また履歴記憶手段１１は、利用者がコンテンツ２にアクセスした履歴を使用履歴として記憶する部位である。具体的には、ハードディスク装置やフラッシュメモリなどの不揮発性記憶装置によって構成されており、音声認識手段１０によって音声認識された操作指示を、制御ＩＤ取得手段８が取得した識別子に関連づけて、記憶するようになっている。
【００２１】
対話操作代行手段１２は、対話操作制御情報を通じてコンテンツ２が要求する対話操作を自動的に行うために、履歴記憶手段１１によって記憶されている使用履歴を参照して、過去の利用者の操作指示を取得し、出力する部位である。
【００２２】
次に、コンテンツ２の詳細について説明する。図３は、コンテンツ２の一例を示したものである。図３の矩形２０内のリストはＶｏｉｃｅＸＭＬ言語に準拠して記述されたコンテンツのリストである。また図の左端の数字とコロンの組み合わせは、説明のために付された行番号である。以下の説明において、＜という文字と、＞という文字とによって括られた文字列（トークン）をタグと呼ぶこととする。
【００２３】
図において、＜ｆｏｒｍｉｄ＞タグで開始し、＜／ｆｏｒｍ＞タグで終了する行は、コンテンツ２を利用すると行われる対話操作処理を定義するものである。図３の例では、このような対話操作処理として、２行目から１６行目までの対話操作制御情報（＜ｆｏｒｍｉｄ＝”説明文出力の確認”＞で開始する対話操作制御情報、以後、単に対話操作制御情報２１という）及び１７行目から２１行目までの対話操作制御情報（＜ｆｏｒｍｉｄ＝”説明文の出力”＞で開始する対話操作制御情報、以後単に対話操作制御情報２２という）が表されている。
【００２４】
次に、音声対話装置４の動作について説明する。図４は音声対話装置４の処理を示すフローチャートである。図において、ステップＳ１０１はコンテンツ取得手段７によって処理されるもので、ネットワーク３を介してコンテンツ記憶部１からコンテンツ２を取得する。コンテンツ２の取得には、例えばｆｔｐ（ｆｉｌｅｔｒａｎｓｆｅｒｐｒｏｔｏｃｏｌ）やｈｔｔｐ（ｈｙｐｅｒｔｅｘｔ
ｔｒａｎｓｆｅｒｐｒｏｔｏｃｏｌ）などを使用する。
【００２５】
次にステップＳ１０２において、制御ＩＤ取得手段８は、対話操作制御情報２１の制御ＩＤを取得する。図３の例でいえば、＜ｆｏｒｍｉｄ＞タグの値はコンテンツ２内で重複して用いられることがない情報であるから、この値を識別子とすることができる。音声対話装置４で複数のコンテンツを扱うことを考慮すると、さらにコンテンツ名またはコンテンツのＵＲＬと＜ｆｏｒｍｉｄ＞タグの値とを組み合わせたもの（例．ｈｔｔｐ：／／ｗｗｗ．コンテンツ２＃説明文の出力など）を識別子として用いてもよい。
【００２６】
ステップＳ１０３において、コンテンツ解釈手段９は、利用者によるコンテンツ２の使用の条件が所定の条件に合致するかどうかを判定する。コンテンツ２の使用条件とは、現在の利用者のコンテンツ２へのアクセス状況を意味するものであって、例えばこの利用者がコンテンツ２にこれまでアクセスしたことがあるかどうか、そしてアクセスしている場合には、どの程度の頻度でアクセスしているか、などの情報を指す。この情報は、履歴記憶手段１１の記憶する使用履歴を参照することによって得られる。また所定の条件とは、この場合では、「初回のアクセスかそれ以外か」又は「過去のアクセス回数が所定の回数以上か否か」などである。
【００２７】
例えば「初回のアクセスかそれ以外か」ということを所定の条件とするのであれば、コンテンツ解釈手段３は使用履歴を検索し、コンテンツ２のアクセス履歴が取得できるかどうかを調べる。その結果、過去にコンテンツ２をアクセスしたことがあれば、ステップＳ１０３の結果はＹＥＳである。またアクセスしたことがないのであれば、ＮＯがステップＳ１０３の結果となる。
【００２８】
同様に「過去のアクセス回数が所定の回数以上か否か」を所定の条件とするのであれば、コンテンツ解釈手段３は使用履歴を検索し、コンテンツ２のアクセス回数を算出する。その結果、この回数が所定の回数以上であれば、ステップＳ１０３の結果はＹＥＳである。また所定の回数に達していないのであれば、ＮＯがステップＳ１０３の結果となる。
【００２９】
利用者が、初めてコンテンツ２にアクセスした場合には、上記の所定の条件を満たすことはないので、ステップＳ１０３の判定結果はＮＯとなる。そこで、まずステップＳ１０３の判定結果がＮＯとなる場合の処理について説明する。この場合、ステップＳ１０４に進む（ステップＳ１０３：ＮＯ）。
【００３０】
ステップＳ１０４において、コンテンツ解釈手段１２は、対話操作制御情報に含まれるメッセージをメッセージ５として出力し、利用者の対話操作を促す。対話操作制御情報に含まれるメッセージとは、対話操作制御情報２１の例でいえば、＜ｐｒｏｍｐｔ＞タグによって定義される「システムの説明が必要ですか？」などのメッセージをいう。なおこの例では、メッセージは文字列として表されているが、アイコンなどの画像データと組み合わせて、あるいは画像データのみで利用者に分かるように情報を提供してもよい。
【００３１】
ステップＳ１０５において、音声認識手段１０は、利用者の発話を音声認識し、操作指示に変換する。すなわち、利用者がこのメッセージや音声ガイダンスに対して操作指示を発話すると、音声認識手段１０はこの発話を音声認識して、操作指示に変換する。この音声認識処理は、一般的な音声認識辞書を用いて実現してもよい。さらに、対話操作制御情報２１の＜ｆｉｌｌｅｄ＞タグ（８行目から１４行目まで）の内容を解析し、例えば９行目の”いいえ”という文字列を抽出して、この”いいえ”の音声データとの間でマッチングするような処理を行ってもよい。
【００３２】
次にステップＳ１０６において、履歴記憶手段１１は、音声認識手段１０が変換した操作指示と、制御ＩＤ取得手段８が取得した制御ＩＤとを関連づけて、使用履歴として記憶する。履歴記憶手段１１は、すでにこの制御ＩＤと関連づけられて使用履歴として記憶している操作指示がある場合には、新たな操作指示がすでに記憶している操作指示と同じかどうかを評価する。そして、異なる操作指示の場合のみ、すでに記憶している操作指示を消去して、新たな操作指示と制御ＩＤを関連づけて記憶する。
【００３３】
なお、音声対話装置４の記憶容量に余裕がある場合には、このように既存の操作指示を上書きするのではなく、常に新たな操作指示を追加していく処理を行うようにしてもよい。こうすると、一つの制御ＩＤに対して複数の操作指示を記憶することとなる。したがってこの場合には、最新の操作指示（一番最後に使用履歴に追加した操作指示）を使用することとする。あるいは、ある制御ＩＤについて履歴記憶手段１１が記憶している操作指示が複数ある場合には、その操作指示の中から最も頻度の高い操作指示を選択するようにしてもよい。
【００３４】
最後に、ステップＳ１０７において、コンテンツ解釈手段９は、音声認識手段１０が変換した操作指示を取得し、この操作指示に従って対話操作制御情報に定義された動作を選択する。例えば、対話操作制御情報２１の場合ならば、利用者が「いいえ」と発話すると、音声認識手段１０はこれを認識し、操作指示として出力する。これに対してコンテンツ解釈手段９は、この操作指示を９行目の＜ｉｆｃｏｎｄ＝”ＹＮ＝＝’いいえ’”＞という行に代入して評価する。この場合は、この評価値は「真」となって１０行目の行が動作として選択される。この結果、コンテンツ解釈手段９は１０行目の行（＜ｇｏｔｏｎｅｘｔ＝”＃次の処理”／＞）を解釈実行し、２２行目から始まる＜ｆｏｒｍｉｄ＞タグの処理を行う。
【００３５】
一方、利用者が「いいえ」以外の発話を行うと、音声認識手段１０はこれを認識し、コンテンツ解釈手段９に出力する。コンテンツ解釈手段９は、この操作指示を９行目に代入して評価し、その結果として評価値は「偽」となって１２行目の行が動作として選択される。この結果、コンテンツ解釈手段９は１２行目の行（＜ｇｏｔｏｎｅｘｔ＝”＃説明文の出力”／＞）を解釈実行し、１７行目から始まる対話操作制御情報２２の処理を行う。
【００３６】
以上が、所定の条件に合致しない場合の処理である。次に所定の条件に合致する場合の処理（ステップＳ１０３：ＹＥＳ）について説明する。この場合は、ステップＳ１０８に進む。この場合、対話操作代行手段１２は、履歴記憶手段１１が記憶する使用履歴から、対話操作制御情報の制御ＩＤに関連づけて記憶されている操作指示を取得する。例えば、制御ＩＤが”説明文出力の確認”であれば、過去に利用者は「いいえ」などの指示操作を行っている。したがって、履歴記憶手段１１は制御ＩＤ”説明文出力の確認”と、「いいえ」などの操作指示とを関連づけて記憶している。この場合、対話操作代行手段１２は、制御ＩＤ”説明文出力の確認”に関連づけられている指示操作「いいえ」を使用履歴から取得して出力する。
【００３７】
次に再びステップＳ１０７において、コンテンツ解釈手段９は、対話操作代行手段１２が出力した操作指示を取得し、この操作指示に従って対話操作制御情報に定義された動作を選択する。以後の処理は、所定の条件に合致しない場合の処理と同様である。
【００３８】
以上より明らかなように、音声対話装置４は、対話操作代行手段１２が過去に利用者が行った操作を代行入力するので、すでに利用者が音声による対話操作を行ったことがあるコンテンツの対話操作を省略する。このため、利用者は同じコンテンツを利用する場合に、音声による対話操作を何度も繰り返す必要がなくなり、使い勝手のよい音声対話インターフェースを提供することができる。
【００３９】
また使用履歴をコンテンツ記憶部１などのサーバ側に記憶するのではなく、端末側である音声対話装置４側に記憶するようにしたので、利用者ごとに使用履歴を管理することができる。したがって利用者ごとのコンテンツの趣向や操作の手順に合わせて、定型的な音声による対話操作の省力化を行うことが可能となる。
【００４０】
なお、実施の形態１ではＶｏｉｃｅＸＭＬに準拠したコンテンツ２を例として説明したが、使用するコンテンツについてはこのような形式のものに限定されるわけではない。
【００４１】
また、実施の形態１では、コンテンツ２は複数の対話操作制御情報を有しているので、制御ＩＤ取得手段８を用いてこれらを識別することとした。しかし対話操作制御情報が複数存在しないコンテンツを扱う場合にあっては、制御ＩＤ取得手段８を省略してもよい。この場合は、コンテンツ名あるいはコンテンツのＵＲＬなどと操作指示とを関連づけて、使用履歴として記憶させるようにすればよい。
【００４２】
さらに、対話操作制御情報を複数有しているコンテンツ（対話操作が複数ステップからなるコンテンツ）の場合であっても、各ステップに対する利用者の操作指示の一連の流れ（シーケンス）を、一つの操作指示のかたまりとして記憶するようにすれば、やはり制御ＩＤ取得手段を省略することができる。
【００４３】
またステップＳ１０３の判定の結果、所定の条件に合致する場合にも、コンテンツ解釈手段９は、メッセージ５に基づいて利用者に何らかの情報を提供するようにしてもよい。この場合には、対話操作代行手段１２が代理応答を行うので、利用者に通知されるメッセージの内容は対話操作を促すものでなくてよく、例えば「代理応答がなされます」などの変更したメッセージであってもよい。
【００４４】
さらに、音声対話装置４と同様の機能を、コンピュータに実行させるコンピュータプログラムとして構成することも当然に可能である。このようなコンピュータプログラムは、コンテンツ取得手段７に処理を実行するコンピュータプログラム、音声合成手段８による処理を実行するコンピュータプログラム、音声認識手段１０による処理を実行するコンピュータプログラム、制御ＩＤ取得手段８による処理を実行するコンピュータプログラム、履歴記憶手段１１による処理を実行するコンピュータプログラム、対話操作代行手段１２による処理を実行するプログラム、コンテンツ解釈手段９による処理を実行するプログラムのそれぞれを逐次コンピュータに実行させるプログラムである。
【００４５】
実施の形態２．
実施の形態１では、対話操作を省略するか否かの判断を、コンテンツの使用回数に基づいて行うようにしたものであった。実施の形態２では、さらにハードウェア環境情報を用いて、対話操作を省略するか否かの判断を行う。
【００４６】
図５は、実施の形態２による音声対話装置の構成を示すブロック図である。実施の形態１の音声対話装置と同一の符号を付した構成要素については、同様の動作を行うものであるので、説明を省略する。本図の構成と図１の構成の異なる点は、コンテンツ解釈手段９がハードウェア環境情報を取得する点にある。
【００４７】
ここで、ハードウェア環境情報とは、音声対話装置４が有する機器の諸元や音声対話処理を行う環境の諸元を示す情報を意味する。より具体的にいうと、利用者にとっての音声対話装置４におけるコンテンツの認識性や操作性に影響を与える要因をパラメータ化した情報であって、例えば、音声対話装置４が
（１）ディスプレイ装置やキーボード装置などを有するか否かなどの情報
（２）車載用機器として用いられているかどうか
（３）携帯電話として用いられているかどうか
などの情報である。その他、コンテンツの認識性や操作性に影響を与える要因をコンピュータなどにより情報処理できるようにしたものであれば、どのような情報であっても構わない。
【００４８】
これらの情報は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に記録され、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）プログラムを用いて読み出す。またシステムコンフィギュレーション（システム構成）情報として、図示せぬ記憶装置にファイルなどの形式で記録しておき、それを読み出すようにしてもよい。
【００４９】
次に、上記に示したハードウェア環境情報（１）〜（３）を例にして、音声対話装置４の動作を説明する。図６は音声対話装置４の処理を示すフローチャートである。なお本フローチャートにおいて実施の形態１のフローチャートと同じ符号を付した処理については、実施の形態１と同様であるので説明を省略する。また点線矩形で囲み、符号Ｓ１０３を付した部分は、実施の形態１のステップＳ１０３に相当する処理であることを示すもので、実施の形態２の説明のために、その内容を詳細化したものである。
【００５０】
そこで以下の説明では、このステップＳ１０３の詳細についてのみ説明することとする。なおこれらの処理は、いずれもコンテンツ解釈手段９によって処理されるものであり、使用回数とその所定の値との大小関係を見るものである。ここでは、この所定の値を「閾値」と呼ぶこととし、この閾値の値が例えば３であるものとする。
【００５１】
図６のフローチャートのステップＳ２０１において、履歴記憶手段１１が記憶する使用履歴を参照して、コンテンツ２の使用回数を算出する。次にステップＳ２０２において、ハードウェア環境情報の取得を行う。さらにステップＳ２０３において、ハードウェア環境情報に基づいて閾値を変更する。
【００５２】
ここで、上述した（１）〜（３）を例にとって、ハードウェア環境情報がコンテンツ２の認識性や操作性に与える影響と、この影響を考慮したステップＳ２０３における閾値の変更の方法とについて、具体的に説明する。
【００５３】
（１）のディスプレイ装置やキーボード装置の有無は、コンテンツ２の操作性に影響を与える。例えば音声対話装置４がディスプレイ装置を有し、さらにキーボードやマウスなどの入力機器を有している場合、対話操作制御情報の操作指示を促すメッセージを画面に表示し、さらにキーボードやマウスなどの入力機器を用いて操作指示を行うことができる。このような場合、音声ガイダンスに加えて画面にメッセージが表示されるので、利用者はごく短時間に多くの情報を認識できる。したがってこのような機能のない装置を通じて同じコンテンツを利用する場合に比して、より少ない回数で操作に慣れることが予想されるし、音声による対話操作を煩わしく感じるようになると考えられる。
【００５４】
そこでステップＳ２０３では、ディスプレイ装置やキーボード装置が音声対話装置４に装備されていないことを示すハードウェア環境情報を取得した場合には、閾値を３のままとする。一方、ディスプレイ装置やキーボード装置が音声対話装置４に装備されていることを示すハードウェア環境情報を取得した場合には、閾値を１あるいは２に変更する。
【００５５】
（２）の車載用機器であるか否かという条件は、利用者に対するコンテンツ２の操作性に影響を与える。利用者が自動車のドライバであり、運転中にコンテンツ２を使用しようとする場合、音声による対話操作は有効なユーザーインターフェースとなりうる。しかし、音声による対話操作とはいえ、１つのコンテンツを利用するために何度も同じ対話操作を運転中に行うことは煩わしい。また、自動車車内では騒音レベルが高く、音声認識率が劣化するので、発話による操作指示を何度も試行することになる。そこでこのような場合には、過去に行った操作指示を利用して、より少ない回数で音声による対話操作を不要とするような処理が望まれる。
【００５６】
そこでステップＳ２０３では、音声対話装置４が車載用機器でないというハードウェア環境情報を取得した場合には、閾値を３のままとする。一方、音声対話装置４が車載用機器であるというハードウェア環境情報を取得した場合には、閾値を１あるいは２に変更する。
【００５７】
（３）の携帯電話であるか否かという条件も、利用者に対するコンテンツの操作性に影響を与える。携帯電話の使用環境を考えてみると、車載用機器の場合と同じように、騒音環境下で使用する場合が多く、音声認識率が劣化する。また携帯電話の場合は、ディスプレイ装置が付属しており、さらにテンキー操作という手段によって操作指示も可能である。
【００５８】
そこでステップＳ２０３では、音声対話装置４が携帯電話でないというハードウェア環境情報を取得した場合には、閾値を３のままとする。一方、音声対話装置４が携帯電話であるというハードウェア環境情報を取得した場合には、閾値を１あるいは２に変更する。
【００５９】
次にステップＳ２０４において、ステップＳ２０１で算出されたコンテンツ２の使用回数と、ステップＳ２０３で算出された閾値との比較を行う。そして使用回数が閾値以上であれば、ステップＳ１０８に進み（ステップＳ２０４：ＹＥＳ）、使用回数が閾値未満であれば、ステップＳ１０４に進む（ステップＳ２０４：ＮＯ）。以降の処理については、実施の形態１と同様であるので説明を省略する。
【００６０】
以上より明らかなように、実施の形態２による音声対話装置４は、ハードウェア環境情報に応じて対話操作が省略されるようになるまでの使用度数を変更する。その結果、音声対話装置４の機器の諸元や使用環境に応じて音声対話操作を効率化し、使いやすい音声対話操作インターフェースを提供できる。
【００６１】
なお、音声対話装置４に外部の騒音レベルを検出するような機能を設け、この騒音レベルをハードウェア環境情報に変換してコンテンツ解釈手段９に出力できるようにした上で、ハードウェア環境情報として与えられる騒音レベルに基づいて動的に閾値の値を変更するようにしても構わない。
【００６２】
実施の形態３．
実施の形態２では、ハードウェア環境情報に応じて、対話操作が省略されるようになるまでの使用度数を変更することとした。これに対して、実施の形態３では、利用者固有の属性に基づいてこの使用度数を変更する例について説明する。
【００６３】
図７は、実施の形態３による音声対話装置の構成を示すブロック図である。実施の形態１の音声対話装置と同一の符号を付した構成要素については、同様の動作を行うものであるので、説明を省略する。本図の構成と図１の構成の異なる点は、新たに利用者情報記憶手段１３を設けた点にある。
【００６４】
利用者情報記憶手段１３は、利用者情報を記憶するものであって、具体的にはハードディスクやフラッシュメモリなどの不揮発性記憶装置により構成されている。なお、利用者情報記憶手段１３は、音声対話装置４とは別体であってもよい。例えば磁気カードに利用者情報を記憶させておき、音声対話装置４にこの磁気カードに記憶された利用者情報を読みとらせるような構成としてもよい。また、携帯電話に利用者情報を記憶させておき、赤外線通信により音声対話装置４に利用者情報を転送するようにしても構わない。
【００６５】
ここで利用者情報とは、たとえば利用者の年齢など、音声対話装置４を使用する利用者固有の情報をいう。また聴力や視力などの情報を含めるようにしてもよい。利用者の年齢が高い場合には、同じ音声対話操作であっても、慣れるまでに時間を要する。その一方で、例えば２０代〜４０代であれば、短期間に音声対話操作に慣れてしまい、すぐに何度も同じ音声対話操作を行うのが煩わしくなる。
【００６６】
実施の形態３においても、コンテンツの使用度数と閾値の大小関係を判断して、対話操作を省略するかどうかを決定する。そこで例えば、利用者の年齢に基づいてこの閾値を決定するようにすれば、利用者に最適な音声対話操作を提供できる。
【００６７】
同様に、視力や聴力が弱い場合と正常な場合では、同じ音声対話操作であっても、慣れるまでに要する時間は異なる。したがってこのような場合にも、異なる閾値を用いて、コンテンツの使用度数の大小を判断する。
【００６８】
さらに、音声対話装置４を航空機や旅客船舶などで使用する場合、または空港などで使用する場合には、利用者全員が同じ言語を理解できるとは限らない。そこで、国籍や使用言語などを利用者情報として記憶させてもよい。例えば、英語による音声ガイダンスは日本人には聞き取りにくく、慣れるまで時間を要する。このような場合には、対話操作が省略されるようになるまでの使用度数を大きくするような処理が必要となる。利用者情報として、国籍や使用言語を記憶させておけば、このような場合に、利用者に適切な形で対話操作の省力化を行うことが可能となる。
【００６９】
なお実施の形態３による音声対話装置４の処理は図３のフローチャートによるものであり、ステップＳ１０３のみ、上述の処理を行う点で相違する。したがって説明を省略する。
【００７０】
以上より明らかなように、実施の形態３による音声対話装置４は、利用者固有の事情に合わせて音声対話処理を省略するので、適切な音声対話操作を提供することができる。
【００７１】
実施の形態４．
実施の形態１から実施の形態３までにおいて説明した音声対話装置４は、いずれも履歴記憶手段１１に記憶された操作指示に基づいて、コンテンツ解釈手段９が動作を選択するものであった。これに対して実施の形態４では、コンテンツ２に対する操作指示が記録された日時に基づいて、履歴記憶手段１１に記録された操作指示の採否を決定することを特徴とするものである。
【００７２】
利用者はコンテンツ２を頻繁に使用している期間においては、コンテンツ２の対話操作に慣れてしまい、何度も同じ操作を繰り返すことを負担に感じる。これに対して、過去の一時期にコンテンツ２を頻繁に使用していても、しばらく間を空けてコンテンツ２を使用することになった場合は、コンテンツ２の内容を記憶しているとは限らない。このような場合に、以前と同じように音声による自動応答を行ってしまうと、コンテンツ２の情報の遷移を理解できず、利用者が混乱することも考えられる。実施の形態４による音声対話装置４は、このような課題に対応するものである。
【００７３】
実施の形態４による音声対話装置４の構成は図２に示すものであって、実施の形態１による音声対話装置と同様であるので、説明を省略する。
【００７４】
次に、音声対話装置４の動作を説明する。図８は音声対話装置４の処理を示すフローチャートである。なお本フローチャートにおいて実施の形態１のフローチャートと同じ符号を付した処理については、実施の形態１と同様であるので説明を省略する。また点線矩形で囲み、符号Ｓ１０３を付した部分は、実施の形態１のステップＳ１０３に相当する処理であることを示すもので、実施の形態４の説明のために、その内容を詳細化したものである。さらに、図８のフローチャートにおいてはステップＳ１０６−２の処理が実施の形態１と異なる。ステップＳ１０６−２は、実施の形態１のステップＳ１０６の処理に相当するものである。そこで以下の説明では、ステップＳ１０３とステップＳ１０６−２についてのみ説明することとする。
【００７５】
まずステップＳ１０３について説明する。ステップＳ１０３はステップＳ３０１〜Ｓ３０４よりなるものである。これらは、いずれもコンテンツ解釈手段９によって処理されるものであり、使用回数と所定の値（以降、閾値と呼ぶ）との大小関係および最終使用時から現在時までの経過時間と別の所定値（以降、単に所定値と呼ぶ）との大小関係を見るものである。
【００７６】
図８のフローチャートのステップＳ３０１において、履歴記憶手段１１が記憶する使用履歴を参照して、コンテンツ２の最終使用時刻を取得する。ここで、コンテンツ２の最終使用時刻は、後述するステップＳ１０５−２において履歴記憶手段１１が記憶するものである。
【００７７】
次にステップＳ３０２において現在時刻から最終使用時刻を減じて、最終使用時刻からの経過時間を求め、この経過時間が所定値以下かどうかを調べる。経過時間が所定値以下である場合には、ステップＳ３０３に進む（ステップＳ３０２：ＹＥＳ）。一方、経過時間が所定値を超える場合には、ステップＳ１０３の処理を抜けて、ステップＳ１０４に進む（ステップＳ３０２：ＮＯ）。これによって、利用者が最後に使用してから一定の時間以上経過している場合には、ステップＳ１０４以降の処理が行われ、利用者の発話を音声認識するようになる。
【００７８】
次にステップＳ３０３において、履歴記憶手段１１が記憶する使用履歴を参照して、コンテンツ２の使用回数を算出し、さらにステップＳ３０４において、この使用回数が閾値以上か否かを評価する。使用回数が閾値以上である場合には、ステップＳ１０８に進む（ステップＳ３０４：ＹＥＳ）。一方、使用回数が閾値未満である場合には、ステップＳ１０４に進む（ステップＳ３０４：ＮＯ）。以上が、ステップＳ１０３の詳細処理である。次に、ステップＳ１０６−２の処理について説明する。
【００７９】
ステップＳ１０６−２において、履歴記憶手段１１は、音声認識手段１０が変換した操作指示と、制御ＩＤ取得手段８が取得した制御ＩＤとを関連づけて記憶し、さらに利用者がその操作指示を行った時間も操作指示とともに記憶する。履歴記憶手段１１が利用者の操作指示を記憶させる方法については、実施の形態１と同様であるので、詳細な説明については省略する。
【００８０】
以上より明らかなように、実施の形態４による音声対話装置４は、コンテンツを最後に使用した所定の時間が経過している場合に、自動応答を行わないようにするので、適切な範囲で定型的な音声応答処理の省力化を行うことができる。
【００８１】
実施の形態５．
実施の形態１乃至４では、音声対話装置自身に音声対話操作を省力化する機能を持たせる場合について説明した。これに対して、このような省力化機能を持たない音声対話装置に、音声対話操作を省力化するための機能を有する機器を組み合わせて使用する形態も考えられる。実施の形態８による音声対話代行装置はこのような機能を有する装置である。
【００８２】
図９は、実施の形態５による音声対話代行装置と、この装置と組み合わせて用いられる音声対話装置の構成を示すブロック図である。図において、図１と同じ符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。図の音声対話装置１４は、利用者の発話によってネットワークを介して取得したコンテンツを操作することができる装置である。また音声対話代行装置１５は、音声対話装置１４と組み合わせて使用するものであって、音声対話装置１４による音声対話操作を省力化する装置である。
【００８３】
図１０は、音声対話装置１４と音声対話代行装置１５の詳細な構成を示したブロック図である。図において、図２と同じ符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。音声対話装置１４において、報知手段３１は、コンテンツ取得手段７がコンテンツ２を取得すると、利用者に対話操作を促すメッセージ５を利用者に知らせるものであって、具体的にはディスプレイ装置またはスピーカーなどによって構成されている。報知手段３１がスピーカーによってメッセージ５を報知する場合には、メッセージ５を音声合成する。
【００８４】
音声対話代行装置１５は、音声対話装置１４とＲＳ２３２ＣやＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、あるいはその他のバスなどによって接続されているものである。この接続の方法は、音声対話装置１４から電気信号あるいはデジタル信号、音声信号を送受信できるようになっているものであれば、どのようなものであってもよい。またマイクロホンを装備させて、音声対話装置の報知手段３１が出力する音声を、音声のまま直接入力するような方法を採用してもよい。
【００８５】
音声対話代行装置１５において、履歴記憶手段３２は、報知手段３１の出力するメッセージ５と利用者の操作指示を記憶するものであって、具体的にはハードディスク装置やフラッシュメモリなどの不揮発性記憶装置によって構成されている。発話再生手段３３は、利用者が発話した操作指示を取り込み、履歴記憶手段３２に発話内容を記憶させるとともに、利用者の発話を音声対話装置１４の音声認識手段１０に出力するようになっている。さらに発話再生手段３３は、利用者が発話を行わない場合に、履歴記憶手段３２に記憶されている利用者の発話を再生して、音声対話装置１４の音声認識手段１０に出力することで、音声による対話操作を代行するものである。
【００８６】
次に音声対話装置１４と音声対話代行装置１５の処理について説明する。図１１は、音声対話装置１４と音声対話代行装置１５の処理を示すフローチャートである。図のステップＳ４０１において、音声対話装置１４のコンテンツ取得手段７は、ネットワーク３を通してコンテンツ記憶部１よりコンテンツ２を取得する。この処理は実施の形態１におけるステップＳ１０１と同様であるので、説明を省略する。
【００８７】
続いてステップＳ４０２において、音声対話装置１４の報知手段３１はコンテンツ２の内容を報知する。前述したとおり、報知手段３１はメッセージ５を報知するために、メッセージ５を音声合成して図示せぬスピーカーから出力したり、ディスプレイ装置に表示したりする。またその一方で、ＲＳ２３２Ｃインターフェースやバス経由で、音声対話代行装置１５にもメッセージ５を出力する。
【００８８】
次にステップＳ４０３において、音声対話代行装置１５の履歴記憶手段３２は、メッセージ５に対する利用者の発話を記憶しているかどうかを調べる。そして、利用者の発話を記憶している場合には、発話再生手段３３に利用者の発話を出力して、ステップＳ４０４に進む（ステップＳ４０３：ＹＥＳ）。記憶していない場合はステップＳ４０６に進む（ステップＳ４０３：ＮＯ）。ステップＳ４０６以降の処理については後述する。
【００８９】
ステップＳ４０４において、発話再生手段３３は履歴記憶手段３２が出力した利用者の発話を音声データとして再生する。再生された音声データは、音声対話装置１４と音声対話代行装置１５とを接続するＲＳ２３２Ｃインターフェースやバスを経由して電気信号として伝達する。または、発話再生手段３３自身によってスピーカーから実際の音声として再生されて音声対話装置１４のマイクロホンに出力するようにしてもよい。
【００９０】
最後にステップＳ４０５において、音声認識手段１０は利用者の発話を音声認識して、操作指示に変換する。この処理は、実施の形態１におけるステップＳ１０４の処理と同様であるので、説明を省略する。
【００９１】
一方、ステップＳ４０３において、音声対話代行装置１５の履歴記憶手段３２が、メッセージ５に対する利用者の発話を記憶していない場合（ステップＳ４０３：ＮＯ）には、ステップＳ４０６が実行される。ステップＳ４０６において、履歴記憶手段３２は、利用者の発話とメッセージ５とを関連づけ、図示せぬハードディスク装置又はフラッシュメモリなどの不揮発性記憶装置に記憶させる。
【００９２】
またこの場合、履歴記憶手段３２は何も出力せず、発話再生手段３３もそれに伴って何も出力しない。その結果、音声対話装置１４の音声認識手段１０は入力待ちの状態となる。この状態で、利用者が操作指示のための発話を行うと、ステップＳ４０５において音声認識手段１０は、この発話を音声認識して操作指示に変換する。
【００９３】
以上より明らかなように、音声対話代行装置１５によれば、音声による対話操作を省力化する手段を持たない音声対話装置１４のような機器に、省力化機能を付加することができる。
【００９４】
なおステップＳ４０３において、履歴記憶手段３２はコンテンツ内容７に対する発話を記憶している場合に、無条件でその発話を再生する処理に移行するのではなく、例えば実施の形態１乃至実施の形態４で行ったような条件判定に基づいて発話再生処理への移行を判断するようにしてもよい。
【００９５】
また音声対話装置１４からコンテンツ２の有する対話操作制御情報を表す制御ＩＤを出力し、音声対話代行装置１５でこの制御ＩＤと利用者の発話を関連づけて記憶させるようにしてもよい。
【００９６】
さらに、履歴記憶手段３２は、コンテンツ内容７に対する発話を記憶している場合にも、即座に発話再生処理を行うのではなく、一定時間待機し、その間に利用者が発話を行わない場合にのみ、発話再生処理を行うようにすればよい。こうすることで、普段は一度行った操作指示を再生させておき、どうしても特別な操作指示を行わなければならない場合にのみ利用者が発声すれば、操作指示を進めることができるようになる。
【００９７】
【発明の効果】
この発明に係る音声対話装置は、コンテンツの使用時に利用者が行った操作指示を使用履歴として記憶する履歴記憶手段と、前記使用履歴として記憶された操作指示を、前記コンテンツの対話操作制御情報に則した操作指示として出力する対話操作代行手段と、前記コンテンツの使用条件が所定の条件に合致する場合に、対話操作代行手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えたので、定型的な音声対話操作を自動化することが可能となるという効果を奏する。
【００９８】
またこの発明に係る音声対話代行装置は、音声対話操作を省力化する機能を持たない音声対話装置の出力するコンテンツと利用者の発話内容を関連づけて記憶する履歴記憶手段と、履歴記憶手段が記憶する利用者の発話内容を再生する発話再生手段を備えて、前記音声対話装置に利用者の発話内容を出力するようにしたので、音声対話操作を省力化する機能を持たない音声対話装置についても、定型的な音声対話操作を自動化することが可能となるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の実施の形態１の構成を示すブロック図である。
【図２】この発明の実施の形態１の構成の詳細を示すブロック図である。
【図３】この発明の実施の形態１のコンテンツの内容の例を示すプログラムリストである。
【図４】この発明の実施の形態１の処理のフローチャートである。
【図５】この発明の実施の形態２の構成の詳細を示すブロック図である。
【図６】この発明の実施の形態２の処理のフローチャートである。
【図７】この発明の実施の形態３の構成の詳細を示すブロック図である。
【図８】この発明の実施の形態４の処理のフローチャートである。
【図９】この発明の実施の形態５の構成を示すブロック図である。
【図１０】この発明の実施の形態５の構成の詳細を示すブロック図である。
【図１１】この発明の実施の形態５の処理のフローチャートである。
【符号の説明】
１：コンテンツ記憶部、２：コンテンツ、３：ネットワーク、
４：音声対話装置、５：メッセージ、６：利用者の発話、
７：コンテンツ取得手段、８：制御ＩＤ取得手段、９：コンテンツ解釈手段、
１０：音声認識手段、１１：履歴記憶手段、１２：対話操作代行手段、
１３：利用者情報記憶手段、１４：音声対話装置、１５：音声対話代行装置、
３１：報知手段、３２：履歴記憶手段、３３：発話再生手段、
３４：利用者の発話

Claims

コンテンツ取得手段と、履歴記憶手段と、コンテンツ解釈手段と、対話操作代行手段と、音声認識手段とを備えた音声対話装置であって、
前記コンテンツ取得手段は、利用者の操作指示を促すメッセージと操作指示毎に異なる動作とを定義した対話操作制御情報を有するコンテンツをネットワークを通じて取得し、
前記履歴記憶手段は、前記コンテンツ取得手段が取得したコンテンツについて前記利用者がこれまで行った操作指示を使用履歴として記憶し、
前記コンテンツ解釈手段は、前記履歴記憶手段の記憶している使用履歴が所定の条件を満たす場合には、前記対話操作代行手段の出力する操作指示に基づいて、前記コンテンツの有する対話操作制御情報に定義された動作を決定する一方で、前記使用履歴が前記所定の条件を満たさない場合には、前記コンテンツの有する対話操作制御情報のメッセージを前記利用者に提示するとともに、前記音声認識手段が出力する操作指示に基づいて前記動作を決定し、
前記対話操作代行手段は、前記履歴記憶手段が記憶している使用履歴の操作指示を出力し、
前記音声認識手段は、前記コンテンツ解釈手段が提示したメッセージに対して前記利用者が行った発話を音声認識し、前記コンテンツの有する対話操作制御情報に対する操作指示として出力するとともに、該操作指示を前記履歴記憶手段に記憶させることを特徴とする音声対話装置。
前記コンテンツ解釈手段は、前記履歴記憶手段が記憶する使用履歴から前記コンテンツを使用した回数を算出し、該回数が所定値以上の場合に、前記対話操作代行手段の出力する操作指示に基づいて、前記動作を決定する一方で、前記回数が前記所定値未満の場合には、前記メッセージを前記利用者に提示するとともに、前記音声認識手段が出力する操作指示に基づいて前記動作を決定することを特徴とする請求項１に記載した音声対話装置。
前記コンテンツ解釈手段は、ハードウェア環境情報に基づいて前記所定値を算出することを特徴とする請求項２に記載した音声対話装置。
利用者情報を記憶する利用者情報記憶手段をさらに備え、
前記コンテンツ解釈手段は、前記利用者情報記憶手段が記憶する前記利用者情報に基づいて前記所定値を算出することを特徴とする請求項２に記載した音声対話装置。
前記利用者情報記憶手段は、少なくとも利用者の年齢を利用者情報として記憶し、
前記コンテンツ解釈手段は、前記利用者情報記憶手段の記憶する利用者の年齢に基づいて前記所定値を算出することを特徴とする請求項４に記載した音声対話装置。
前記履歴記憶手段は、前記使用履歴として、前記利用者が前記コンテンツを最後に使用した時間をさらに記憶し、
前記コンテンツ解釈手段は、前記履歴記憶手段が記憶する前記コンテンツを最後に使用した時間と現在時から、前記所定値を算出することを特徴とする請求項２に記載した音声対話装置。
前記コンテンツの対話操作制御情報を一意に特定する制御ＩＤを取得する制御ＩＤ取得手段をさらに備え、
前記履歴記憶手段は、前記制御ＩＤ取得手段が取得した前記制御ＩＤを、前記利用者が行った操作指示に関連付けて記憶し、
前記対話操作省略化手段は、前記履歴記憶手段が、前記コンテンツの対話操作制御情報についての前記制御ＩＤに関連づけて記憶している前記操作指示を前記コンテンツの対話操作制御情報に則した操作指示として出力することを特徴とする請求項１乃至請求項６のいずれか一に記載した音声対話装置。
前記コンテンツ解釈手段は、前記使用履歴が前記所定の条件を満たす場合において、前記コンテンツの有する対話操作制御情報のメッセージを変更し、該変更後のメッセージを前記利用者に提示することを特徴とする請求項１乃至請求項７のいずれか一に記載した音声対話装置。
利用者の操作指示により異なる動作を行い、かつ前記利用者の操作指示を促すメッセージを含むコンテンツをネットワークを通じて取得するコンテンツ取得手段と、
前記利用者の発話を音声認識により前記コンテンツ取得手段が取得するコンテンツに対する操作指示に変換し出力する音声認識手段と、
前記コンテンツ取得手段が取得するコンテンツの有する前記メッセージを前記利用者に報知する報知手段と、
前記音声認識手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えた音声対話装置とともに使用する音声対話代行装置であって、
前記コンテンツ取得手段が取得したコンテンツと前記利用者の発話とを関連づけて使用履歴として記憶する履歴記憶手段と、
前記利用者が使用するコンテンツについて、前記履歴記憶手段が前記利用者の発話を記憶している場合に、前記利用者の発話を再生して前記音声認識手段に出力する発話再生手段と、
を備えたことを特徴とする音声対話代行装置。
前記発話再生手段は、前記履歴記憶手段が記憶している使用履歴が所定の条件を満たす場合に、前記利用者の発話を再生して前記音声認識手段に出力することを特徴とする請求項９に記載した音声対話代行装置。
前記発話再生手段は、前記履歴記憶手段が記憶する使用履歴から前記コンテンツを使用した回数を算出し、該回数が所定値以上の場合に、前記利用者の発話を再生して前記音声認識手段に出力することを特徴とする請求項１０に記載した音声対話代行装置。
前記発話再生手段は、ハードウェア環境情報に基づいて前記所定値を算出することを特徴とする請求項１０に記載した音声対話代行装置。
利用者情報を記憶する利用者情報記憶手段をさらに備え、
前記発話再生手段は、前記利用者情報記憶手段が記憶する前記利用者情報とに基づいて前記所定値を算出することを特徴とする請求項１０に記載した音声対話代行装置。
前記利用者情報記憶手段は、少なくとも利用者の年齢を利用者情報として記憶し、
前記発話再生手段は、前記利用者情報記憶手段の記憶する利用者の年齢に基づいて前記所定値を算出することを特徴とする請求項１０に記載した音声対話代行装置。
前記履歴記憶手段は、前記使用履歴として、前記利用者が前記コンテンツを最後に使用した時間をさらに記憶し、
前記発話再生手段は、前記履歴記憶手段が記憶する前記コンテンツを最後に使用した時間と現在時から、前記所定値を算出することを特徴とする請求項１０に記載した音声対話代行装置。
前記音声対話装置は、さらに前記コンテンツ取得手段が取得するコンテンツの有する前記メッセージを前記利用者に報知する報知手段を備え、
前記音声対話代行装置は、前記報知手段が前記メッセージを前記利用者に報知した後所定の時間が経過した場合に、前記発話再生手段が前記利用者の発話を再生して前記音声認識手段に出力することを特徴とする請求項１０乃至請求項１６のいずれか一に記載された音声対話代行装置。
コンテンツ取得手順と、履歴記憶手順と、コンテンツ解釈手順と、対話操作代行手順と、音声認識手順とをコンピュータに実行させる音声対話プログラムであって、
前記コンテンツ取得手順は、利用者の操作指示を促すメッセージと操作指示毎に異なる動作とを定義した対話操作制御情報を有するコンテンツをネットワークを通じて取得し、
前記履歴記憶手順は、前記コンテンツ取得手順により取得されたコンテンツについて前記利用者がこれまで行った操作指示を使用履歴として記憶し、
前記コンテンツ解釈手順は、前記履歴記憶手順により記憶されている使用履歴が所定の条件を満たす場合には、前記対話操作代行手順により出力される操作指示に基づいて、前記コンテンツの有する対話操作制御情報に定義された動作を決定する一方で、前記使用履歴が前記所定の条件を満たさない場合には、前記コンテンツの有する対話操作制御情報のメッセージを前記利用者に提示するとともに、前記音声認識手順により出力する操作指示に基づいて前記動作を決定し、
前記対話操作代行手順は、前記履歴記憶手順により記憶されている使用履歴の操作指示を出力し、
前記音声認識手順は、前記コンテンツ解釈手順により提示されたメッセージに対して前記利用者が行った発話を音声認識し、前記コンテンツの有する対話操作制御情報に対する操作指示として出力するとともに、該操作指示を前記履歴記憶手順に記憶させることを特徴とする音声対話プログラム。
利用者の操作指示により異なる動作を行い、かつ前記利用者の操作指示を促すメッセージを含むコンテンツをネットワークを通じて取得するコンテンツ取得手段と、
前記利用者の発話を音声認識により前記操作指示に変換し出力する音声認識手段と、
前記音声認識手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えた音声対話装置とともに使用する音声対話代行プログラムであって、
前記コンテンツ取得手段が取得したコンテンツと前記利用者の発話とを関連づけて使用履歴として記憶する履歴記憶手順と、
前記利用者が使用するコンテンツについて、前記履歴記憶手段が前記利用者の発話を記憶している場合に、前記利用者の発話を再生して前記音声認識手段に出力する発話再生手順と、
をコンピュータに実行させることを特徴とする音声対話代行プログラム。