JP2004301980A - 音声対話装置及び音声対話代行装置並びにそれらのプログラム - Google Patents
音声対話装置及び音声対話代行装置並びにそれらのプログラム Download PDFInfo
- Publication number
- JP2004301980A JP2004301980A JP2003093194A JP2003093194A JP2004301980A JP 2004301980 A JP2004301980 A JP 2004301980A JP 2003093194 A JP2003093194 A JP 2003093194A JP 2003093194 A JP2003093194 A JP 2003093194A JP 2004301980 A JP2004301980 A JP 2004301980A
- Authority
- JP
- Japan
- Prior art keywords
- content
- user
- utterance
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】ネットワークを通じて取得した対話操作を伴うコンテンツの使用時に利用者が行った操作指示を使用履歴として記憶する履歴記憶手段11と、前記使用履歴として記憶された操作指示を、前記コンテンツの対話操作制御情報に則した操作指示として出力する対話操作代行手段12とを備え、前記コンテンツの使用条件が所定の条件に合致する場合に、利用者の発話による対話操作指示に代えて、前記履歴記憶手段11が記憶する前記使用履歴から、前記対話操作代行手段12が操作指示を取得して出力するようにした。
【選択図】 図2
Description
【発明の属する技術分野】
この発明は、ネットワーク経由で取得可能し対話操作により利用するコンテンツを音声により利用する音声対話装置及び音声対話代行装置並びにそれらのプログラムに係るものであり、特に操作回数を低減し、短時間で所望のコンテンツを得ることができる音声対話装置及び音声対話代行装置並びにそれらのプログラムに関する。
【0002】
【従来の技術】
近年、電話を介して音声によりインターネットサービスを利用できるようにしたボイスポータルが増えてきている。例えば、株式会社NTTコミュニケーションズの「Vポータル」(URL:http://www.ntt.com/v−portal/)や、株式会社電話放送局の「大阪ボイスポータル」(URL:http://www.vpsite.net/)などがある。
【0003】
これらは、もともと文字として表現されていたインターネット上のコンテンツを、音声合成により音声として利用者に提供するものである。ここで、これらのコンテンツが対話操作を含む場合には、対話操作を促す文字情報が音声ガイダンスに変換され、また本来キーボードやマウスによる操作指示の入力が必要な場面では、音声認識技術を利用して、利用者の発話を音声認識技術により操作指示に変換して利用できるようにしている。
【0004】
ところで、音声によるガイダンスと音声入力とを組み合わせた対話操作と、通常のインターネットコンテンツが前提としている画面での文字表示とキーボードあるいはマウスによる操作指示とを組み合わせた対話操作とでは、次のような点が異なっている。
【0005】
例えば、音声ガイダンスや発話は、言語として完結しなければ、意味が不明確となる。そこで、音声ガイダンスを再現したり、発話を最後まで行うために、数秒以上の時間を要する。このため、音声による対話処理は、画面に文字列を表示し、キーボードやマウスを通じて操作指示を行う対話処理よりも、所要時間が長い。音声を通じて何度も同じコンテンツを利用しようとする利用者は、毎回同じような操作を行うにもかかわらず、本来必要とする情報に辿りつくまでに長い間待たされることになる。
【0006】
音声による対話操作を通じて、情報機器を操作するインターフェースは、ITS(Intelligent Transport System:高度道路交通システム)の普及につれて、運転者が視線を逸らさずに情報を得る手段として有望視されている。特に今後DSRC(Dedicated Short Range Communication、専用狭域通信)技術によって、運転中に高度な情報を供給できるようになってくることが想定される。そこで、音声対話操作インターフェースを普及させるためにも、上記のような煩わしさを解決する必要がある。
【0007】
このような音声対話の操作性上の問題点を解決しようとした技術として、情報提供の順序を利用者に合わせて変更し、利用者が頻繁に利用する情報に辿りつくまでの操作を省略できるようにした方法が提案されている(例えば、特許文献1)。
【0008】
【特許文献1】
特開2000−270105「音声応答システム」(第1図、第7図、第3頁−第5頁)
【0009】
【発明が解決しようとする課題】
しかし上記の方法は、情報を利用者に供給するサーバの側で、情報提供の方法を利用者ごとに変更する手段を採用している。そのため、情報を利用者に供給するサーバが、利用者固有の情報提供順序を記憶しておかなければならない。例えば、現在のインターネットでは、おびただしい量のコンテンツが存在する。このような場合に、大量のコンテンツそれぞれについて情報提供の順序を利用者ごとに変更し、さらにその変更内容を記憶させることは現実的ではない。
【0010】
この発明は、上記のような問題を解決するために行われたもので、ネットワークを通じて取得したコンテンツを音声によって操作するインターフェースにおいて、定型の対話操作の回数を低減するものである。
【0011】
【課題を解決するための手段】
この発明に係る音声対話装置は、
コンテンツ取得手段と、履歴記憶手段と、コンテンツ解釈手段と、対話操作代行手段と、音声認識手段とを備えた音声対話装置であって、
前記コンテンツ取得手段は、利用者の操作指示を促すメッセージと操作指示毎に異なる動作とを定義した対話操作制御情報を有するコンテンツをネットワークを通じて取得し、
前記履歴記憶手段は、前記コンテンツ取得手段が取得したコンテンツについて前記利用者がこれまで行った操作指示を使用履歴として記憶し、
前記コンテンツ解釈手段は、前記履歴記憶手段の記憶している使用履歴が所定の条件を満たす場合には、前記対話操作代行手段の出力する操作指示に基づいて、前記コンテンツの有する対話操作制御情報に定義された動作を決定する一方で、前記使用履歴が前記所定の条件を満たさない場合には、前記コンテンツの有する対話操作制御情報のメッセージを前記利用者に提示するとともに、前記音声認識手段が出力する操作指示に基づいて前記動作を決定し、
前記対話操作代行手段は、前記履歴記憶手段が記憶している使用履歴の操作指示を出力し、
前記音声認識手段は、前記コンテンツ解釈手段が提示したメッセージに対して前記利用者が行った発話を音声認識し、前記コンテンツの有する対話操作制御情報に対する操作指示として出力するとともに、該操作指示を前記履歴記憶手段に記憶させることを特徴とするものである。
【0012】
またこの発明に係る音声対話代行装置は、利用者の操作指示により異なる動作を行い、かつ前記利用者の操作指示を促すメッセージを含むコンテンツをネットワークを通じて取得するコンテンツ取得手段と、
前記利用者の発話を音声認識により前記コンテンツ取得手段が取得するコンテンツに対する操作指示に変換し出力する音声認識手段と、
前記コンテンツ取得手段が取得するコンテンツの有する前記メッセージを前記利用者に報知する報知手段と、
前記音声認識手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えた音声対話装置とともに使用する音声対話代行装置であって、
前記コンテンツ取得手段が取得したコンテンツと前記利用者の発話とを関連づけて使用履歴として記憶する履歴記憶手段と、
前記利用者が使用するコンテンツについて、前記履歴記憶手段が前記利用者の発話を記憶している場合に、前記利用者の発話を再生して前記音声認識手段に出力する発話再生手段と、
を備えるものである。
【0013】
以下、この発明の実施の形態について説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声対話装置の構成を表すブロック図である。図において、コンテンツ記憶部1は、コンテンツを記憶し、ネットワークを経由して利用者にそのコンテンツを供給する装置である。具体的には、コンテンツ記憶部1はコンピュータを用いて構成されたサーバ装置である。コンテンツ2は、コンテンツ記憶部1によって供給されるコンテンツである。ここで、コンテンツとは、利用者が利用する情報を総称するものであり、具体的には、HTML(Hyper Text Markup Language)、XML(eXtended Markup Language)などの構造化文書形式、その他のバイナリ形式で供給される情報を含む。ネットワーク3は、LANや電話通信回線を初めとする双方向でデジタルデータを送受信するための通信路である。ここでネットワーク3は、このような目的を達するものであればどのようなものでもよく、有線/無線の別を問わない。
【0014】
音声対話装置4は、実施の形態1による音声対話装置であって、コンテンツ2を取得して、利用者に提供する装置である。メッセージ5は、コンテンツ2に対する対話操作を促すためのメッセージであり、音声又は文字やアイコンによって利用者に提供されるものである。発話6は、メッセージ5に応答して、利用者がコンテンツ2に対する操作指示を行うために発声する音声である。音声対話装置4は、発話6を音声認識により解釈して、コンテンツ2の対話操作制御情報に適合した形式の操作指示に変換するものである。
【0015】
ここで対話操作制御情報とは、コンテンツ2に組み込まれた、あるいはコンテンツ2と関連づけられた対話操作処理を実行するためのプログラムコードである。コンテンツ2がHTMLやXMLであるならば、このような対話操作制御情報はジャバスクリプトやVoiceXML、あるいはHTMLとcgiプログラムとの組み合わせなどによって実現されることが多い。もっとも、実施の形態1におけるコンテンツ2は、必ずしも音声対話操作を前提として構成されている必要はない。
【0016】
次に音声対話装置4の構成について説明する。図2は、音声対話装置4の詳細な構成を示すブロック図である。図において、コンテンツ取得手段7は、ネットワーク3を経由してコンテンツ2を取得する部位であって、具体的にはネットワーク入出力を行ってコンテンツ2を取得するものである。
【0017】
制御ID取得手段8は、コンテンツ2の対話操作制御情報に割り振られた制御IDを取得する部位である。制御IDとは、対話操作制御情報に割り振られた識別子であって、対話操作制御情報を一意に識別する識別子である。このような識別子としては、例えば、コンテンツ2がHTMLデータであれば、特定のタグを用いてもよいし、そのようなタグがないデータの場合は、行番号やデータの先頭からのオフセット値(データの先頭を0番地とした場合のそのデータの開始アドレス)を用いてもよい。
【0018】
コンテンツ解釈手段9は、コンテンツ取得手段7が取得したコンテンツ2の内容を解析して、図示せぬディスプレイ装置やスピーカーなどによって、利用者に対話操作を促すメッセージ5を利用者に報知する。また利用者からの操作指示に従って、対話操作制御情報に予め定められているいずれかの動作を選択し、場合によってはその動作を実行する部位である。
【0019】
音声認識手段10は、利用者がメッセージ5に応答して操作指示を発話すると、この発話をマイクロホンで集音し、集音した発話を音声認識してコンテンツ2の対話操作制御情報に適合した操作指示に変換するものである。
【0020】
また履歴記憶手段11は、利用者がコンテンツ2にアクセスした履歴を使用履歴として記憶する部位である。具体的には、ハードディスク装置やフラッシュメモリなどの不揮発性記憶装置によって構成されており、音声認識手段10によって音声認識された操作指示を、制御ID取得手段8が取得した識別子に関連づけて、記憶するようになっている。
【0021】
対話操作代行手段12は、対話操作制御情報を通じてコンテンツ2が要求する対話操作を自動的に行うために、履歴記憶手段11によって記憶されている使用履歴を参照して、過去の利用者の操作指示を取得し、出力する部位である。
【0022】
次に、コンテンツ2の詳細について説明する。図3は、コンテンツ2の一例を示したものである。図3の矩形20内のリストはVoiceXML言語に準拠して記述されたコンテンツのリストである。また図の左端の数字とコロンの組み合わせは、説明のために付された行番号である。以下の説明において、<という文字と、>という文字とによって括られた文字列(トークン)をタグと呼ぶこととする。
【0023】
図において、<form id>タグで開始し、</form>タグで終了する行は、コンテンツ2を利用すると行われる対話操作処理を定義するものである。図3の例では、このような対話操作処理として、2行目から16行目までの対話操作制御情報(<form id=”説明文出力の確認”>で開始する対話操作制御情報、以後、単に対話操作制御情報21という)及び17行目から21行目までの対話操作制御情報(<form id=”説明文の出力”>で開始する対話操作制御情報、以後単に対話操作制御情報22という)が表されている。
【0024】
次に、音声対話装置4の動作について説明する。図4は音声対話装置4の処理を示すフローチャートである。図において、ステップS101はコンテンツ取得手段7によって処理されるもので、ネットワーク3を介してコンテンツ記憶部1からコンテンツ2を取得する。コンテンツ2の取得には、例えばftp(file transfer protocol)やhttp(hyper text
transfer protocol)などを使用する。
【0025】
次にステップS102において、制御ID取得手段8は、対話操作制御情報21の制御IDを取得する。図3の例でいえば、<form id>タグの値はコンテンツ2内で重複して用いられることがない情報であるから、この値を識別子とすることができる。音声対話装置4で複数のコンテンツを扱うことを考慮すると、さらにコンテンツ名またはコンテンツのURLと<form id>タグの値とを組み合わせたもの(例.http://www.コンテンツ2#説明文の出力 など)を識別子として用いてもよい。
【0026】
ステップS103において、コンテンツ解釈手段9は、利用者によるコンテンツ2の使用の条件が所定の条件に合致するかどうかを判定する。コンテンツ2の使用条件とは、現在の利用者のコンテンツ2へのアクセス状況を意味するものであって、例えばこの利用者がコンテンツ2にこれまでアクセスしたことがあるかどうか、そしてアクセスしている場合には、どの程度の頻度でアクセスしているか、などの情報を指す。この情報は、履歴記憶手段11の記憶する使用履歴を参照することによって得られる。また所定の条件とは、この場合では、「初回のアクセスかそれ以外か」又は「過去のアクセス回数が所定の回数以上か否か」などである。
【0027】
例えば「初回のアクセスかそれ以外か」ということを所定の条件とするのであれば、コンテンツ解釈手段3は使用履歴を検索し、コンテンツ2のアクセス履歴が取得できるかどうかを調べる。その結果、過去にコンテンツ2をアクセスしたことがあれば、ステップS103の結果はYESである。またアクセスしたことがないのであれば、NOがステップS103の結果となる。
【0028】
同様に「過去のアクセス回数が所定の回数以上か否か」を所定の条件とするのであれば、コンテンツ解釈手段3は使用履歴を検索し、コンテンツ2のアクセス回数を算出する。その結果、この回数が所定の回数以上であれば、ステップS103の結果はYESである。また所定の回数に達していないのであれば、NOがステップS103の結果となる。
【0029】
利用者が、初めてコンテンツ2にアクセスした場合には、上記の所定の条件を満たすことはないので、ステップS103の判定結果はNOとなる。そこで、まずステップS103の判定結果がNOとなる場合の処理について説明する。この場合、ステップS104に進む(ステップS103:NO)。
【0030】
ステップS104において、コンテンツ解釈手段12は、対話操作制御情報に含まれるメッセージをメッセージ5として出力し、利用者の対話操作を促す。対話操作制御情報に含まれるメッセージとは、対話操作制御情報21の例でいえば、<prompt>タグによって定義される「システムの説明が必要ですか?」などのメッセージをいう。なおこの例では、メッセージは文字列として表されているが、アイコンなどの画像データと組み合わせて、あるいは画像データのみで利用者に分かるように情報を提供してもよい。
【0031】
ステップS105において、音声認識手段10は、利用者の発話を音声認識し、操作指示に変換する。すなわち、利用者がこのメッセージや音声ガイダンスに対して操作指示を発話すると、音声認識手段10はこの発話を音声認識して、操作指示に変換する。この音声認識処理は、一般的な音声認識辞書を用いて実現してもよい。さらに、対話操作制御情報21の<filled>タグ(8行目から14行目まで)の内容を解析し、例えば9行目の”いいえ”という文字列を抽出して、この”いいえ”の音声データとの間でマッチングするような処理を行ってもよい。
【0032】
次にステップS106において、履歴記憶手段11は、音声認識手段10が変換した操作指示と、制御ID取得手段8が取得した制御IDとを関連づけて、使用履歴として記憶する。履歴記憶手段11は、すでにこの制御IDと関連づけられて使用履歴として記憶している操作指示がある場合には、新たな操作指示がすでに記憶している操作指示と同じかどうかを評価する。そして、異なる操作指示の場合のみ、すでに記憶している操作指示を消去して、新たな操作指示と制御IDを関連づけて記憶する。
【0033】
なお、音声対話装置4の記憶容量に余裕がある場合には、このように既存の操作指示を上書きするのではなく、常に新たな操作指示を追加していく処理を行うようにしてもよい。こうすると、一つの制御IDに対して複数の操作指示を記憶することとなる。したがってこの場合には、最新の操作指示(一番最後に使用履歴に追加した操作指示)を使用することとする。あるいは、ある制御IDについて履歴記憶手段11が記憶している操作指示が複数ある場合には、その操作指示の中から最も頻度の高い操作指示を選択するようにしてもよい。
【0034】
最後に、ステップS107において、コンテンツ解釈手段9は、音声認識手段10が変換した操作指示を取得し、この操作指示に従って対話操作制御情報に定義された動作を選択する。例えば、対話操作制御情報21の場合ならば、利用者が「いいえ」と発話すると、音声認識手段10はこれを認識し、操作指示として出力する。これに対してコンテンツ解釈手段9は、この操作指示を9行目の<if cond=”YN==’いいえ’”>という行に代入して評価する。この場合は、この評価値は「真」となって10行目の行が動作として選択される。この結果、コンテンツ解釈手段9は10行目の行(<goto next=”#次の処理”/>)を解釈実行し、22行目から始まる<form id>タグの処理を行う。
【0035】
一方、利用者が「いいえ」以外の発話を行うと、音声認識手段10はこれを認識し、コンテンツ解釈手段9に出力する。コンテンツ解釈手段9は、この操作指示を9行目に代入して評価し、その結果として評価値は「偽」となって12行目の行が動作として選択される。この結果、コンテンツ解釈手段9は12行目の行(<goto next=”#説明文の出力”/>)を解釈実行し、17行目から始まる対話操作制御情報22の処理を行う。
【0036】
以上が、所定の条件に合致しない場合の処理である。次に所定の条件に合致する場合の処理(ステップS103:YES)について説明する。この場合は、ステップS108に進む。この場合、対話操作代行手段12は、履歴記憶手段11が記憶する使用履歴から、対話操作制御情報の制御IDに関連づけて記憶されている操作指示を取得する。例えば、制御IDが”説明文出力の確認”であれば、過去に利用者は「いいえ」などの指示操作を行っている。したがって、履歴記憶手段11は制御ID”説明文出力の確認”と、「いいえ」などの操作指示とを関連づけて記憶している。この場合、対話操作代行手段12は、制御ID”説明文出力の確認”に関連づけられている指示操作「いいえ」を使用履歴から取得して出力する。
【0037】
次に再びステップS107において、コンテンツ解釈手段9は、対話操作代行手段12が出力した操作指示を取得し、この操作指示に従って対話操作制御情報に定義された動作を選択する。以後の処理は、所定の条件に合致しない場合の処理と同様である。
【0038】
以上より明らかなように、音声対話装置4は、対話操作代行手段12が過去に利用者が行った操作を代行入力するので、すでに利用者が音声による対話操作を行ったことがあるコンテンツの対話操作を省略する。このため、利用者は同じコンテンツを利用する場合に、音声による対話操作を何度も繰り返す必要がなくなり、使い勝手のよい音声対話インターフェースを提供することができる。
【0039】
また使用履歴をコンテンツ記憶部1などのサーバ側に記憶するのではなく、端末側である音声対話装置4側に記憶するようにしたので、利用者ごとに使用履歴を管理することができる。したがって利用者ごとのコンテンツの趣向や操作の手順に合わせて、定型的な音声による対話操作の省力化を行うことが可能となる。
【0040】
なお、実施の形態1ではVoiceXMLに準拠したコンテンツ2を例として説明したが、使用するコンテンツについてはこのような形式のものに限定されるわけではない。
【0041】
また、実施の形態1では、コンテンツ2は複数の対話操作制御情報を有しているので、制御ID取得手段8を用いてこれらを識別することとした。しかし対話操作制御情報が複数存在しないコンテンツを扱う場合にあっては、制御ID取得手段8を省略してもよい。この場合は、コンテンツ名あるいはコンテンツのURLなどと操作指示とを関連づけて、使用履歴として記憶させるようにすればよい。
【0042】
さらに、対話操作制御情報を複数有しているコンテンツ(対話操作が複数ステップからなるコンテンツ)の場合であっても、各ステップに対する利用者の操作指示の一連の流れ(シーケンス)を、一つの操作指示のかたまりとして記憶するようにすれば、やはり制御ID取得手段を省略することができる。
【0043】
またステップS103の判定の結果、所定の条件に合致する場合にも、コンテンツ解釈手段9は、メッセージ5に基づいて利用者に何らかの情報を提供するようにしてもよい。この場合には、対話操作代行手段12が代理応答を行うので、利用者に通知されるメッセージの内容は対話操作を促すものでなくてよく、例えば「代理応答がなされます」などの変更したメッセージであってもよい。
【0044】
さらに、音声対話装置4と同様の機能を、コンピュータに実行させるコンピュータプログラムとして構成することも当然に可能である。このようなコンピュータプログラムは、コンテンツ取得手段7に処理を実行するコンピュータプログラム、音声合成手段8による処理を実行するコンピュータプログラム、音声認識手段10による処理を実行するコンピュータプログラム、制御ID取得手段8による処理を実行するコンピュータプログラム、履歴記憶手段11による処理を実行するコンピュータプログラム、対話操作代行手段12による処理を実行するプログラム、コンテンツ解釈手段9による処理を実行するプログラムのそれぞれを逐次コンピュータに実行させるプログラムである。
【0045】
実施の形態2.
実施の形態1では、対話操作を省略するか否かの判断を、コンテンツの使用回数に基づいて行うようにしたものであった。実施の形態2では、さらにハードウェア環境情報を用いて、対話操作を省略するか否かの判断を行う。
【0046】
図5は、実施の形態2による音声対話装置の構成を示すブロック図である。実施の形態1の音声対話装置と同一の符号を付した構成要素については、同様の動作を行うものであるので、説明を省略する。本図の構成と図1の構成の異なる点は、コンテンツ解釈手段9がハードウェア環境情報を取得する点にある。
【0047】
ここで、ハードウェア環境情報とは、音声対話装置4が有する機器の諸元や音声対話処理を行う環境の諸元を示す情報を意味する。より具体的にいうと、利用者にとっての音声対話装置4におけるコンテンツの認識性や操作性に影響を与える要因をパラメータ化した情報であって、例えば、音声対話装置4が
(1)ディスプレイ装置やキーボード装置などを有するか否かなどの情報
(2)車載用機器として用いられているかどうか
(3)携帯電話として用いられているかどうか
などの情報である。その他、コンテンツの認識性や操作性に影響を与える要因をコンピュータなどにより情報処理できるようにしたものであれば、どのような情報であっても構わない。
【0048】
これらの情報は、ROM(Read Only Memory)に記録され、BIOS(Basic Input Output System)プログラムを用いて読み出す。またシステムコンフィギュレーション(システム構成)情報として、図示せぬ記憶装置にファイルなどの形式で記録しておき、それを読み出すようにしてもよい。
【0049】
次に、上記に示したハードウェア環境情報(1)〜(3)を例にして、音声対話装置4の動作を説明する。図6は音声対話装置4の処理を示すフローチャートである。なお本フローチャートにおいて実施の形態1のフローチャートと同じ符号を付した処理については、実施の形態1と同様であるので説明を省略する。また点線矩形で囲み、符号S103を付した部分は、実施の形態1のステップS103に相当する処理であることを示すもので、実施の形態2の説明のために、その内容を詳細化したものである。
【0050】
そこで以下の説明では、このステップS103の詳細についてのみ説明することとする。なおこれらの処理は、いずれもコンテンツ解釈手段9によって処理されるものであり、使用回数とその所定の値との大小関係を見るものである。ここでは、この所定の値を「閾値」と呼ぶこととし、この閾値の値が例えば3であるものとする。
【0051】
図6のフローチャートのステップS201において、履歴記憶手段11が記憶する使用履歴を参照して、コンテンツ2の使用回数を算出する。次にステップS202において、ハードウェア環境情報の取得を行う。さらにステップS203において、ハードウェア環境情報に基づいて閾値を変更する。
【0052】
ここで、上述した(1)〜(3)を例にとって、ハードウェア環境情報がコンテンツ2の認識性や操作性に与える影響と、この影響を考慮したステップS203における閾値の変更の方法とについて、具体的に説明する。
【0053】
(1)のディスプレイ装置やキーボード装置の有無は、コンテンツ2の操作性に影響を与える。例えば音声対話装置4がディスプレイ装置を有し、さらにキーボードやマウスなどの入力機器を有している場合、対話操作制御情報の操作指示を促すメッセージを画面に表示し、さらにキーボードやマウスなどの入力機器を用いて操作指示を行うことができる。このような場合、音声ガイダンスに加えて画面にメッセージが表示されるので、利用者はごく短時間に多くの情報を認識できる。したがってこのような機能のない装置を通じて同じコンテンツを利用する場合に比して、より少ない回数で操作に慣れることが予想されるし、音声による対話操作を煩わしく感じるようになると考えられる。
【0054】
そこでステップS203では、ディスプレイ装置やキーボード装置が音声対話装置4に装備されていないことを示すハードウェア環境情報を取得した場合には、閾値を3のままとする。一方、ディスプレイ装置やキーボード装置が音声対話装置4に装備されていることを示すハードウェア環境情報を取得した場合には、閾値を1あるいは2に変更する。
【0055】
(2)の車載用機器であるか否かという条件は、利用者に対するコンテンツ2の操作性に影響を与える。利用者が自動車のドライバであり、運転中にコンテンツ2を使用しようとする場合、音声による対話操作は有効なユーザーインターフェースとなりうる。しかし、音声による対話操作とはいえ、1つのコンテンツを利用するために何度も同じ対話操作を運転中に行うことは煩わしい。また、自動車車内では騒音レベルが高く、音声認識率が劣化するので、発話による操作指示を何度も試行することになる。そこでこのような場合には、過去に行った操作指示を利用して、より少ない回数で音声による対話操作を不要とするような処理が望まれる。
【0056】
そこでステップS203では、音声対話装置4が車載用機器でないというハードウェア環境情報を取得した場合には、閾値を3のままとする。一方、音声対話装置4が車載用機器であるというハードウェア環境情報を取得した場合には、閾値を1あるいは2に変更する。
【0057】
(3)の携帯電話であるか否かという条件も、利用者に対するコンテンツの操作性に影響を与える。携帯電話の使用環境を考えてみると、車載用機器の場合と同じように、騒音環境下で使用する場合が多く、音声認識率が劣化する。また携帯電話の場合は、ディスプレイ装置が付属しており、さらにテンキー操作という手段によって操作指示も可能である。
【0058】
そこでステップS203では、音声対話装置4が携帯電話でないというハードウェア環境情報を取得した場合には、閾値を3のままとする。一方、音声対話装置4が携帯電話であるというハードウェア環境情報を取得した場合には、閾値を1あるいは2に変更する。
【0059】
次にステップS204において、ステップS201で算出されたコンテンツ2の使用回数と、ステップS203で算出された閾値との比較を行う。そして使用回数が閾値以上であれば、ステップS108に進み(ステップS204:YES)、使用回数が閾値未満であれば、ステップS104に進む(ステップS204:NO)。以降の処理については、実施の形態1と同様であるので説明を省略する。
【0060】
以上より明らかなように、実施の形態2による音声対話装置4は、ハードウェア環境情報に応じて対話操作が省略されるようになるまでの使用度数を変更する。その結果、音声対話装置4の機器の諸元や使用環境に応じて音声対話操作を効率化し、使いやすい音声対話操作インターフェースを提供できる。
【0061】
なお、音声対話装置4に外部の騒音レベルを検出するような機能を設け、この騒音レベルをハードウェア環境情報に変換してコンテンツ解釈手段9に出力できるようにした上で、ハードウェア環境情報として与えられる騒音レベルに基づいて動的に閾値の値を変更するようにしても構わない。
【0062】
実施の形態3.
実施の形態2では、ハードウェア環境情報に応じて、対話操作が省略されるようになるまでの使用度数を変更することとした。これに対して、実施の形態3では、利用者固有の属性に基づいてこの使用度数を変更する例について説明する。
【0063】
図7は、実施の形態3による音声対話装置の構成を示すブロック図である。実施の形態1の音声対話装置と同一の符号を付した構成要素については、同様の動作を行うものであるので、説明を省略する。本図の構成と図1の構成の異なる点は、新たに利用者情報記憶手段13を設けた点にある。
【0064】
利用者情報記憶手段13は、利用者情報を記憶するものであって、具体的にはハードディスクやフラッシュメモリなどの不揮発性記憶装置により構成されている。なお、利用者情報記憶手段13は、音声対話装置4とは別体であってもよい。例えば磁気カードに利用者情報を記憶させておき、音声対話装置4にこの磁気カードに記憶された利用者情報を読みとらせるような構成としてもよい。また、携帯電話に利用者情報を記憶させておき、赤外線通信により音声対話装置4に利用者情報を転送するようにしても構わない。
【0065】
ここで利用者情報とは、たとえば利用者の年齢など、音声対話装置4を使用する利用者固有の情報をいう。また聴力や視力などの情報を含めるようにしてもよい。利用者の年齢が高い場合には、同じ音声対話操作であっても、慣れるまでに時間を要する。その一方で、例えば20代〜40代であれば、短期間に音声対話操作に慣れてしまい、すぐに何度も同じ音声対話操作を行うのが煩わしくなる。
【0066】
実施の形態3においても、コンテンツの使用度数と閾値の大小関係を判断して、対話操作を省略するかどうかを決定する。そこで例えば、利用者の年齢に基づいてこの閾値を決定するようにすれば、利用者に最適な音声対話操作を提供できる。
【0067】
同様に、視力や聴力が弱い場合と正常な場合では、同じ音声対話操作であっても、慣れるまでに要する時間は異なる。したがってこのような場合にも、異なる閾値を用いて、コンテンツの使用度数の大小を判断する。
【0068】
さらに、音声対話装置4を航空機や旅客船舶などで使用する場合、または空港などで使用する場合には、利用者全員が同じ言語を理解できるとは限らない。そこで、国籍や使用言語などを利用者情報として記憶させてもよい。例えば、英語による音声ガイダンスは日本人には聞き取りにくく、慣れるまで時間を要する。このような場合には、対話操作が省略されるようになるまでの使用度数を大きくするような処理が必要となる。利用者情報として、国籍や使用言語を記憶させておけば、このような場合に、利用者に適切な形で対話操作の省力化を行うことが可能となる。
【0069】
なお実施の形態3による音声対話装置4の処理は図3のフローチャートによるものであり、ステップS103のみ、上述の処理を行う点で相違する。したがって説明を省略する。
【0070】
以上より明らかなように、実施の形態3による音声対話装置4は、利用者固有の事情に合わせて音声対話処理を省略するので、適切な音声対話操作を提供することができる。
【0071】
実施の形態4.
実施の形態1から実施の形態3までにおいて説明した音声対話装置4は、いずれも履歴記憶手段11に記憶された操作指示に基づいて、コンテンツ解釈手段9が動作を選択するものであった。これに対して実施の形態4では、コンテンツ2に対する操作指示が記録された日時に基づいて、履歴記憶手段11に記録された操作指示の採否を決定することを特徴とするものである。
【0072】
利用者はコンテンツ2を頻繁に使用している期間においては、コンテンツ2の対話操作に慣れてしまい、何度も同じ操作を繰り返すことを負担に感じる。これに対して、過去の一時期にコンテンツ2を頻繁に使用していても、しばらく間を空けてコンテンツ2を使用することになった場合は、コンテンツ2の内容を記憶しているとは限らない。このような場合に、以前と同じように音声による自動応答を行ってしまうと、コンテンツ2の情報の遷移を理解できず、利用者が混乱することも考えられる。実施の形態4による音声対話装置4は、このような課題に対応するものである。
【0073】
実施の形態4による音声対話装置4の構成は図2に示すものであって、実施の形態1による音声対話装置と同様であるので、説明を省略する。
【0074】
次に、音声対話装置4の動作を説明する。図8は音声対話装置4の処理を示すフローチャートである。なお本フローチャートにおいて実施の形態1のフローチャートと同じ符号を付した処理については、実施の形態1と同様であるので説明を省略する。また点線矩形で囲み、符号S103を付した部分は、実施の形態1のステップS103に相当する処理であることを示すもので、実施の形態4の説明のために、その内容を詳細化したものである。さらに、図8のフローチャートにおいてはステップS106−2の処理が実施の形態1と異なる。ステップS106−2は、実施の形態1のステップS106の処理に相当するものである。そこで以下の説明では、ステップS103とステップS106−2についてのみ説明することとする。
【0075】
まずステップS103について説明する。ステップS103はステップS301〜S304よりなるものである。これらは、いずれもコンテンツ解釈手段9によって処理されるものであり、使用回数と所定の値(以降、閾値と呼ぶ)との大小関係および最終使用時から現在時までの経過時間と別の所定値(以降、単に所定値と呼ぶ)との大小関係を見るものである。
【0076】
図8のフローチャートのステップS301において、履歴記憶手段11が記憶する使用履歴を参照して、コンテンツ2の最終使用時刻を取得する。ここで、コンテンツ2の最終使用時刻は、後述するステップS105−2において履歴記憶手段11が記憶するものである。
【0077】
次にステップS302において現在時刻から最終使用時刻を減じて、最終使用時刻からの経過時間を求め、この経過時間が所定値以下かどうかを調べる。経過時間が所定値以下である場合には、ステップS303に進む(ステップS302:YES)。一方、経過時間が所定値を超える場合には、ステップS103の処理を抜けて、ステップS104に進む(ステップS302:NO)。これによって、利用者が最後に使用してから一定の時間以上経過している場合には、ステップS104以降の処理が行われ、利用者の発話を音声認識するようになる。
【0078】
次にステップS303において、履歴記憶手段11が記憶する使用履歴を参照して、コンテンツ2の使用回数を算出し、さらにステップS304において、この使用回数が閾値以上か否かを評価する。使用回数が閾値以上である場合には、ステップS108に進む(ステップS304:YES)。一方、使用回数が閾値未満である場合には、ステップS104に進む(ステップS304:NO)。以上が、ステップS103の詳細処理である。次に、ステップS106−2の処理について説明する。
【0079】
ステップS106−2において、履歴記憶手段11は、音声認識手段10が変換した操作指示と、制御ID取得手段8が取得した制御IDとを関連づけて記憶し、さらに利用者がその操作指示を行った時間も操作指示とともに記憶する。履歴記憶手段11が利用者の操作指示を記憶させる方法については、実施の形態1と同様であるので、詳細な説明については省略する。
【0080】
以上より明らかなように、実施の形態4による音声対話装置4は、コンテンツを最後に使用した所定の時間が経過している場合に、自動応答を行わないようにするので、適切な範囲で定型的な音声応答処理の省力化を行うことができる。
【0081】
実施の形態5.
実施の形態1乃至4では、音声対話装置自身に音声対話操作を省力化する機能を持たせる場合について説明した。これに対して、このような省力化機能を持たない音声対話装置に、音声対話操作を省力化するための機能を有する機器を組み合わせて使用する形態も考えられる。実施の形態8による音声対話代行装置はこのような機能を有する装置である。
【0082】
図9は、実施の形態5による音声対話代行装置と、この装置と組み合わせて用いられる音声対話装置の構成を示すブロック図である。図において、図1と同じ符号を付した構成要素については、実施の形態1と同様であるので、説明を省略する。図の音声対話装置14は、利用者の発話によってネットワークを介して取得したコンテンツを操作することができる装置である。また音声対話代行装置15は、音声対話装置14と組み合わせて使用するものであって、音声対話装置14による音声対話操作を省力化する装置である。
【0083】
図10は、音声対話装置14と音声対話代行装置15の詳細な構成を示したブロック図である。図において、図2と同じ符号を付した構成要素については、実施の形態1と同様であるので、説明を省略する。音声対話装置14において、報知手段31は、コンテンツ取得手段7がコンテンツ2を取得すると、利用者に対話操作を促すメッセージ5を利用者に知らせるものであって、具体的にはディスプレイ装置またはスピーカーなどによって構成されている。報知手段31がスピーカーによってメッセージ5を報知する場合には、メッセージ5を音声合成する。
【0084】
音声対話代行装置15は、音声対話装置14とRS232CやUSB(Universal Serial Bus)、あるいはその他のバスなどによって接続されているものである。この接続の方法は、音声対話装置14から電気信号あるいはデジタル信号、音声信号を送受信できるようになっているものであれば、どのようなものであってもよい。またマイクロホンを装備させて、音声対話装置の報知手段31が出力する音声を、音声のまま直接入力するような方法を採用してもよい。
【0085】
音声対話代行装置15において、履歴記憶手段32は、報知手段31の出力するメッセージ5と利用者の操作指示を記憶するものであって、具体的にはハードディスク装置やフラッシュメモリなどの不揮発性記憶装置によって構成されている。発話再生手段33は、利用者が発話した操作指示を取り込み、履歴記憶手段32に発話内容を記憶させるとともに、利用者の発話を音声対話装置14の音声認識手段10に出力するようになっている。さらに発話再生手段33は、利用者が発話を行わない場合に、履歴記憶手段32に記憶されている利用者の発話を再生して、音声対話装置14の音声認識手段10に出力することで、音声による対話操作を代行するものである。
【0086】
次に音声対話装置14と音声対話代行装置15の処理について説明する。図11は、音声対話装置14と音声対話代行装置15の処理を示すフローチャートである。図のステップS401において、音声対話装置14のコンテンツ取得手段7は、ネットワーク3を通してコンテンツ記憶部1よりコンテンツ2を取得する。この処理は実施の形態1におけるステップS101と同様であるので、説明を省略する。
【0087】
続いてステップS402において、音声対話装置14の報知手段31はコンテンツ2の内容を報知する。前述したとおり、報知手段31はメッセージ5を報知するために、メッセージ5を音声合成して図示せぬスピーカーから出力したり、ディスプレイ装置に表示したりする。またその一方で、RS232Cインターフェースやバス経由で、音声対話代行装置15にもメッセージ5を出力する。
【0088】
次にステップS403において、音声対話代行装置15の履歴記憶手段32は、メッセージ5に対する利用者の発話を記憶しているかどうかを調べる。そして、利用者の発話を記憶している場合には、発話再生手段33に利用者の発話を出力して、ステップS404に進む(ステップS403:YES)。記憶していない場合はステップS406に進む(ステップS403:NO)。ステップS406以降の処理については後述する。
【0089】
ステップS404において、発話再生手段33は履歴記憶手段32が出力した利用者の発話を音声データとして再生する。再生された音声データは、音声対話装置14と音声対話代行装置15とを接続するRS232Cインターフェースやバスを経由して電気信号として伝達する。または、発話再生手段33自身によってスピーカーから実際の音声として再生されて音声対話装置14のマイクロホンに出力するようにしてもよい。
【0090】
最後にステップS405において、音声認識手段10は利用者の発話を音声認識して、操作指示に変換する。この処理は、実施の形態1におけるステップS104の処理と同様であるので、説明を省略する。
【0091】
一方、ステップS403において、音声対話代行装置15の履歴記憶手段32が、メッセージ5に対する利用者の発話を記憶していない場合(ステップS403:NO)には、ステップS406が実行される。ステップS406において、履歴記憶手段32は、利用者の発話とメッセージ5とを関連づけ、図示せぬハードディスク装置又はフラッシュメモリなどの不揮発性記憶装置に記憶させる。
【0092】
またこの場合、履歴記憶手段32は何も出力せず、発話再生手段33もそれに伴って何も出力しない。その結果、音声対話装置14の音声認識手段10は入力待ちの状態となる。この状態で、利用者が操作指示のための発話を行うと、ステップS405において音声認識手段10は、この発話を音声認識して操作指示に変換する。
【0093】
以上より明らかなように、音声対話代行装置15によれば、音声による対話操作を省力化する手段を持たない音声対話装置14のような機器に、省力化機能を付加することができる。
【0094】
なおステップS403において、履歴記憶手段32はコンテンツ内容7に対する発話を記憶している場合に、無条件でその発話を再生する処理に移行するのではなく、例えば実施の形態1乃至実施の形態4で行ったような条件判定に基づいて発話再生処理への移行を判断するようにしてもよい。
【0095】
また音声対話装置14からコンテンツ2の有する対話操作制御情報を表す制御IDを出力し、音声対話代行装置15でこの制御IDと利用者の発話を関連づけて記憶させるようにしてもよい。
【0096】
さらに、履歴記憶手段32は、コンテンツ内容7に対する発話を記憶している場合にも、即座に発話再生処理を行うのではなく、一定時間待機し、その間に利用者が発話を行わない場合にのみ、発話再生処理を行うようにすればよい。こうすることで、普段は一度行った操作指示を再生させておき、どうしても特別な操作指示を行わなければならない場合にのみ利用者が発声すれば、操作指示を進めることができるようになる。
【0097】
【発明の効果】
この発明に係る音声対話装置は、コンテンツの使用時に利用者が行った操作指示を使用履歴として記憶する履歴記憶手段と、前記使用履歴として記憶された操作指示を、前記コンテンツの対話操作制御情報に則した操作指示として出力する対話操作代行手段と、前記コンテンツの使用条件が所定の条件に合致する場合に、対話操作代行手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えたので、定型的な音声対話操作を自動化することが可能となるという効果を奏する。
【0098】
またこの発明に係る音声対話代行装置は、音声対話操作を省力化する機能を持たない音声対話装置の出力するコンテンツと利用者の発話内容を関連づけて記憶する履歴記憶手段と、履歴記憶手段が記憶する利用者の発話内容を再生する発話再生手段を備えて、前記音声対話装置に利用者の発話内容を出力するようにしたので、音声対話操作を省力化する機能を持たない音声対話装置についても、定型的な音声対話操作を自動化することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の実施の形態1の構成を示すブロック図である。
【図2】この発明の実施の形態1の構成の詳細を示すブロック図である。
【図3】この発明の実施の形態1のコンテンツの内容の例を示すプログラムリストである。
【図4】この発明の実施の形態1の処理のフローチャートである。
【図5】この発明の実施の形態2の構成の詳細を示すブロック図である。
【図6】この発明の実施の形態2の処理のフローチャートである。
【図7】この発明の実施の形態3の構成の詳細を示すブロック図である。
【図8】この発明の実施の形態4の処理のフローチャートである。
【図9】この発明の実施の形態5の構成を示すブロック図である。
【図10】この発明の実施の形態5の構成の詳細を示すブロック図である。
【図11】この発明の実施の形態5の処理のフローチャートである。
【符号の説明】
1:コンテンツ記憶部、2:コンテンツ、3:ネットワーク、
4:音声対話装置、5:メッセージ、6:利用者の発話、
7:コンテンツ取得手段、8:制御ID取得手段、9:コンテンツ解釈手段、
10:音声認識手段、11:履歴記憶手段、12:対話操作代行手段、
13:利用者情報記憶手段、14:音声対話装置、15:音声対話代行装置、
31:報知手段、32:履歴記憶手段、33:発話再生手段、
34:利用者の発話
Claims (18)
- コンテンツ取得手段と、履歴記憶手段と、コンテンツ解釈手段と、対話操作代行手段と、音声認識手段とを備えた音声対話装置であって、
前記コンテンツ取得手段は、利用者の操作指示を促すメッセージと操作指示毎に異なる動作とを定義した対話操作制御情報を有するコンテンツをネットワークを通じて取得し、
前記履歴記憶手段は、前記コンテンツ取得手段が取得したコンテンツについて前記利用者がこれまで行った操作指示を使用履歴として記憶し、
前記コンテンツ解釈手段は、前記履歴記憶手段の記憶している使用履歴が所定の条件を満たす場合には、前記対話操作代行手段の出力する操作指示に基づいて、前記コンテンツの有する対話操作制御情報に定義された動作を決定する一方で、前記使用履歴が前記所定の条件を満たさない場合には、前記コンテンツの有する対話操作制御情報のメッセージを前記利用者に提示するとともに、前記音声認識手段が出力する操作指示に基づいて前記動作を決定し、
前記対話操作代行手段は、前記履歴記憶手段が記憶している使用履歴の操作指示を出力し、
前記音声認識手段は、前記コンテンツ解釈手段が提示したメッセージに対して前記利用者が行った発話を音声認識し、前記コンテンツの有する対話操作制御情報に対する操作指示として出力するとともに、該操作指示を前記履歴記憶手段に記憶させることを特徴とする音声対話装置。 - 前記コンテンツ解釈手段は、前記履歴記憶手段が記憶する使用履歴から前記コンテンツを使用した回数を算出し、該回数が所定値以上の場合に、前記対話操作代行手段の出力する操作指示に基づいて、前記動作を決定する一方で、前記回数が前記所定値未満の場合には、前記メッセージを前記利用者に提示するとともに、前記音声認識手段が出力する操作指示に基づいて前記動作を決定することを特徴とする請求項1に記載した音声対話装置。
- 前記コンテンツ解釈手段は、ハードウェア環境情報に基づいて前記所定値を算出することを特徴とする請求項2に記載した音声対話装置。
- 利用者情報を記憶する利用者情報記憶手段をさらに備え、
前記コンテンツ解釈手段は、前記利用者情報記憶手段が記憶する前記利用者情報に基づいて前記所定値を算出することを特徴とする請求項2に記載した音声対話装置。 - 前記利用者情報記憶手段は、少なくとも利用者の年齢を利用者情報として記憶し、
前記コンテンツ解釈手段は、前記利用者情報記憶手段の記憶する利用者の年齢に基づいて前記所定値を算出することを特徴とする請求項4に記載した音声対話装置。 - 前記履歴記憶手段は、前記使用履歴として、前記利用者が前記コンテンツを最後に使用した時間をさらに記憶し、
前記コンテンツ解釈手段は、前記履歴記憶手段が記憶する前記コンテンツを最後に使用した時間と現在時から、前記所定値を算出することを特徴とする請求項2に記載した音声対話装置。 - 前記コンテンツの対話操作制御情報を一意に特定する制御IDを取得する制御ID取得手段をさらに備え、
前記履歴記憶手段は、前記制御ID取得手段が取得した前記制御IDを、前記利用者が行った操作指示に関連付けて記憶し、
前記対話操作省略化手段は、前記履歴記憶手段が、前記コンテンツの対話操作制御情報についての前記制御IDに関連づけて記憶している前記操作指示を前記コンテンツの対話操作制御情報に則した操作指示として出力することを特徴とする請求項1乃至請求項6のいずれか一に記載した音声対話装置。 - 前記コンテンツ解釈手段は、前記使用履歴が前記所定の条件を満たす場合において、前記コンテンツの有する対話操作制御情報のメッセージを変更し、該変更後のメッセージを前記利用者に提示することを特徴とする請求項1乃至請求項7のいずれか一に記載した音声対話装置。
- 利用者の操作指示により異なる動作を行い、かつ前記利用者の操作指示を促すメッセージを含むコンテンツをネットワークを通じて取得するコンテンツ取得手段と、
前記利用者の発話を音声認識により前記コンテンツ取得手段が取得するコンテンツに対する操作指示に変換し出力する音声認識手段と、
前記コンテンツ取得手段が取得するコンテンツの有する前記メッセージを前記利用者に報知する報知手段と、
前記音声認識手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えた音声対話装置とともに使用する音声対話代行装置であって、
前記コンテンツ取得手段が取得したコンテンツと前記利用者の発話とを関連づけて使用履歴として記憶する履歴記憶手段と、
前記利用者が使用するコンテンツについて、前記履歴記憶手段が前記利用者の発話を記憶している場合に、前記利用者の発話を再生して前記音声認識手段に出力する発話再生手段と、
を備えたことを特徴とする音声対話代行装置。 - 前記発話再生手段は、前記履歴記憶手段が記憶している使用履歴が所定の条件を満たす場合に、前記利用者の発話を再生して前記音声認識手段に出力することを特徴とする請求項9に記載した音声対話代行装置。
- 前記発話再生手段は、前記履歴記憶手段が記憶する使用履歴から前記コンテンツを使用した回数を算出し、該回数が所定値以上の場合に、前記利用者の発話を再生して前記音声認識手段に出力することを特徴とする請求項10に記載した音声対話代行装置。
- 前記発話再生手段は、ハードウェア環境情報に基づいて前記所定値を算出することを特徴とする請求項10に記載した音声対話代行装置。
- 利用者情報を記憶する利用者情報記憶手段をさらに備え、
前記発話再生手段は、前記利用者情報記憶手段が記憶する前記利用者情報とに基づいて前記所定値を算出することを特徴とする請求項10に記載した音声対話代行装置。 - 前記利用者情報記憶手段は、少なくとも利用者の年齢を利用者情報として記憶し、
前記発話再生手段は、前記利用者情報記憶手段の記憶する利用者の年齢に基づいて前記所定値を算出することを特徴とする請求項10に記載した音声対話代行装置。 - 前記履歴記憶手段は、前記使用履歴として、前記利用者が前記コンテンツを最後に使用した時間をさらに記憶し、
前記発話再生手段は、前記履歴記憶手段が記憶する前記コンテンツを最後に使用した時間と現在時から、前記所定値を算出することを特徴とする請求項10に記載した音声対話代行装置。 - 前記音声対話装置は、さらに前記コンテンツ取得手段が取得するコンテンツの有する前記メッセージを前記利用者に報知する報知手段を備え、
前記音声対話代行装置は、前記報知手段が前記メッセージを前記利用者に報知した後所定の時間が経過した場合に、前記発話再生手段が前記利用者の発話を再生して前記音声認識手段に出力することを特徴とする請求項10乃至請求項16のいずれか一に記載された音声対話代行装置。 - コンテンツ取得手順と、履歴記憶手順と、コンテンツ解釈手順と、対話操作代行手順と、音声認識手順とをコンピュータに実行させる音声対話プログラムであって、
前記コンテンツ取得手順は、利用者の操作指示を促すメッセージと操作指示毎に異なる動作とを定義した対話操作制御情報を有するコンテンツをネットワークを通じて取得し、
前記履歴記憶手順は、前記コンテンツ取得手順により取得されたコンテンツについて前記利用者がこれまで行った操作指示を使用履歴として記憶し、
前記コンテンツ解釈手順は、前記履歴記憶手順により記憶されている使用履歴が所定の条件を満たす場合には、前記対話操作代行手順により出力される操作指示に基づいて、前記コンテンツの有する対話操作制御情報に定義された動作を決定する一方で、前記使用履歴が前記所定の条件を満たさない場合には、前記コンテンツの有する対話操作制御情報のメッセージを前記利用者に提示するとともに、前記音声認識手順により出力する操作指示に基づいて前記動作を決定し、
前記対話操作代行手順は、前記履歴記憶手順により記憶されている使用履歴の操作指示を出力し、
前記音声認識手順は、前記コンテンツ解釈手順により提示されたメッセージに対して前記利用者が行った発話を音声認識し、前記コンテンツの有する対話操作制御情報に対する操作指示として出力するとともに、該操作指示を前記履歴記憶手順に記憶させることを特徴とする音声対話プログラム。 - 利用者の操作指示により異なる動作を行い、かつ前記利用者の操作指示を促すメッセージを含むコンテンツをネットワークを通じて取得するコンテンツ取得手段と、
前記利用者の発話を音声認識により前記操作指示に変換し出力する音声認識手段と、
前記音声認識手段が出力する操作指示に基づいて動作を決定するコンテンツ解釈手段とを備えた音声対話装置とともに使用する音声対話代行プログラムであって、
前記コンテンツ取得手段が取得したコンテンツと前記利用者の発話とを関連づけて使用履歴として記憶する履歴記憶手順と、
前記利用者が使用するコンテンツについて、前記履歴記憶手段が前記利用者の発話を記憶している場合に、前記利用者の発話を再生して前記音声認識手段に出力する発話再生手順と、
をコンピュータに実行させることを特徴とする音声対話代行プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003093194A JP4292846B2 (ja) | 2003-03-31 | 2003-03-31 | 音声対話装置及び音声対話代行装置並びにそれらのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003093194A JP4292846B2 (ja) | 2003-03-31 | 2003-03-31 | 音声対話装置及び音声対話代行装置並びにそれらのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004301980A true JP2004301980A (ja) | 2004-10-28 |
JP4292846B2 JP4292846B2 (ja) | 2009-07-08 |
Family
ID=33406048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003093194A Expired - Fee Related JP4292846B2 (ja) | 2003-03-31 | 2003-03-31 | 音声対話装置及び音声対話代行装置並びにそれらのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4292846B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018022033A (ja) * | 2016-08-03 | 2018-02-08 | 株式会社デンソーテン | 音声認識装置及びその方法 |
CN110648661A (zh) * | 2018-06-27 | 2020-01-03 | 现代自动车株式会社 | 对话系统、车辆和用于控制车辆的方法 |
WO2021166504A1 (ja) * | 2020-02-20 | 2021-08-26 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
JP2021168209A (ja) * | 2017-06-09 | 2021-10-21 | グーグル エルエルシーGoogle LLC | オーディオベースのコンピュータプログラム出力の修正 |
US20220254346A1 (en) * | 2019-07-12 | 2022-08-11 | Ntt Docomo, Inc. | Interaction device |
US11582169B2 (en) | 2017-06-09 | 2023-02-14 | Google Llc | Modification of audio-based computer program output |
-
2003
- 2003-03-31 JP JP2003093194A patent/JP4292846B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018022033A (ja) * | 2016-08-03 | 2018-02-08 | 株式会社デンソーテン | 音声認識装置及びその方法 |
JP2021168209A (ja) * | 2017-06-09 | 2021-10-21 | グーグル エルエルシーGoogle LLC | オーディオベースのコンピュータプログラム出力の修正 |
US11582169B2 (en) | 2017-06-09 | 2023-02-14 | Google Llc | Modification of audio-based computer program output |
JP7368425B2 (ja) | 2017-06-09 | 2023-10-24 | グーグル エルエルシー | オーディオベースのコンピュータプログラム出力の修正 |
CN110648661A (zh) * | 2018-06-27 | 2020-01-03 | 现代自动车株式会社 | 对话系统、车辆和用于控制车辆的方法 |
US20220254346A1 (en) * | 2019-07-12 | 2022-08-11 | Ntt Docomo, Inc. | Interaction device |
WO2021166504A1 (ja) * | 2020-02-20 | 2021-08-26 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4292846B2 (ja) | 2009-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8705705B2 (en) | Voice rendering of E-mail with tags for improved user experience | |
JP5548541B2 (ja) | 情報提供システムおよび車載装置 | |
CN106098056B (zh) | 一种语音新闻的处理方法、新闻服务器及系统 | |
US7363027B2 (en) | Sequential multimodal input | |
JP2005149484A (ja) | 逐次的なマルチモーダル入力 | |
CN102148888A (zh) | 移动电话集成到驾驶员信息系统 | |
US20060143012A1 (en) | Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium | |
KR101820291B1 (ko) | 차량용 음성 인식 제어 장치 및 그 방법 | |
JP5464078B2 (ja) | 音声認識端末 | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
KR101968669B1 (ko) | 통화 서비스 제공 방법 및 컴퓨터 프로그램 | |
JP2002123283A (ja) | 音声認識操作装置 | |
KR100826778B1 (ko) | 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법 | |
JP4292846B2 (ja) | 音声対話装置及び音声対話代行装置並びにそれらのプログラム | |
EP2538640B1 (en) | Portable terminal device, operation procedure communication system, and operation communication method | |
JP6832503B2 (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
JPH10322478A (ja) | 音声によるハイパーテキストアクセス装置 | |
JP4149370B2 (ja) | オーダー処理装置、オーダー処理方法、オーダー処理プログラム、オーダー処理プログラム記録媒体及びオーダー処理システム | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 | |
JP2004134942A (ja) | 携帯電話装置 | |
CN113271491B (zh) | 电子装置以及播放控制方法 | |
US20050119888A1 (en) | Information processing apparatus and method, and program | |
JP2003202890A (ja) | 音声認識装置及びその方法、プログラム | |
JP2005038067A (ja) | 音声入力機能を備えたフォームを提供する電子フォームシステム | |
JP2004029457A (ja) | 音声対話装置、および音声対話プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4292846 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140417 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |