JP4174233B2 - 音声対話システム及び音声対話方法 - Google Patents

音声対話システム及び音声対話方法 Download PDF

Info

Publication number
JP4174233B2
JP4174233B2 JP2002122491A JP2002122491A JP4174233B2 JP 4174233 B2 JP4174233 B2 JP 4174233B2 JP 2002122491 A JP2002122491 A JP 2002122491A JP 2002122491 A JP2002122491 A JP 2002122491A JP 4174233 B2 JP4174233 B2 JP 4174233B2
Authority
JP
Japan
Prior art keywords
sequence
dialogue
voice
terminal
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002122491A
Other languages
English (en)
Other versions
JP2003316385A (ja
Inventor
信夫 畑岡
純一郎 渡辺
俊宏 鯨井
一郎 赤堀
雅彦 立石
ミタムラ・テルコ
エリック・ナイバーグ
祥樹 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Denso Corp
Original Assignee
Hitachi Ltd
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Denso Corp filed Critical Hitachi Ltd
Priority to JP2002122491A priority Critical patent/JP4174233B2/ja
Publication of JP2003316385A publication Critical patent/JP2003316385A/ja
Application granted granted Critical
Publication of JP4174233B2 publication Critical patent/JP4174233B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声対話システム及び音声対話方法に係り、特に、音声入出力機能を有するネットワーク型の車載情報サービスシステム、電話を端末とした音声ポータルによるネットワーク型の各種情報サービスシステム等に適用して好適で、効率的に端末とセンターとの機能分担を行って音声による対話を行うことを可能とした音声対話システム及び音声対話方法に関する。
【0002】
【従来の技術】
従来、音声を利用した情報サービスシステムの1つとして、例えば、カーナビシステムが知られている。一般に、カーナビシステムは、ネットワーク型の構成となっていないため、ユーザがセンター側の情報を自由に入手することができない。また、ネットワーク型構成のものも知られているが、音声入力の対話シーケンスが一意なものであり、自由な音声入力ができないものである。
【0003】
【発明が解決しようとする課題】
前述したように、従来の音声対話機能を有するシステムは、ユーザがセンター側の情報を自由に入手することができなかったり、自由な音声の入力ができないという問題点を有している。
【0004】
本発明の目的は、前記従来技術の問題点を解決し、例えば、車載情報サービスシステムにおいて、音声入力による対話を自由に、かつ、効率的に行うことができるようにし、車の中に居ながら道路の混雑状況、旅行先、施設等の利用状況及び音楽配信等の各種車載情報サービスを、安価に、かつ、効率的に、使い勝手よく利用することができる音声対話システム及び音声対話方法を提供することにある。
【0005】
【課題を解決するための手段】
本発明によれば前記目的は、音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声により対話する音声対話システムにおいて、前記センターは、端末からの音声入力の内容に応じて、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む対話シーケンスを生成し、また、状態情報及び音声入力に基づいて前記対話シーケンスを変更する手段を有し、前記変更は、第1の対話シーケンス実行中に入力される所定の音声入力に基づいて第2の対話シーケンスを生成すると共に、前記第1の対話シーケンスから第2の対話シーケンスへの分岐、及び、前記第2の対話シーケンスから前記第1の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第1の対話シーケンスのどのノードから前記第2の対話シーケンスへ分岐したかを記憶することにより達成される。
【0006】
また、前記目的は、音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声による対話を行う音声対話方法において、前記センターは、前記端末から入力される話題の項目を認識し、該話題の項目の詳細情報を、複数の話題の項目について各項目間の関係を含む詳細情報、及び、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む前記各項目毎の対話シーケンスとを記録している記録部から読み出し、前記読み出された詳細情報に基づいて、前記項目に対応する対話シーケンスを前記記録部から読み出し、前記読み出した対話シーケンスを合成し、この対話シーケンスを前記端末にダウンロードすることにより、端末との間での音声による対話を行う方法であり、前記対話は、対話シーケンスを構成する状態情報及び音声入力に基づいて前記対話シーケンスを変更して行われ、前記変更は、第1の対話シーケンス実行中に入力される所定の音声入力に基づいて第2の対話シーケンスを生成すると共に、前記第1の対話シーケンスから第2の対話シーケンスへの分岐、及び、前記第2の対話シーケンスから前記第1の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第1の対話シーケンスのどのノードから前記第2の対話シーケンスへ分岐したかを記憶することにより達成される。
【0007】
【発明の実施の形態】
以下、本発明による音声対話方法及び音声対話システムの実施形態を図面により詳細に説明する。
【0008】
図1は本発明の応用例の1つであるカー・マルチメディアシステムの概念と現行のカーナビシステムとを説明する図である。
【0009】
図1に示すように、現在のカーナビシステムは、「単体」の装置として使用され、経路誘導等に使用されるのが一般的である。一方、今後のカーナビシステムは、インターネット等のネットワークに結合した「ネットワーク型」のシステムへ展開されて車載情報システムとして使用されるようになると予想される。その際、従来のカーナビシステムでの音声インタフェース機能の他に、車載情報サービスを効率よく、かつ、サービスの質を向上させるために、車載での端末とネットワーク側のセンターとの効率的な融合が必須となってくる。そして、ネットワーク型の車載情報システムに対するサービスとしては、例えば、インターネット上にある各種店舗、レストラン等の時々刻々と変化するサービス情報、スキー場等のスポーツ施設近辺の天気予報、交通状態に関する情報、音楽等のエンタテーメントの配信情報等のサービスがあり、また、緊急時の連絡に関するサービスも必須となってくる。これらの情報サービスのために、「テレマティクス・サービス」が台頭してくると、「音声ポータル」を使用した音声による情報サービスも必須となってくる。
【0010】
図2は音声による情報サービスを行う場合の本発明の一実施形態による端末とネットワークとの構成を示す概念図である。図2において、200はユーザ、201は端末、202は音声ポータルゲートウェイ(Gateway)、203はネットワーク、204〜206は情報サービスWebセンタサーバである。
【0011】
図2において、端末201は、音声ポータルゲートウェイ202を介してインターネット等のネットワーク203に結合されている。ネットワーク203上には、各種のコンテンツサーバである情報サービスWebセンタサーバ204〜206が結合されている。利用者であるユーザ200は、端末201が有する音声インタフェースを利用して音声入力を行い、各種情報サービスを利用することが可能である。端末201は、車載情報システムの場合、車に搭載されている車載端末であり、通信手段としては、携帯電話等で使用しているインフラであるPDC(Personal Digital Communication)の通信手段を利用することができる。また、携帯電話を端末として利用することも可能である。
【0012】
図3は音声インタフェースを利用した車載情報サービスシステムの構成例を示す図である。図3において、301は車載システム、302は音声ポータルシステム、303はネットワーク、3011は車載端末、3012は雑音抑圧処理部、3013は音声認識部、3014は対話管理部、3015はVoiceXMLインタプリタ、3016はオーディオ、カーナビ等の車載機器である。図3に示す例は、サービスの内容が、ルートガイダンスと天気予報とのサービスであるとして、その具体例を説明する例である。
【0013】
図3においてユーザは、車載システム301の車載端末3011の音声インタフェースを利用して、センター側のサーバにアクセスすることにより、目的地までの距離と目的地の天気とに関する情報を入手することができる。音声インタフェースを実現する音声認識部3013と対話管理部3014とは、車載端末側と音声ポータル側とのどちらにも備えられる場合があり、効率的な連携をもって、ユーザであるドライバーへ必要な情報を供給する。音声認識部の前段に、車載利用に耐えるような雑音抑圧の前処理を行う雑音抑圧処理部3012が具備されることが多い。さらに、VoiceXMLインタプリタ3015が、車載システム301側あるいは音声ポータルセンター302側の両方に具備されている。音声ポータルセンター302は、少なくとも、対話管理部、音声認識部及び音声合成部を具備し、対話シーケンスをVoiceXML記述言語により実現するものとしている。車載端末3011の音声処理部と音声ポータルでの音声処理部との連携、例えば、車載オーディオ等の機器3016の操作等のネットワークに接続する必要のないサービス要求に関しては、車載端末だけで処理を完了させて、時々刻々変動する道路情報等は、センターに接続して、ネットワーク303を介してWWW等から入手する。その際、音声ポータルゲートウェイ等で、音声認識処理、対話管理処理等を分担連携することが、通信料の削減や通信線路の音声の歪み回避等の面から重要である。
【0014】
図4はVoiceXMLゲートウェイを具備した情報サービスシステムの構成例を示す図である。図4において、401は携帯電話機、402は電話網、403はVoiceXMLゲートウェイ(あるいは音声ポータルゲートウェイ)、405、406はホームページ、407は音声ポータル、408はパソコン(PC)、409はHTML、4010はインターネットである。
【0015】
図4に示すように、インターネット4010等のネットワークへ接続してサービスを受ける構成として、従来、パソコンP(PC)408から入力を行う方法が主流であった。この場合、インターネット4010に接続されているコンテンツに関するホームページは、通常のHTML409で記述されている。しかし、携帯電話401等の入力手段を利用する場合、電話網402を利用して、VoiceXMLゲートウェイ(あるいは音声ポータルゲートウェイ)403を介して、VoiceXMLで記述されているホームページ405、406にアクセスすることになる。VoiceXMLは、このような音声によるホームページアクセスに対処したコンテンツの記述言語であり、現在、VoiceXMLフォーラムとW3C(WWWコンソーシアム)とにより、世界標準化作業が進められている。VoiceXMLゲートウェイ403は、例えば、VoiceXMLインタプリタ、音声認識、音声合成、DTMF等の処理モジュールで構成される。
【0016】
図5は音声インタフェース機能を備えた車載情報サービス等に使用される音声対話システムの構成例を示すブロック図、図6は図5における音声認識部の機能構成例を示すブロック図である。図5、図6において、501は入力音声、502は雑音抑圧部、503は音声認識部、504は対話管理部、505はVoiceXML記述言語、506は音響モデル単語辞書、507は対話コーパス、508はユーザプロファイル、509は認識結果、602は音声入力部、603は音声分析部、604は音声検出部、605は照合部、606はHMM連結部、607はHMM音響モデル、608は単語辞書、609は判定部である。
【0017】
図5に示す音声対話システムは、雑音抑圧部502と、音声認識部503と、対話管理部504とにより構成され、音声501が雑音抑圧部502に入力され、雑音抑圧部502、音声認識部503、対話管理部504により順に処理されて認識結果509として出力される。音声認識部503は、通常、音響モデル情報及び単語辞書情報506を持ち、また、対話管理部504は、対話コーパス507とユーザプロファイル508とに関する情報を有する。音声認識と対話管理とは、VoiceXML記述言語505により、より密接に連携されて、対話シーケンスを実現している。
【0018】
音声認識部503は、図6に示すように、音声入力部602、音声分析部603、音声検出部604、照合部605、HMM連結部606、HMM音響モデル607、単語辞書608、判定部609により構成されている。
【0019】
このように構成される音声認識部503において、入力された音声501は、音声入力部602でサンプリングの折り返し雑音を除去するためにLPF(Low Pass Filtering)処理が施され、A/D(Analog to Digital)変換器によりアナログデータからデジタルデータへ変換される。デジタルデータに変換された音声波形データは、音声分析部603でスペクトル分析により、音声のスペクトル情報へ変換される。その後、このスペクトル情報は、音声検出部604により音声区間の検出が行われ、音声区間内の音声データとされる。この音声データは、照合部605により標準音声データとの類似度との算出が施され、判定部609により、最終的に入力音声の内容が認識、決定されて認識結果509が出力される。前述における照合部605の処理は、現在、最もよく使用されている隠れマルコフモデル(HMM:Hidden Markov Model)方式を用いることとしている。この場合、標準音声データとして、少なくてもHMM音響モデル607、単語辞書608及びHMM連結部606の構成が必要となる。隠れマルコフモデル方式による音声認識に関しては、文献「確率モデルによる音声認識(中川聖一著、電子情報通信学会編)」に記載されたものが知られている。前述した照合部605の例は、隠れマルコフモデルを使用するとしたが、本発明は、ニューラルネットワーク等による認識方式使用することができる。
【0020】
図7は音声認識・合成を行う端末装置の構成例を示すブロック図である。音声認識や合成は、パソコン等のソフトウェアによっても実現することができるが、図7に示す例は、汎用マイコンを使用した音声認識、合成ボードにより実現した例である。図7において、701はA/D変換モジュール701、702はシステムコントローラ、703はROM、704はマイコン、705はRAM、706はバス、707はRS232CI/F、708はD/A変換モジュールである。
【0021】
図7に示すように、音声認識・合成を行う端末装置は、入力音声501をA/D変換するA/D変換モジュール701と、サンプリングされた音声データを編集するシステムコントローラ702と、音声認識ミドルウェアと標準音声データが記憶されているROM(Read Only Memory)703と、主処理部であるマイコン704と、ワークメモリとして働くRAM(Random Access Memory)705と、それらを有機的に結合処理するBUS706と、認識結果509の出力を行うインタフェースであるRS232CI/F707とにより構成される。音声合成ボードには、音声合成音709を出力するD/A変換モジュール708が備えられている。
【0022】
前述した端末装置の構成は、最低限必要な機能による例を示したものであり、この他に、種々の回路構成をとることができる。
【0023】
図8は本発明の実施形態による対話管理を用いた車載サービスにおける対話ダイアログの生成について説明する図である。図8において、801はタスクドキュメント、802はタスク管理処理、803は天気予報VoiceXML、804は観光ガイドVoiceXML、805は催し物ガイドVoiceXML、806は応答ダイアログ、807は時間ダイアログ、808は場所ダイアログ、809は会場ダイアログ、8010は時間辞書、8011は地名辞書、8012は会場名辞書である。
【0024】
図8において、タスク管理処理802は、天気予報の情報入手や観光案内情報の等の各タスクに関するデータであるタスクドキュメント801をデータとして、具体的に必須な対話シーケンスの表現を生成する。この対話シーケンスに基づいて、各タスクにおいて出現する応答ダイアログ806や、時間ダイアログ807、場所ダイアログ808、会場ダイアログ809等の具体的な対話のダイアログが、実際の時間辞書8010、地名辞書8011、会場名辞書8012等を利用して、より詳細な対話ダイアログに生成される。前述のタスクの対話シーケンスから具体的な対話ダイアログの流れへの生成過程は、自動的に行われる。その結果、音声認識に必須な対話の流れがVoiceXML記述言語等により表現されて、実際の音声対話のサービスが実行されることになる。
【0025】
図8に示す例は、具体的なVoiceXML表現の対話シーケンスが、天気予報VoiceXML803、観光ガイドVoiceXML804、催し物ガイドVoiceXML805等のモジュールとして自動生成される。この自動生成されたVoiceXMLモジュールは、センター側あるいは端末へ転送されて、実際の音声対話を利用したサービスが実施されることになる。
【0026】
次に、前述で説明した本発明の実施形態を運転中の道案内に適用した場合の具体例について説明する。
【0027】
図9は道路を走行中のドライバーが音声対話により目的地(ここでは四川楼)を設定したときの対話シーケンスを説明する図である。ここで注意すべきことは、四川楼という目的地を設定した後でなければ、道案内の対話シーケンスが決まらないこと、換言すると道案内の対話シーケンスは、四川楼という目的地が決まった後で自動生成しなければならないことである。この対話シーケンスの自動生成は、すでに説明したように、各タスクに関するデータ(タスクドキュメント)801をデータとして、タスク管理処理802により、具体的に必須な対話シーケンスに表現されるように行われる。その対話シーケンスに基づいて、各タスクにおいて出現するダイアログが、図示していない店名辞書、地名辞書等を利用して自動生成される。ここで以後の説明のため、道案内の対話シーケンスを図9のように、3つの区間A、B、Cに分ける。
【0028】
図10は対話シーケンスと実際の運転状況との対応を説明する図、図11は図10に示す対話シーケンスを状態遷移モデルにより表現した図である。いま、ドライバーが「四川楼に行きたい」と発話すると、端末は「桜通を東に向かってください」と案内する。車両が図10に示す区間Aを通過し、点P1に到達すると、端末は「伏見通りで右折してください」と案内する。車両が区間Bを通過し、点P2に到達すると端末は「四川楼はまもなく左側にあります」と案内する。そして、車両が目的地に到着して対話シーケンスが完了する。
【0029】
前述したような対話シーケンスを状態遷移モデルにより表現すると、図11に示すようになる。図11において、A301〜A305はノードであり、ノード間が有向リンクにより接続されている。ドライバーが「四川楼に行きたい」と発話すると、対話プログラムは、制御をノードA301に移し、「桜通を東に向かってください」と案内して、制御をノードA302に移す。車両が区間Aを通過している時点で制御はノードA302にある。そして、車両が点P1に到達すると、対話プログラムは、「伏見通りで右折してください」と案内する。そして制御をA303に移す。車両が区間Bを通過している時点で制御はA303にある。そして、車両が点P2に到達すると、対話プログラムは、「四川楼はまもなく左側にあります」と案内し、制御をノードA304に移す。そして、車両が目的地に到着すると、制御をノードA305に移す。そして、対話シーケンスが完了する。
【0030】
なお、前述の状態遷移モデルに基づく対話シーケンスは、前述の自動生成により作成されたものであり、XMLベースの記述言語で記述される。
【0031】
以上述べたように、本発明の実施形態は、道案内のように目的地が確定した後に対話シーケンスを生成しなければならないような事例に対して特に効果を発揮する。
【0032】
図12は図9の対話の区間Bにおいて、ドライバーが駐車場情報を問い合わせた場合の対話シーケンスについて説明する図、図13は対話シーケンスと実際の運転状況との対応を説明する図、図14は図13に示す対話シーケンスを状態遷移モデルにより表現した図である。図12において注意すべきことは、駐車場情報問い合わせは、区間A、B、Cのいずれの区間においても起こり得ることである。
【0033】
図14に示す状態遷移モデルにおいて、ノードA501、A502は駐車場案内の対話シーケンスを表現しており、ノードA501に制御が移ると、「お店の裏手に駐車場があります」と案内してノードA502に制御を移して対話を完了する。
【0034】
さて、前述の例では、区間A、B、Cに対応するノードから、ノードA501に有向リンクにより接続され、「駐車場はある?」といった駐車場案内の問い合わせ発話をドライバーが発したとき、制御は、前記有向リンクを辿ってノードA501に到達する。この時点で、対話制御プログラムは、復帰先記憶手段にどのノードから制御が移ったかを記憶する。復帰先記憶手段は、いわゆるスタックで構成される。ここでは、区間B走行中に駐車場問い合わせが発生したので、復帰先としてA303がpushされる。「お店の裏手に駐車場があります」という案内をした後、制御はノードA502に移る。駐車場案内対話が終了すると、対話プログラムは、復帰先記憶手段から復帰先をpopし、ノードA303に制御を復帰させる。
【0035】
なお、前述の駐車場案内対話シーケンスも前述した自動生成機能により自動的に生成したものである。また、道案内対話シーケンスの各ノードA302〜A304から、ノードA501への有向リンクの接続も、自動生成することが可能である。具体的には、XMLベースの記述言語で、有向リンクをどのノードからどのノードに接続するか、また、どのような発話が入力されたとき、その有向リンクを辿るかを記述する。この機能により、ある対話の最中に、違う対話を割り込ませる対話シーケンスの自動生成が可能となる。さらに、復帰先記憶手段としてスタックを用いることにより、道案内の最中に寄り道情報を尋ね、さらに寄り道情報を尋ねている最中に天気情報を尋ねるというような2回以上の対話の割り込みも可能となる。このような複雑な対話シーケンスの制御は、各タスクに関するデータ(タスクドキュメント)801をデータとして、タスク管理処理802により、具体的に必須な対話シーケンスに表現される。本発明の実施形態は、その対話シーケンスに基づいて、各タスクにおいて出現するダイアログが、図示しない店名辞書、地名辞書等を利用して自動生成されること、また、各対話シーケンスを表現するノード間の接続を自動生成するという手法を用いることにより、前述で説明したような音声による案内を行うことができるものである。
【0036】
図15はVoiceXMLを用いた対話シーケンスの内部表現の一例を説明する図である。ここでは、県名と地名とを入力することにより、その土地の天気の情報を入手するタスクを前提としている。そして、図示例では、「お天気情報サービスへようこそ」というシステムからのプロンプトを開始として、ユーザは県名と地名とを音声で入力することにより、知りたい土地の天気の情報を入手することになる。
【0037】
図16は3階層構造による対話管理部の構成を示すブロック図である。図16において、1001は対話コーパス、1002は対話ドキュメント、1003は対話内容管理部、1004はVoiceXML生成部であり、他の符号は図8の場合と同一である。
【0038】
図16に示す例は、VoiceXMLの自動生成を可能とする対話管理部の構成を示しており、実際には、データ制御部と記録部とを有するシステムとして構成され、制御部によって処理が制御される。3階層構造は、タスク管理部802、対話内容(対話ダイアログ)管理部1003、及び、VoiceXML生成部1004である。そして、有人システムとユーザとによる実際の対話を記録した対話コーパス1001を基に事前作成されたタスクドキュメント801と対話ドキュメント1002とを使用して、タスク管理部802は、各タスクにより話される対話シーケンスを明記する。その後、対話内容管理部1003は、対話シーケンスをより具体化し、詳細な対話内容(対話ダイアログ)を対話ドキュメント1002を基にして表記する。最後に、VoiceXML生成部1004は、音声入力処理の必要なVoiceXMLモジュールを自動生成する。
【0039】
ここで、処理部とデータ部との詳細に関して説明する。対話コーパス1001は、例えば、図9に示されるような道路を走行中のドライバーが音声対話により目的地(を設定した時の対話シーケンス等)の詳細をテキストに書き起こしたものであり、話題(タスク)の種類に従って、どのような具体的な対話シーケンスとなっているかを整理した情報をも有する。タスクドキュメント801は、対話コーパス1001に格納されている情報の中から、話題(タスク)に関する情報を纏めたものである。
【0040】
図17はタスクドキュメント801の例と対話ドキュメント1002の例とを説明する図である。タスクドキュメント801には、サービス名として「車載情報サービス」、具体的話題タスクとして、タスク1:天気予報、タスク2:観光案内等のように、車載情報サービスで必要となる各種タスクの詳細が、単独タスクと、結合タスクとのような形で明記されている。対話ドキュメント1002には、各タスクに使用される具体的な対話ダイアログの詳細が明記されている。例えば、天気予報のタスク1には、応答ダイアログ、時間ダイアログ、場所ダイアログ等のように、各対話で使用される具体的な対話(ダイアログ)の詳細が明記されている。タスク管理部802は、音声認識で得られた結果を基に、現在ユーザ(ドライバー)が、どの話題に関して入力しているのかを判断し、タスク手順を明記して、次の対話内容管理部1003に送る。対話内容管理部1003は、対話ドキュメント1002の情報に基づいて、具体的な対話内容の手順を生成する。そして、生成された対話シーケンスを基に、音声認識を稼動させるためのVoiceXML記述言語による表現が自動生成されることになる。
【0041】
前述で説明した本発明の実施形態に含まれる各種の機能部及びその処理は、プログラムとして構成することができ、このプログラムは、HD、DAT、FD、MO、DVD−ROM、CD−ROM等の記録媒体に格納して提供することができる。
【0042】
図18は本発明が適用されたカーマルチメディアシステムの機能構成を示す図である。
【0043】
カーマルチメディアシステムを構成する上での必須な要件としては、図18に示すように、ヒューマンインタフェース、マシンインタフェース、基盤技術の3項目を挙げることができる。これらの中で、将来の車載情報サービスシステム、いわゆる、カーマルチメディアを実現する重要な要素として、音声によるインタフェースがある。前述した本発明の実施形態は、このような重要な要素としての音声を用いたインタフェースで、必須となる音声対話の自動生成の手法を提供することができる。
【0044】
【発明の効果】
以上説明したように本発明によれば、車の中に居ながら道路の混雑状況、旅行先、施設等の利用状況及び音楽配信等の各種車載情報サービスを、安価に、かつ、効率的入力、使い勝手よく利用することが可能となる。
【図面の簡単な説明】
【図1】本発明の応用例の1つであるカー・マルチメディアシステムの概念と現行のカーナビシステムとを説明する図である。
【図2】音声による情報サービスを行う場合の本発明の一実施形態による端末とネットワークとの構成を示す概念図である。
【図3】音声インタフェースを利用した車載情報サービスシステムの構成例を示す図である。
【図4】 VoiceXMLゲートウェイを具備した情報サービスシステムの構成例を示す図である。
【図5】音声インタフェース機能を備えた車載情報サービス等に使用される音声対話システムの構成例を示すブロック図である。
【図6】図5における音声認識部の機能構成例を示すブロック図である。
【図7】音声認識・合成を行う端末装置の構成例を示すブロック図である。
【図8】本発明の実施形態による対話管理を用いた車載サービスにおける対話ダイアログの生成について説明する図である。
【図9】道路を走行中のドライバーが音声対話により目的地(ここでは四川楼)を設定したときの対話シーケンスを説明する図である。
【図10】対話シーケンスと実際の運転状況との対応を説明する図である。
【図11】図10に示す対話シーケンスを状態遷移モデルにより表現した図である。
【図12】図9の対話の区間Bにおいて、ドライバーが駐車場情報を問い合わせた場合の対話シーケンスについて説明する図である。
【図13】対話シーケンスと実際の運転状況との対応を説明する図である。
【図14】図13に示す対話シーケンスを状態遷移モデルにより表現した図である。
【図15】 VoiceXMLを用いた対話シーケンスの内部表現の一例を説明する図である。
【図16】3階層構造による対話管理部の構成を示すブロック図である。
【図17】タスクドキュメント801の例と対話ドキュメント1002の例とを説明する図である。
【図18】本発明が適用されたカーマルチメディアシステムの機能構成を示す図である。
【符号の説明】
200 ユーザ
201 端末
202 音声ポータルゲートウェイ(Gateway)
203 ネットワーク
204〜206 情報サービスWebセンタサーバ
301 車載システム
302 音声ポータルシステム
303 ネットワーク
3011 車載端末
3012 雑音抑圧処理部
3013 音声認識部
3014 対話管理部
3015 VoiceXMLインタプリタ
3016 オーディオ、カーナビ等の車載機器
401 携帯電話機
402 電話網
403 VoiceXMLゲートウェイ(あるいは音声ポータルゲートウェイ)
405、406 ホームページ
407 音声ポータル
408 パソコン(PC)
409 HTML
4010 インターネット
501 入力音声
502 雑音抑圧部
503 音声認識部
504 対話管理部
505 VoiceXML記述言語
506 音響モデル単語辞書
507 対話コーパス
508 ユーザプロファイル
509 認識結果
602 音声入力部
603 音声分析部
604 音声検出部
605 照合部
606 HMM連結部
607 HMM音響モデル
608 単語辞書
609 判定部
701 A/D変換モジュール701
702 システムコントローラ
703 ROM
704 マイコン
705 RAM
706 バス
707 RS232CI/F
708 D/A変換モジュール
801 タスクドキュメント
802 タスク管理処理
803 天気予報VoiceXML
804 観光ガイドVoiceXML
805 催し物ガイドVoiceXML
806 応答ダイアログ
807 時間ダイアログ
808 場所ダイアログ
809 会場ダイアログ
8010 時間辞書
8011 地名辞書
8012 会場名辞書
1001 対話コーパス
1002 対話ドキュメント
1003 対話内容管理部
1004 VoiceXML生成部

Claims (9)

  1. 音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声により対話する音声対話システムにおいて、前記センターは、端末からの音声入力の内容に応じて、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む対話シーケンスを生成し、また、状態情報及び音声入力に基づいて前記対話シーケンスを変更する手段を有し、前記変更は、第1の対話シーケンス実行中に入力される所定の音声入力に基づいて第2の対話シーケンスを生成すると共に、前記第1の対話シーケンスから第2の対話シーケンスへの分岐、及び、前記第2の対話シーケンスから前記第1の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第1の対話シーケンスのどのノードから前記第2の対話シーケンスへ分岐したかを記憶することを特徴とする音声対話システム。
  2. 前記センターは、変更された音声入出力の対話シーケンスの情報を、通信で結合された端末へ転送する手段を有すること特徴とする請求項1記載の音声対話システム。
  3. 前記端末は、音声入出力部、音声分析部、音声認識部、対話管理部を備えて構成され、前記センターは、前記端末と連携動作する対話管理部、音声分析部、音声認識部を備えて構成されたことを特徴とする請求項1または2記載の音声対話システム。
  4. 前記センターに備えられる対話管理部は、対話シーケンスをXMLベースの記述言語により表現することを特徴とする請求項3記載の音声対話システム。
  5. 前記センターに設けられる対話管理部は、XMLベースの記述言語による対話シーケンスを、前記端末からの音声入力の内容に応じて変更して前記端末にダウンロードすることを特徴とする請求項4記載の音声対話システム。
  6. 前記センターに設けられる対話管理部は、対話タスクに関するデータから対話シーケンスの表現を生成するタスク管理手段と、前記対話シーケンスに基づいてより詳細な対話ダイアログを生成する対話内容管理手段と、前記対話ダイアログをVoiceXML記述言語に表現するVoiceXML生成手段とによる少なくとも3階層構造の対話管理手段を備えて構成されたことを特徴とする請求項4または5記載の音声対話システム。
  7. 前記端末にダウンロードする情報は、対話シーケンス表記手段により表記された情報であることを特徴とする請求項5記載の音声対話システム。
  8. 音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声による対話を行う音声対話方法において、前記センターは、前記端末から入力される話題の項目を認識し、該話題の項目の詳細情報を、複数の話題の項目について各項目間の関係を含む詳細情報、及び、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む前記各項目毎の対話シーケンスとを記録している記録部から読み出し、前記読み出された詳細情報に基づいて、前記項目に対応する対話シーケンスを前記記録部から読み出し、前記読み出した対話シーケンスを合成し、この対話シーケンスを前記端末にダウンロードすることにより、端末との間での音声による対話を行う方法であり、前記対話は、対話シーケンスを構成する状態情報及び音声入力に基づいて前記対話シーケンスを変更して行われ、前記変更は、第1の対話シーケンス実行中に入力される所定の音声入力に基づいて第2の対話シーケンスを生成すると共に、前記第1の対話シーケンスから第2の対話シーケンスへの分岐、及び、前記第2の対話シーケンスから前記第1の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第1の対話シーケンスのどのノードから前記第2の対話シーケンスへ分岐したかを記憶することを特徴とする音声対話方法。
  9. 端末から入力される話題の項目を認識するステップと、該話題の項目の詳細情報を、複数の話題の項目について各項目間の関係を含む詳細情報、及び、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む前記各項目毎の対話シーケンスとを記録している記録部から読み出すステップと、前記読み出された詳細情報に基づいて、前記項目に対応する対話シーケンスを前記記録部から読み出すステップと、前記読み出した対話シーケンスを合成するステップと、この対話シーケンスを前記端末にダウンロードするステップとをコンピュータに実行させて対話を行わせるプログラムであり、前記対話は、対話シーケンスを構成する状態情報及び音声入力に基づいて前記対話シーケンスを変更して行われ、前記変更は、第1の対話シーケンス実行中に入力される所定の音声入力に基づいて第2の対話シーケンスを生成するステップと、前記第1の対話シーケンスから第2の対話シーケンスへの分岐、及び、前記第2の対話シーケンスから前記第1の対話シーケンスへの復帰を制御するステップと、前記復帰を制御するために前記第1の対話シーケンスのどのノードから前記第2の対話シーケンスへ分岐したかを記憶するステップとをコンピュータに実行させるプログラムであることを特徴とするプログラム。
JP2002122491A 2002-04-24 2002-04-24 音声対話システム及び音声対話方法 Expired - Fee Related JP4174233B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002122491A JP4174233B2 (ja) 2002-04-24 2002-04-24 音声対話システム及び音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002122491A JP4174233B2 (ja) 2002-04-24 2002-04-24 音声対話システム及び音声対話方法

Publications (2)

Publication Number Publication Date
JP2003316385A JP2003316385A (ja) 2003-11-07
JP4174233B2 true JP4174233B2 (ja) 2008-10-29

Family

ID=29538092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002122491A Expired - Fee Related JP4174233B2 (ja) 2002-04-24 2002-04-24 音声対話システム及び音声対話方法

Country Status (1)

Country Link
JP (1) JP4174233B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4791699B2 (ja) * 2004-03-29 2011-10-12 中国電力株式会社 業務支援システム及び方法
JP4470711B2 (ja) 2004-11-25 2010-06-02 株式会社デンソー 情報サービスシステム
WO2007013521A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
KR20080052997A (ko) 2006-12-08 2008-06-12 현대자동차주식회사 인간과 자동차 간의 인터페이스 시스템
JP5461967B2 (ja) * 2009-11-19 2014-04-02 株式会社富士通アドバンストエンジニアリング 音声シナリオ生成プログラム及び音声シナリオ生成装置
JP2013206319A (ja) * 2012-03-29 2013-10-07 Toyota Motor Corp 車両用遠隔支援システム
JP5753212B2 (ja) * 2013-03-19 2015-07-22 シャープ株式会社 音声認識システム、サーバ、および音声処理装置
JP6115941B2 (ja) * 2013-03-28 2017-04-19 Kddi株式会社 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
JP6621593B2 (ja) * 2015-04-15 2019-12-18 シャープ株式会社 対話装置、対話システム、及び対話装置の制御方法
CN111382237B (zh) * 2018-12-27 2024-02-06 北京搜狗科技发展有限公司 一种数据处理方法、装置及任务对话系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3844367B2 (ja) * 1994-05-17 2006-11-08 沖電気工業株式会社 音声情報通信システム
JP3531342B2 (ja) * 1996-03-29 2004-05-31 ソニー株式会社 音声処理装置および音声処理方法
JP3037902B2 (ja) * 1996-10-07 2000-05-08 三菱電機株式会社 音声対話システム
JP3472194B2 (ja) * 1999-05-25 2003-12-02 日本電信電話株式会社 自動応答方法及びその装置並びにそのプログラムを記録した媒体
JP2001056694A (ja) * 1999-08-19 2001-02-27 Denso Corp 対話型ユーザインタフェース装置
JP2002033832A (ja) * 2000-07-18 2002-01-31 Ntt Docomo Inc サービス提供システム、ボイスゲートウェイ、コンテンツサーバおよびサービス提供方法
JP2002073080A (ja) * 2000-09-01 2002-03-12 Fujitsu Ten Ltd 音声対話システム

Also Published As

Publication number Publication date
JP2003316385A (ja) 2003-11-07

Similar Documents

Publication Publication Date Title
US9558745B2 (en) Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
Kuhn et al. Hybrid in-car speech recognition for mobile multimedia applications
CN103067443B (zh) 用于接到移动设备的基于语音的接口的服务识别和启动
CN103152702B (zh) 用于移动设备的基于语音的用户接口
CN102543077B (zh) 基于语言独立女性语音数据的男性声学模型适应方法
US9302677B2 (en) Methods for providing operator support utilizing a vehicle telematics service system
US20110010171A1 (en) Singular Value Decomposition for Improved Voice Recognition in Presence of Multi-Talker Background Noise
US9484027B2 (en) Using pitch during speech recognition post-processing to improve recognition accuracy
US9564120B2 (en) Speech adaptation in speech synthesis
JP4174233B2 (ja) 音声対話システム及び音声対話方法
US20140067392A1 (en) Centralized speech logger analysis
CN103124318B (zh) 开始免提会议呼叫的方法
US8583441B2 (en) Method and system for providing speech dialogue applications
CN102693725A (zh) 依赖于文本信息语境的语音识别
KR102170088B1 (ko) 인공지능 기반 자동 응답 방법 및 시스템
JP2006317573A (ja) 情報端末
US20060173689A1 (en) Speech information service system and terminal
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations
JP2002101315A (ja) リモコン装置および遠隔制御方法
JP4890721B2 (ja) 音声対話システムを動作させる方法
JP2002150039A (ja) サービス仲介装置
JP2021096717A (ja) 情報提供装置、情報提供方法、およびプログラム
JP3645104B2 (ja) 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP2013092948A (ja) 情報提供装置、および情報提供方法
JP2004301698A (ja) 車載情報サービスシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061129

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20061222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080709

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080818

R150 Certificate of patent or registration of utility model

Ref document number: 4174233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees