JP2006099424A

JP2006099424A - 音声情報サービスシステム及び音声情報サービス端末

Info

Publication number: JP2006099424A
Application number: JP2004284603A
Authority: JP
Inventors: Nobuo Hataoka; 信夫畑岡; Ichiro Akahori; 一郎赤堀; Masahiko Tateishi; 雅彦立石; Teruko Mitamura; テルコミタムラ; Eric Nyberg; エリック・ナイバーグ
Original assignee: Hitachi Ltd; Denso Corp
Current assignee: Hitachi Ltd; Denso Corp
Priority date: 2004-09-29
Filing date: 2004-09-29
Publication date: 2006-04-13
Also published as: US20060173689A1

Abstract

【課題】車載情報サービスシステムにおいて、音声入力による対話が自由に、かつ効率的にできることを可能とするユーザインタフェース方式、及び装置を提供することにあり、さらに、センターとの通信遮断にも対応できるシステム構成を提供する。また、端末からのセンターへのアクセスは、常時ではなく、適宜必要に応じて行うことが可能なシステム構成を提供する。
【解決手段】端末側の構成として、柔軟な対話管理部１０６とアプリケーション管理を行うタスク管理部１０７とを分離する。更に、ユーザインタフェース、対話管理、タスク管理、アプリケーションの４層構成としたことを特徴とする。又、センターからのアプリケーション情報の取り込みを、必要に応じて行う手段を設ける。
【選択図】図１

Description

本発明は、音声入出力機能を有する端末を用いたネットワーク型の情報サービスシステムにおいて、効率的に端末とセンターとの機能分担を行う手段を提供する装置、あるいはソフトウェア及びインターフェイスに関する。

従来の音声を利用した各種情報サービスシステム、特にカーナビシステムは、サーバを備えたネットワーク型の構成となっていない結果、自由にセンター側の情報入手が出来ないか、あるいはネットワーク型構成でも、音声入力の対話シーケンスが一意で、自由な音声入力ができないという問題があった。

ネットワーク型で音声対話を実現する技術として、VoiceXMLを含めて3階層構造を用いた対話管理システム技術がある。具体的には、対話タスク等の遷移を記載したScenarioXML、個別タスクの対話シーケンスを記述したDialogXML、音声対話システムでの対話記述言語VoiceXMLの3階層で構成される。（例えば特許文献１、非特許文献１参照）。しかし、本公知例は、アプリケーションの遷移には対応できるものの、ユーザとの対話管理とサーバ側のアプリケーションタスクデータへのアクセスとが、同じ対話管理処理部で実行されていた結果、サーバ側とのアクセス管理に関してのきめ細かな管理が出来ないという問題、さらにはタスク毎に異なるインタフェース、及びデータフォーマット対応が難しいなどの問題があった。また、常時、端末とサーバとの通信を必要とした構成となっており、通信コストが必要以上にかかるという問題があった。

又、分野移行性を高めるために一連の対話シーケンスを対話タスクとしてまとめ、該対話タスクを階層構造にして格納した対話タスク階層データベースとしたシステムもあるが、対話管理とタスク管理との分離した構成とはなっていない（例えば、特許文献２参照）。
特開2003-316385号公報特開2003-5786号公報「音声対話管理システムCAMMIAの開発」著者：畑岡信夫、他、出典：（社）日本音響学会講演論文集1-6-21、2003年9月

本発明の目的は、前記従来の問題を解決して、例えば車載情報サービスシステムにおいて、音声入力による対話が自由に、かつ効率的にできることを可能とするユーザインタフェース方式、及び装置を提供することにあり、さらに、センターとの通信遮断にも対応できるシステム構成を提供する。また、端末からのセンターへのアクセスは、常時ではなく、適宜必要に応じて行うことが可能なシステム構成を提供する。

上記目的を達成するために、本発明ではまず第１に、端末側の構成として、柔軟な対話管理部とアプリケーション管理を行うタスク管理部とを分離した構成としたことを特徴とする。第2に、ユーザインタフェース、対話管理、タスク管理、アプリケーションの4層構成としたことを特徴とする。さらに、第3として、センターからのアプリケーション情報の取り込みを常時ではなく、適宜必要に応じて行う手段を設けたことを特徴とする。

第１と第２、及び第3の手段は、端末からの音声入力が、自由な対話シーケンスに従って、自由に入力できることを可能とするように、作用する。

本発明の結果、端末からの音声入力が、自由な対話シーケンスに従って、自由に入力できることを可能とする効果がある。また車から道路混雑状況や、旅行、施設等の利用状況、及び音楽配信などの各種車載情報サービスを、使いやすく、安価で、かつ効率よく受けることが可能となる効果がある。さらに、センターとの通信遮断に対しても頑強なシステムを構築でき、かつ通信コストを低減できる効果がある。

以下、本発明の実施例を詳細に説明する。

図１は、本発明の基本となるシステム構成を示す図である。特開2003-316385号公報のシステム構成は、対話管理とアプリケーションタスクに関係する対応を、全て対話管理という処理の中で行う構成となっている。それに対して、本特許は、対話管理部とタスク管理部とが分離し、連携したシステム構成となっている。ユーザからの入力は、音声、あるいはタッチやボタン操作等のアクションによりなされる。いわゆる、マルチモーダルな入力を可能としている。これは、車載情報サービスでのインタフェースを想定している。端末100は、ユーザインタフェース層、対話管理層、タスク管理層、アプリケーション層の4階層で構成されている。以下、端末100での処理に関して詳細に述べる。ユーザからの音声入力は、音声認識部(ASR)101にて音声認識処理が実行され、認識結果はVoiceXMLインタプリタVXM103経由で、対話管理部106へ入力され、VoiceXML形式で記載された対話シナリオに基づいて、対話処理が実行される。端末からの対話出力はVXI103を経由して、音声合成処理部(TTS)102にて、ユーザへ音声出力される。ユーザからの入力は、タッチパネル104を触るとかボタン105と押すとかのアクションとなる場合も想定している。対話管理部106は、ユーザとの音声による対話、あるいはアクションへの対応を行う。具体的には、アプリケーションタスクに則って、対話シナリオが決まり、それに従い対話管理が行われる。対話シナリオは、後述図２〜図５で説明される構成となっている。タスク管理部は、対話管理部からの情報を受けて、タスク遷移が起こった場合は、該アプリケーションタスクへのアクセスを行い、該タスクに関与する対話シナリオとデータとを読み込み、VoiceXML形式にて、対話管理部へ転送して、ユーザの対話に対応する構成となっている。

タスク管理の処理の詳細は、後述図６でなされるが、データベースは、取り上げるアプリケーションに依存したデータ内容とデータ構造になっている。例えば、ナビ応用では、運転している近辺の地図データと混雑情報などがあり、運転地域が移動する毎に、前のデータは消去され、あらたな地図データと混雑情報が、センターからダウンロードされて、端末のローカルDB 111に格納される。この際に、更新時刻と使用回数等の情報も同時に付随情報として記憶される。

アプリケーション層としては、図１の例では、ナビ応用108、テレマティクス応用109、その他応用110が設定されている。それぞれ、必要なデータが端末側にローカルデータ111として格納されている。該データは、必要応じて、ネットワーク112を経由して、各対応タスクサーバ112へアクセスし、リモートデータベースから、ローカルデータベースへ転送され、記憶される。タスク管理部からのネットワーク経由でのサーバアクセスは、必要に応じて行われ、その時だけ、端末とセンターサーバとの通信が実行される。このように対話管理部とタスク管理部を分離することで、対話管理部は、ユーザとの音声対話とアクション対応を主点に担当し、タスク管理は、アプリケーションタスクデータのアクセスを主点に担当することが可能となり、種々の効果が期待できる。一つは、対話管理部は、ユーザのマルチモーダルな入出力に対して、きめ細かな対応が可能であること、二つ目には、対話管理部と切り離した構成の中で、タスク管理部は、ネットワーク通信の状態確認を担当することになり、通信遮断への対応ができるシステム構成となっている。さらに、第3番目の効果は、タスク管理部は、入出力フォーマットが異なる種々のアプリケーションタスクへの対応もきめ細かにできるということある。また、第4番目の効果としては、必要な時のみに、端末とセンターとの通信を行うという構成により、通信コストを大幅に抑えられるというVoiceXML 205の3階層で構成されている。3階層の関係は、ScenarioXML 201をスタートとして、ScenarioXMLコンパイラ202で、DiaolgXML 203が自動的に生成され、さらにDialogXMLコンパイラ204にて、VoiceXML 205が自動的に生成される。特開2003-316385号公報での3階層構造の対話管理でのシナリオXMLは、本発明のタスク管理の一部処理（例えば、アプリケーションデータベースへのアクセス等）を兼ねた構成となっているが、本発明では、対話タスク推移に関する処理機能があれば良い構成となっている。つまり、対話タスク推移の変更までを対話管理で管理して、それ以上の処理、つまりはデータベースの検索・アクセス・データ取得等はタスク管理にて管理する。

図３は、ScenarioXMLの一実施例を示している。シナリオXMLは、例えば、車載情報サービスでは、天気予報、レストラン案内等の各サービス（タスクと呼ぶ）に関する外部辞書の呼び込みや、各タスク間の関係を記載したXMLベースのテキスト情報である。例えば、図３（A）はループと外部データベースへのアクセスが可能な言語構成となっている。図３（B）は、音声認識文法grammar src等の外部データへのアクセスに関する詳細な記述と、共通アークの例を示している。図３では、共通アークは、help機能であり、<jumplist>と</jumplist>の間に記述され、何回も定義が可能な構造となっている。

図４は、3階層構造の対話管理方式における、DialogXMLの一実施例を示している。この例では、ルートガイダンスの具体的なシステムからのプロンプトである「Go straight on Fifth Avenue」が記述され、それに対応したユーザの発声を認識する音声認識文法「grammar src="next。gram"type」が記述されている。このように、DialogXMLは、タスク内での具体的な対話の内容を記載したテキストであり、作成にあたっては、実際の対話コーパスを収集して、多岐にわたった表現も表記して、実際の音声入力に対応する必要がある。

図５は、3階層構造の対話管理方式におけるVoiceXMLの一例を示している。VoiceXMLは、W3C(World Wide Web Consortium)にて標準化された音声対話記述言語であり、図５は、天気予報案内タスクでの、具体的な対話フローの内部表現を示している。ここでは、県名と地名を入力することで、その土地の天気予報を入手する。「お天気情報サービスへようこそ。」というシステムからのプロンプトを開始として、利用者は県名と地名を音声で入力することで、知りたい土地の天気情報を入手することになる。DialogXMLをコンパイルして、システムで実行可能なVoiceXMLが自動生成される。

図６は、タスク管理部の処理の詳細を示す図である。対話管理部(DM)とのやりとり601では、タスク推移が起こった場合に、DMからタスク管理部への要求があり、必要なデータ（タスク、対話データ）の探索として、ローカルなデータベース探索602が実施される。タスク推移の判定は、例えば、ユーザの入力する音声、あるいはアクションで、既に設定されているタスク毎のキーワードが入力、あるいは操作された場合に決定する。ローカルデータベースに所望のデータが存在している場合は、データをDMへの転送する処理を、DMとのやりとり601を介して実行される。一方、ローカルデータベースに必要なデータが存在しない時には、ネットワーク経由でセンターサーバへのアクセス603が実行される。センターからのデータ転送があった場合は、データ（タスク、対話データ）が、ローカルデータベースに格納され、内容をDMへ転送されることになる。センターとの交信がタイムオーバとなった場合は、タスク管理部から対話管理部へその後の処理に冠する判断を確認604が行われ、キャンセルであれば、初期状態の対話管理部とのやりとり待ちに状態となる。一方、再試行が対話管理部からの指示であれば、設定回数までのセンターへの再アクセス605が実行される。再アクセスの結果、データが確保されれば、ローカルデータベースへの格納と対話管理部へのデータ転送が実施される。それ以外は、タイムアウトとして、初期状態へ戻る。タスク管理部の処理が行われてる間で、必要な情報を入手している間は、対話管理部は、適宜、ユーザへ、情報を検索中である旨のアナウンスを行い、待機することにすることができる。

以上の処理を行うことで、ネットワーク交信の遮断があった場合でも、センターとの再アクセスが可能となり、必要なデータ入手ができるという特徴がある。

図７は、本発明の結果可能になるダウンロード機能を具備した端末のアーキテクチャの一実施例を示す図である。マイコン等のCPU701、リアルタイムOS702、Java（登録商標）VM 703、OSGI(Open Service Gateway Initiative)フレームワーク704、端末での汎用ブラウザ705、WWWサーバアクセスソフト706が基本的なプラットフォームとしてある。本発明に関与する個所としては、WWWサーバアクセス基盤707に依存した形で、タスク管理ソフト708、各種アプリケーションソフトが構成されている。各種アプリケーションとしては、VXI等も含んだ対話管理ソフト709、テレマ制御710、ナビ制御711、車両制御712がある。センターとのアクセス、データのダウンロード機能として、ダウンロード管理用アプリ713、ダウンロードAPP(Application Program Package)714が備わってる。図１との関係は、対話管理ソフト709が、y-ザインタフェース層と対話管理層に対応し、タスク管理ソフト708は、タスク管理層、テレマ制御710、ナビ制御711が、アプリケーション層に対応している。

図８は、図１のシステム構成において処理が実施されて、自動生成されたVoiceXMLを実行した具体的な音声対話シナリオの一実施例を示す。サービス稼動時には、この音声対話シナリオに従い、システムは利用者からのシステム稼動開始の情報を得て、カーナビではまず、通常の目的地設定タスク801が開始される。図８では、システムからの要求である「ご用件をどうぞ。」というプロンプトで、ユーザが「四川楼に行きたい。」と入力することにより、目的地が確定される。その結果、目的地までの対話シナリオが動的に設定される802、道案内タスク803が実行される。さらに、本実施例では、ユーザからの「駐車場はある？」という問いかけにより、システムは柔軟なタスクの遷移処理804を行い、駐車場案内タスク805へ移行し、駐車場の有無の案内を出す。その後、システムは、元の道案内タスク806へもどり、ユーザに引き続き、道案内を行う。本発明は、以上述べた対話シーケンスを前もって作成して、案内サービスを実現することを目的としている。

具体的に、音声インタフェースを利用した車載情報サービスシステムの一構成を図９に示す。サービスの内容は、ルートガイダンスと天気予報サービスである。車載システム901から、車載端末9011の音声インタフェースを利用して、目的地までの距離と目的地の天気に関する情報を、センター側のサーバにアクセスすることで入手を行う。音声インタフェースを実現する音声認識部9013と対話管理部9014は、車載端末合と音声ポータル側の、どちらにもある事もあり、効率的な連携をもって、ユーザであるドライバーへ、必要な情報を供給する。音声認識部の前段に、車載利用に耐えるような雑音抑圧の前処理9012が具備されることが多い。さらに、VoiceXMLインタプリタ9014も、車載あるいは音声ポータルセンター側の両方に具備されている。音声ポータルセンター902の構成は、少なくても対話管理部と、音声認識、及び音声合成部を具備し、対話シーケンスはVoiceXML記述言語にて実現されている例を示している。車載端末の音声処理部と音声ポータルでの音声処理部の連携は、例えば、車載オーディオ機器3015の操作等、ネットワークに接続する必要がないサービス要求に関しては、車載端末だけで処理を完了させて、時々刻々変わる道路情報等は、センターへ接続して、WWW等903のネットワークを介して情報を入手する。この際、音声ポータルゲートウェイ等で、音声認識処理、対話管理処理等を分担連携することが、通信料の削減や通信線路の音声の歪み回避等の面から、重要となっている。

図１０は、本発明の結果実現されるVoiceXMLを使用した音声サービスの一般的なシステム構成を示す。VoiceXMLインタプリタ等で実現されるVoiceXMLゲートウェイを具備したシステム構成を示している。インタネット等のネットワークへ接続してサービスを受ける構成として、従来はパソコン（ＰＣ）1008を入力とする方法が主流であった。この場合は、インタネット1010に接続されているコンテンツに関するホームページは、通常のＨＴＭＬ1009で記述されている。しかし、携帯電話等1001の入力手段を利用する場合は、電話網1002を利用して、VoiceXMLゲートウェイ（あるいは音声ポータルゲートウェイ）1003を介して、VoiceXMLで記述されているホームページ1005、1006にアクセスすることになる。VoiceXMLゲートウェイ1003は、VoiceXMLインタプリタや音声認識、音声合成、DTMF等の処理モジュール1004で構成されている。

本発明の基本構成を示すシステム構成図である。 3階層構造による対話管理部の構成を示す図である。 ScenarioXMLの一実施例を示す図である。 DialogXMLの一実施例を示す図である。 VoiceXMLを用いた対話シーケンスの内部表現の一例を示す図である。タスク管理部の処理を示す図である。システムアーキテクチャを示す図である。本発明の結果可能となる音声対話の流れの例を示す図である。音声インタフェースを利用した車載情報サービスシステムの一構成を示す図である。 VoiceXMLゲートウェイを具備したシステム構成を示す図である。

符号の説明

１００端末/クライアント
１０１音声認識ASR
１０２音声合成TTS
１０３ VoiceXMLインタプリタVXI
１０４タッチパネル
１０５ボタン
１０６対話管理部
１０７タスク管理部
１０８ナビ応用
１０９テレマ応用
１１１ローカルデータベース
１１２ネットワーク
１１３サーバ群

Claims

少なくとも音声入力機能を具備した端末と、通信手段を介してネットワークによりサービスセンターに結合している音声情報サービスシステムにおいて、端末構成として、使用者と端末との対話処理状況を管理する対話管理部と、サービスタスク状況を管理するタスク管理部とを分離して具備することを特徴とする音声情報サービスシステム。
請求項１記載の音声情報サービスシステムにおいて、端末構成は、少なくともユーザインタフェース層、対話管理部を主体とする対話管理層、タスク管理部を主体とするタスク管理層、アプリケーション層の4階層を備えた音声情報サービスシステム。
請求項１、あるいは請求項２記載の音声情報サービスシステムにおいて、対話管理部をシナリオＸＭＬ、ダイアログＸＭＬ、VoiceXMLの3階層構造で構成されることを特徴とする音声情報サービスシステム。
請求項１、あるいは請求項２記載の音声情報サービスシステムにおいて、タスク管理部は、対話管理部からの情報により、対話の状況とタスク変更状況を検知し、かつ種々のアプリケーションタスクに対応するインタフェースとサービスセンターからのタスク情報のダウンロード状況を管理する手段を具備することを特徴とする音声情報サービスシステム。
上記対話管理部においてタスクが推移した場合に上記タスク管理部に通知し、
上記タスク管理部は通知されたタスクに関するデータをローカルデータベース内で検索し、検索された場合には該検索されたデータを上記対話管理部に送出し、検索されなかった場合にはネットワークを介して該タスクに関するデータを取得することを特徴とする請求項１記載の音声情報サービスシステム。
ネットワークを介して外部サービスセンターに接続する通信部と、
使用者との対話処理状況を管理する対話管理部と、
上記対話のタスク状況を管理するタスク管理部と、
上記対話に必要な情報を記録したデータベースを有し、
上記対話管理部はタスクが推移した場合に上記タスク管理部に通知し、
上記タスク管理部は通知されたタスクに関するデータを上記データベース内で検索し、検索された場合には該検索されたデータを上記対話管理部に送出し、検索されなかった場合には上記通信部を介して上記外部サービスセンターから該タスクに関するデータを取得することを特徴とする音声情報サービス端末。