JP2005037662A

JP2005037662A - 音声対話システム

Info

Publication number: JP2005037662A
Application number: JP2003274254A
Authority: JP
Inventors: Seiichi Furuta; 誠一古田; Ichiro Akahori; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2003-07-14
Filing date: 2003-07-14
Publication date: 2005-02-10

Abstract

【課題】ネットワーク上において利用可能なサービスに関する操作性を向上するとともに、使い勝手の悪化を防止すること。
【解決手段】提供されるサービスに関する操作のための音声対話シナリオを蓄積する蓄積部３１と、この蓄積部３１に蓄積された音声対話シナリオに従って、音声の出力および、入力された音声の認識を制御する音声対話シナリオ解釈実行部３０を備える。音声対話シナリオ内には、端末２０の音声認識部２５とセンター１０の音声認識部１２とを切り替えるための選択子が記述される。従って、認識すべき入力音声の難易度に応じて端末２０とセンター１０の音声認識を使い分けることが可能になる。このため、全ての音声認識を端末において行なう場合に比較して、センターから端末にダウンロードすべきデータを削減することができ、結果として、通信時間を短縮でき、使い勝手が向上する。
【選択図】図２

Description

本発明は、提供されるサービスに関して音声対話によって操作する音声対話システムに関する。

インターネット等のネットワーク上において、メールの送受信を始め、交通情報、天気情報、旅行情報（予約や乗り換え案内を含む）、娯楽情報（音楽のダウンロード等）等の各種サービスが利用できるようになり、それらのサービスを利用する際の操作性を向上するためのシステムが検討されている。また、車両内においても、インターネット等のネットワークに接続可能な環境が整いつつある状況から、情報端末を車両内に設置するケースも増加しており、この場合には、その情報端末の操作によって車両の運転操作に支障をきたすことがないようにする必要がある。

このような理由から、サービスを利用する際の操作手段として音声入力を利用することが提案されている。例えば特許文献１には、センターシステムとユーザー端末装置とを備えた音声入力ネットワークサービスシステムが記載されている。このシステムでは、図６に示すように、センターシステム１１０の制御部１１１が、記憶部１１２に格納されている音声入力語彙情報およびディスプレイ表示情報を、通信ネットワーク１３０を介して端末装置１２０に送信する。端末装置１２０の制御部１２１は、通信ネットワーク１３０を経由して受信した音声入力語彙情報をバッファ１２２に蓄積し、音声入力語彙情報中の読み情報および端末音声入力辞書１２５の読み情報を音声認識部１２３に出力する。そして、制御部１２１は、音声認識部１２３から出力された認識結果をアクションに変換して実行する。

このように、特許文献１に記載のシステムでは、音声入力語彙およびそれに対応するアクションをセンター側から取得できるので、端末装置１２０にサービス毎に特定の情報を用意しておく必要がない。また、音声認識の結果として、センターシステム１１０に送信されるデータは、音声認識結果ではなく、その認識した音声に対応するアクションを実行した結果の、発着地指定情報や日付指定情報であるため、システムの動作にとってより適切な形式とすることができる。
特開平８−２２３３０９号公報

しかしながら、例えばメールを作成する場合等、入力音声が長文となる場合には、その入力音声を認識するための音声入力語彙情報も飛躍的に増加する。このため、ネットワーク１３０を介して、それらの語彙情報を取得する場合、通信時間が非常に長くなり、ユーザーにとっての使い勝手が悪くなってしまう。

本発明は、上述した点に鑑みてなされたもので、ネットワーク上において利用可能なサービスに関する操作性を向上するとともに、使い勝手の悪化を防止することが可能な音声対話システムを提供することを目的とする。

上述した目的を達成するために、請求項１に記載の音声対話システムは、端末と、その端末と通信を介して接続されるセンターとから構成され、提供されるサービスに関して音声対話によって操作する音声対話システムであって、
前記センターは、第１の音声認識部を備え、
前記端末は、
音声を入力する音声入力部と、
音声を認識する第２の音声認識部と、
音声を合成して出力する音声合成部と、
提供されるサービスに関する操作のための音声対話シナリオを記憶する記憶部と、
前記記憶部に記憶された音声対話シナリオに従って、前記音声合成部から音声を出力するとともに、前記音声入力部から音声を入力し、かつ、その音声対話シナリオ内に記述された音声認識部選択子に基づいて、音声入力部から入力された音声を認識すべき音声認識部として、前記第１の音声認識部と第２の音声認識部のいずれかを選択する音声対話制御部とを備えることを特徴とする。

まず、請求項１の音声対話システムは、上述したように、音声対話制御部を備え、端末からの音声の出力と、ユーザーからの音声の入力を行なう対話型のシステムとした。これにより、ユーザーは入力すべき音声を特定することが容易になり、操作性を向上することができる。

また、請求項１の音声対話システムでは、センターおよび端末の両方に第１および第２の音声認識部を設け、音声認識処理を分担するように構成した。これにより、例えば、入力音声が長文となり、その認識には強力な音声認識機能が必要となる場合には、センターの第１の音声認識部を利用し、いくつかの定型の音声から入力音声が選択されるような場合には、端末の第２の音声認識部を利用するといった、認識すべき入力音声の難易度に応じて第１の音声認識部と第２の音声認識部を使い分けることが可能になる。このため、従来技術のように、全ての音声認識を端末において行なう場合に比較して、センターから端末にダウンロードすべきデータを削減することができ、結果として、通信時間を短縮することが可能になる。

なお、音声認識に第１の音声認識部と第２の音声認識部とのいずれを用いるかは、音声対話シナリオ内に記述された音声認識部選択子に基づいて選択される。従って、その音声対話シナリオにおいて入力予定の音声に適したいずれかの音声認識部を用いて音声認識を行なうことができる。さらに、音声対話シナリオの途中で、その音声認識部選択子によって音声認識部を変更することも可能であり、この場合、シームレスに、端末における音声認識とセンターにおける音声認識とを切り替えることが可能になる。

請求項２に記載の音声対話システムは、センターは、少なくとも１つのサービス提供者であるコンテンツプロバイダーのサーバーと通信回線を介して接続されており、そのコンテンツプロバイダーの提供するサービスに関する操作のための音声対話シナリオを蓄積する蓄積部を備えることを特徴とする。このように、センターがコンテンツプロバイダーと接続され、かつそのコンテンツプロバイダーが提供するサービスに関する操作のための音声対話シナリオを蓄積しておくことにより、端末のユーザーは、センターを介して種々のコンテンツプロバイダーが提供するサービスを利用することができる。

請求項３に記載したように、端末の音声対話制御部は、所定のサービスに関する操作を開始する際に、そのサービスに対応する音声対話シナリオを蓄積部から取得して、記憶部に記憶することが可能である。このように、必要に応じて、音声対話シナリオを蓄積部から取得することにより、予め、全てのサービスに関して音声対話シナリオを端末側に用意しておく必要がない。但し、使用頻度の高いサービスについては、予め音声対話シナリオを端末側に用意したり、一旦蓄積部から取得した後に、永続的に保存するようにしても良い。

請求項４に記載したように、音声対話制御部は、蓄積部から、さらに、音声認識用の辞書、および／または音声合成用のデータを取得するようにすることが好ましい。これにより、提供されるサービスに関する音声対話シナリオに適した辞書の設定や、出力音声の種類の設定が可能になる。

請求項５に記載したように、前記センターの第１の音声認識部を用いて音声認識を行なう場合、音声対話制御部は、前記音声入力部に入力された音声信号をセンターの第１の音声認識部に送信し、前記第１の音声認識部によって認識された認識結果を受信することが好ましい。これにより、音声対話制御部は、センターの第１の音声認識部を利用した音声認識結果を得られる。この際、極力、通信時間を低減するために、請求項６に記載のように、音声信号を圧縮する音声圧縮部を備え、圧縮した音声信号を送信することが好ましい。さらに、端末とセンターとの通信が不能の場合、請求項７に記載したように、第２の音声認識部を用いて音声認識を行なうようにすることが好ましい。これにより、音声対話シナリオに沿った処理が全く停止されてしまう事態を回避することができる。

以下、本発明を実施するための形態について詳細に説明する。図１は、本実施形態による音声対話システムの全体構成を示す構成図である。なお、本実施形態では、音声対話システムの端末２０を車室内に設置することにより、車室内にいながら、ネットワークを介して各種のサービス（テレマティクスサービス）を利用可能とした例について説明する。

図１に示すように、本実施形態の音声対話システムは、センター１０と端末２０とから構成される。センター１０は、インターネット等の通信ネットワークを介して、ネットワーク上において各種のサービスを提供するコンテンツプロバイダー５０と接続されている。コンテンツプロバイダー５０が提供するサービスとしては、例えば、メールの送受信を始め、交通情報、天気情報、旅行情報（予約や乗り換え案内を含む）、娯楽情報（音楽のダウンロード等）の提供等の各種サービスが挙げられる。

端末２０は、無線もしくは有線の通信網を介して、センター１０と接続され、センター１０との間で各種のデータを送受信することが可能である。さらに、端末２０は、ユーザーにより発話された音声を入力するマイク２１、および、ユーザーに対して音声を出力するスピーカ２２とを備え、音声による対話形式で、提供されるサービスに関する操作を行なう。このように、音声による対話形式で操作を行なうことにより、車両の運転操作に支障をきたすことなく、各種サービスの利用が可能となるとともに、入力すべき音声を特定することが容易になる。なお、このような音声対話を実現するためのシナリオを記述する言語として、例えばＶｏｉｃｅＸＭＬを好適に使用することができる。

次に、図２を用いて、センター１０および端末２０の詳細な構成について説明する。図２に示すように、センター１０は、センター音声認識部１２を備えている。本実施形態においては、後述するように、端末２０にもローカル音声認識部２５が設けられており、基本的には、端末２０にて音声認識を実行する。しかしながら、端末２０での音声認識では対応困難な音声入力が行なわれる場合には、分散型音声認識（ＤＳＲ）としてセンター１０に設けられた、ローカル音声認識部２５よりも強力な音声認識機能を持つセンター音声認識部１２を利用して音声認識を行なう。これにより、全ての音声認識を端末２０にて行なう場合に比較して、端末２０にて用意すべき認識用の辞書・文法を大幅に低減することができる。従って、これらの辞書・文法をセンター１０からダウンロードする場合であってもその通信時間を短縮することができる。

また、センター１０は、センター音声認識部１２における音声認識に使用する認識用の辞書・文法を記憶する認識用辞書・文法記憶部１１を備える。この認識用辞書・文法記憶部１１は、各コンテンツプロバイダー５０が提供するサービスに関する操作のための音声対話シナリオにおいて、入力される可能性のある語彙や使用される可能性がある文法を記憶する。この認識用辞書・文法記憶部１１の記憶データは、各コンテンツプロバイダー５０から取得される音声対話シナリオを含むコンテンツ１４が、その一部として、その音声対話シナリオにおいて使用する語彙や文法に関するデータを含むものである場合には、その語彙や文法に関するデータを抽出することによって収集できる。また、音声対話シナリオに含まれる音声および文法に関するデータを抽出して、それを記憶データとして収集しても良い。

センター１０は、さらに、端末２０において実行される音声対話シナリオを管理する対話管理部１３を備える。例えば、対話管理部１３は、複数のコンテンツ１４から、端末２０が要求したサービスに関する音声対話シナリオを抽出して、端末２０に提供したり、端末２０における対話の進展内容に応じて複数の対話シナリオを動的に切り替えたりする。さらに、対話管理部１３は、その対話シナリオの進展内容に応じて、所定の情報をコンテンツプロバイダー５０に送信したり、コンテンツプロバイダー５０から取得したりする。

次に端末２０の構成について説明する。端末２０は、マイク２１から入力された音声信号に対し、音声認識に適した信号に変換するための処理を実施する音声認識フロントエンド２３を備える。具体的には、音声認識フロントエンド２３は、入力された音声信号のＡ／Ｄ変換処理、ノイズ除去処理、エコー除去処理等の処理を実施する。このようにして、音声認識に適した信号に変換された音声信号は、特徴量圧縮部２４およびローカル音声認識部２５に入力される。

上述したように、本実施形態においては、ローカル音声認識部２５では対応困難な音声が入力された場合、センター音声認識部１２において音声認識を実施する。音声圧縮部２４は、音声信号をセンター１０に送信する際、その送信データ量を低減するために、音声信号の圧縮を行なう。また、ローカル音声認識部２５は、端末２０において音声認識処理を実施するものであり、その認識処理においては、端末２０の認識用辞書・文法記憶部２６に記憶された辞書および文法を使用する。そして、音声信号の認識結果はテキスト形式のデータとして音声対話シナリオ解釈実行部３０に入力する。

端末２０の認識用辞書・文法記憶部２６は、予め各種のサービスを利用する際に汎用的に使用される辞書および文法を記憶している。さらに、各種サービスに対応する音声対話シナリオには、そのシナリオにおいて用いられる特有の語彙や文法がある場合、その語彙を含む辞書および文法に関するデータが付属しており、その付属データも、認識用辞書・文法記憶部２６に保存され、音声認識に利用される。ただし、その付属データは、対応するサービスの利用が終了し、次の異なる種類のサービスの利用が開始されるときには、認識用辞書・文法記憶部２６から消去される。

なお、認識用辞書・文法記憶部２６には、予め辞書および文法を記憶させず、音声対話シナリオに付属する辞書および文法に関するデータのみを保存するようにしても良い。また、特定のサービスの利用が終了しても、その辞書および文法に関するデータを消去せずに、サービスを利用する毎に、それらの付属データを蓄積するようにしても良い。

音声対話シナリオ解釈実行部３０は、端末２０において、音声対話の実行を制御するものである。すなわち、まず、ユーザーが利用したいサービスの種類が指示されたとき（この指示は音声でも、もしくは図示しないスイッチ操作によっても行なうことができる）、音声対話シナリオ解釈実行部３０は、指示されたサービスに該当する音声対話シナリオを取得すべく、対話管理部１３に対してダウンロード要求を出力する。このダウンロード要求により、該当する音声対話シナリオが（付属データがある場合には付属データも）対話管理部１３から出力され、音声対話シナリオ蓄積部３１に蓄積される。なお、すでに該当する音声対話シナリオが音声対話シナリオ蓄積部３１に蓄積されている場合には、上述したダウンロード要求は出力されない。このように、音声対話シナリオ等を音声対話シナリオ蓄積部３１に蓄積することにより、音声対話シナリオ実行時に短期的あるいは長期的な通信不能状態が発生しても、音声対話シナリオの実行に及ぼす影響を低減できる。また、音声対話シナリオの蓄積により平均的通信回数を低減できるため、上述した音声の圧縮と相俟って、通信量の低減を図ることができ、低い通信コストで運用することが可能となる。

次に、音声対話シナリオ解釈実行部３０は、該当する音声対話シナリオを音声対話シナリオ蓄積部３１から取得して、その音声対話シナリオの実行を開始する。この場合、その音声対話シナリオにおける音声認識部を選択する選択子の記述、すなわち、「ＤＳＲ選択」により、センター音声認識部１２における音声認識が指示された場合には、スイッチ２７をオンするとともに、スイッチ２８をセンター音声認識部１２側に切り替える。これにより、マイク２１から入力された音声信号は、音声認識フロントエンド２３および音声圧縮部２４を経て、送受信部２９によりセンター音声認識部１２に送信される。そして、センター音声認識部１２によって音声認識が行なわれると、その認識結果がテキスト形式のデータとして返送され、送受信部２９に受信される。受信された認識結果データは、音声対話シナリオ解釈実行部３０に入力され、その認識結果に応じてシナリオを次のステップに進める。

センター音声認識部１２による音声認識を解除する場合には、音声対話シナリオに「ＤＳＲ解除」の旨が記述される。これにより、音声認識は、ローカル音声認識部２５において実施されるようになる。すなわち、スイッチ２７はオフされ、かつスイッチ２８はローカル音声認識部２５側に切り替えられる。

このように、センター１０および端末２０の両方に音声認識部１２，２５を設け、音声対話シナリオ中の音声認識部選択子によって切り替えるように構成したため、認識すべき入力音声の難易度に応じてセンター音声認識部１２とローカル音声認識部２５とを使い分けることが可能になる。このため、従来技術のように、全ての音声認識を端末において行なう場合に比較して、センター１０から端末２０にダウンロードすべきデータを削減することができ、結果として、通信時間を短縮することが可能になる。

音声対話シナリオ解釈実行部３０は、対話形式のシナリオに従って、ユーザーへの質問、案内、確認、報告等を行なうために、出力すべき音声内容に関するデータを音声合成部３２に出力することにより、合成音声の出力を指示する。音声合成部３２は、その音声内容データに従った内容の音声を合成し、スピーカ２２から出力させる。この場合、音声合成部３２は、合成用データ記憶部３３に記憶された音声合成用データを用いて音声の合成を行なう。この音声合成用データは、例えば女性の音声を出力するための所定のデータが予め記憶されている。

ただし、各種サービスに対応する音声対話シナリオに特性の種類の音声を合成（例えば、タレント等）するための音声合成用データが付属している場合には、合成用データ記憶部３３は、その付属データを保存し、その特定の種類の合成音声をスピーカ３３から出力させる。

本実施形態における端末２０は車室内に設置され、車室内にいながらネットワークを介した各種のサービスを利用可能とするものであるが、その他にも、車両に搭載された各種の車載機器を音声により操作する際の、音声操作装置として利用することも可能である。

例えば、ナビゲーション装置３５と音声対話シナリオ解釈実行部３０とを接続した場合、ナビゲーション装置３５における各種の機能に対応する音声対話シナリオ（目的地設定シナリオ等）を用意する。そして、音声対話シナリオの実行により目的地が特定された場合、その認識結果としての目的地データをナビゲーション装置３５に出力する。上述したナビゲーション装置３５に関する例は一例であって、本音声対話システムの端末２０は、その他の各種の車載機器の音声操作装置として利用することができる。

次に、本実施形態を用いてサービスを利用する具体例について、メールサービスを例にあげて説明する。図３に示すように、音声もしくはスイッチ操作によってメールサービスの開始が指示されると、センター１０から、メール情報、辞書等、および音声対話シナリオが端末２０にダウンロードされる。なお、メール情報とは、受信メールに関する情報である。

音声対話シナリオ解釈実行部３０が音声対話シナリオを取得すると、そのシナリオに沿った音声対話が開始される。図３の例では、まず、端末２０から「メールを読みますか、それともメールを作成しますか」との質問が音声にて出力される。このとき、ユーザーが「メールの作成」と返答すると、その返答した音声がローカル音声認識部２５にて音声認識され、メール作成のシナリオの実行が開始される。

メール作成のシナリオにおいては、まず、端末２０が「メールのタイトルをどうぞ」との案内を発することにより応答する。この場合、ユーザーが「明日の予定」と入力すると、その音声が認識され、端末２０から確認のため「明日の予定を登録しました」との応答がなされる。その後、端末２０から「本文をどうぞ」との案内がなされると、音声対話シナリオ解釈実行部３０は、音声対話シナリオの記述に従って、音声認識のＤＳＲへの切換を実施する。メール本文は、時として数百字から数千字となるため、より強力な音声認識機能を備えるセンター音声認識部１２を利用して音声認識を行なうことが好ましいため、音声対話シナリオにＤＳＲ切換が記述されるのである。その後、メール本文の入力が終了すると、その内容の確認が行なわれた後、メールの送信が行なわれるとともに、ＤＳＲへの切換を解除する。

上述したような、対話形式シナリオをＶｏｉｃｅＸＭＬ言語で記述した具体例を図４および図５に示す。図４および図５のシナリオは、レストラン案内に関するものであり、図４は、ローカル音声認識部２５を用いて音声認識をする場合、図５は、センター音声認識部１２を利用する場合に関するものである。

図４に示す例では、レストラン案内の旨、および「どのレストランにしますか」との質問がなされた後、入力音声として、登録されているいずれかのレストラン名Ｒ１〜Ｒ３が音声認識されると、それぞれ、認識されたレストランを案内するためのシナリオＳ１〜Ｓ３の実行が開始される。

図５には、そのレストラン名の音声認識にセンター音声認識部１２を用いる例を示している。すなわち、「軽井沢のレストランをご案内します」との案内がなされると、音声対話シナリオの“ＤＳＲ選択”との記述により、センター音声認識部１２を用いた音声認識に切り替えられる。その後、レストラン名が認識されると、“ＤＳＲ解除”との記述により、ローカル音声認識部２５を用いた音声認識に復帰する。

以上、本発明を実施するための最良の形態について説明したが、本発明は上述した実施形態に制限されることなく、本発明の主旨を逸脱しない範囲において種々変形して実施することが可能である。

例えば、ＤＳＲ選択によりセンター音声認識部１２による音声認識を選択したが、端末２０とセンター１０との通信が不能であることを、音声対話シナリオ解釈実行部３０が検出した場合、音声対話シナリオ解釈実行部３０が、センター音声認識部１２に代えて、ローカル音声認識部２５による音声認識を実施するようにしても良い。

上述した実施形態では、音声対話シナリオをＶｏｉｃｅＸＭＬによって記述する例について説明したが、その言語は、ＶｏｉｃｅＸＭＬに限定されることなく、Ｃ言語等の他の言語を用いることも可能である。

さらに、上述した実施形態では、センター１０自身がセンター音声認識部１２を備える例について説明したが、そのセンター側の音声認識部は、各コンテンツプロバイダー５０が備えるものであっても良い。さらに、センター１０自身および各コンテンツプロバイダー５０が音声認識部を備えて、音声認識の実行先を、音声対話シナリオ内の選択子によってそれらの中から選択するようにしても良い。

実施形態による音声対話システムの全体構成を示す構成図である。センター１０および端末２０の詳細な構成をしめすブロック図である。、メールサービスに関して実施される音声対話シナリオの一例を示す説明図である。ローカル音声認識部２５を用いて音声認識を行ないつつ、レストラン案内を実施するための音声対話シナリオを示す説明図である。センター音声認識部１２を用いて音声認識を行ないつつ、レストラン案内を実施するための音声対話シナリオを示す説明図である。従来の音声入力ネットワークサービスシステムの構成を示す構成図である。

符号の説明

１０：センター
２０：端末
２１：マイク
２２：スピーカ
４０：ネットワーク
５０：コンテンツプロバイダー

Claims

端末と、その端末と通信を介して接続されるセンターとから構成され、提供されるサービスに関して音声対話によって操作する音声対話システムであって、
前記センターは、第１の音声認識部を備え、
前記端末は、
音声を入力する音声入力部と、
音声を認識する第２の音声認識部と、
音声を合成して出力する音声合成部と、
提供されるサービスに関する操作のための音声対話シナリオを記憶する記憶部と、
前記記憶部に記憶された音声対話シナリオに従って、前記音声合成部から音声を出力するとともに、前記音声入力部から音声を入力し、かつ、その音声対話シナリオ内に記述された音声認識部選択子に基づいて、音声入力部から入力された音声を認識すべき音声認識部として、前記第１の音声認識部と第２の音声認識部のいずれかを選択する音声対話制御部とを備えることを特徴とする音声対話システム。
前記センターは、少なくとも１つのサービス提供者であるコンテンツプロバイダーのサーバーと通信回線を介して接続されており、そのコンテンツプロバイダーの提供するサービスに関する操作のための音声対話シナリオを蓄積する蓄積部を備えることを特徴とする請求項１に記載の音声対話システム。
前記端末の音声対話制御部は、所定のサービスに関する操作を開始する際に、そのサービスに対応する音声対話シナリオを前記蓄積部から取得して、前記記憶部に記憶することを特徴とする請求項２に記載の音声対話システム。
前記音声対話制御部は、前記蓄積部から、さらに、音声認識用の辞書、および／または音声合成用のデータを取得することを特徴とする請求項３に記載の音声対話システム。
前記センターの第１の音声認識部を用いて音声認識を行なう場合、前記音声対話制御部は、前記音声入力部に入力された音声信号を前記センターの第１の音声認識部に送信し、前記第１の音声認識部によって認識された認識結果を受信することを特徴とする請求項１乃至請求項３のいずれかに記載の音声対話システム。
前記端末は、音声入力部に入力された音声信号を圧縮する音声圧縮部を備え、圧縮した音声信号を前記センターの第１の音声認識部に送信することを特徴とする請求項５に記載の音声対話システム。
前記端末と前記センターとの通信が不能の場合、前記音声対話制御部は、第２の音声認識部を用いて音声認識を実行させることを特徴とする請求項１乃至請求項６のいずれかに記載の音声対話システム。