JP2003295890A

JP2003295890A - 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム

Info

Publication number: JP2003295890A
Application number: JP2002102274A
Authority: JP
Inventors: Eiko Yamada; 栄子山田; Hiroshi Hagane; 広羽金
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-04-04
Filing date: 2002-04-04
Publication date: 2003-10-15
Also published as: CN1514995A; WO2003085640A1; CN1282946C; EP1394771A1; TWI244065B; US20040162731A1; TW200307908A; EP1394771A4

Abstract

(57)【要約】【課題】複数の認識対話サーバをもつ音声認識対話シ
ステムにおいて、ひとつの認識対話サーバを選択し決定
する枠組みがない。【解決手段】クライアント端末１０は、端末情報記憶
部１４０に記憶されているその能力情報を認識対話選択
サーバ２０へ送信する。クライアント端末１０の能力に
ついては、ＣＯＤＥＣの能力（ＣＯＤＥＣの種類、ＣＯ
ＤＥＣ圧縮モード等）、音声データ形式（圧縮音声デー
タ、特徴ベクトル等）、録音音声入出力機能、合成音声
入出力機能（合成エンジンなし、中間表現入力用エンジ
ンあり、文字列入力用エンジンあり等）、サービス内容
である。認識対話選択サーバ２０は、クライアント端末
１０から送信された能力情報を受信し、予め認識対話サ
ーバ情報記憶部２３０に記憶されている複数台の認識対
話サーバの能力情報と、要求されたサービス内容の情報
から、最適な認識対話サーバを一意に決定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、携帯電話、車載端
末等の端末（クライアント）に入力された音声データを
ネットワークを通して認識対話サーバ側に送信し、認識
対話サーバ側で音声認識・応答による音声対話を行う音
声認識対話装置、及び方法、及びシステムに関する。

【０００２】

【従来の技術】従来より、端末側（クライアント側）に
入力された音声データをパケット網にて認識対話サーバ
側へ送信し、認識対話サーバ側にて音声認識対話処理を
行うサーバ・クライアント型音声認識対話装置としてVo
IP(Voiceover Internet Protocol)を用いた音声認識
対話システムが知られている。たとえば、Nikkei Inte
rnet Technology, pp.130〜137, March 1998 に詳しく
述べられている。

【０００３】VoIPを用いたシステムでは、予め、端末側
と認識対話サーバ側のＩＰアドレスを既知とした枠組み
で音声認識、又は音声認識と応答（合成、録音音声等）
による音声対話が行われる。すなわち、端末と認識対話
サーバをお互いのＩＰアドレスをもとにパケット通信可
能な状態に接続しておき、その上で音声データのパケッ
トを端末側からサーバ側に送ることで音声認識対話を行
う枠組みとなっている。

【０００４】特開平１０−３３３６９３号公報「自動ス
ピーチ認識サービス提供方法およびシステム」では、ク
ライアントから音声データをパケット網を経由して音声
認識サーバへ送信し、認識するシステムが開示されてい
る。

【０００５】

【発明が解決しようとする課題】従来システムでは、端
末側と認識対話サーバ側のＩＰアドレスを既知とした枠
組みで音声認識、音声対話が行われるしくみとなってい
る。そのため、認識対話サーバが複数台存在する場合に
使用する認識対話サーバを選択し決定する枠組みがない
という問題点があった。

【０００６】特開平１０−３３３６９３号公報「自動ス
ピーチ認識サービス提供方法およびシステム」では、認
識対話サーバが複数台存在する場合についてはなんら開
示されていない。

【０００７】本発明では、認識対話サーバが複数台存在
する場合においても、端末側の能力（ＣＯＤＥＣ能力、
合成音声入力機能、サービス内容等）と認識対話サーバ
側の能力（ＣＯＤＥＣ能力、合成音声出力機能、認識エ
ンジン機能、サービス内容等）とにより最適な認識対話
サーバが選択して決定され、決定された認識対話サーバ
と端末との間で音声認識対話を行うことが可能な音声認
識対話システムを提供する。

【０００８】特開平１０−３３３６９３号公報「自動ス
ピーチ認識サービス提供方法およびシステム」では、複
数のＡＳＰサーバをその能力により適宜選択することは
なんら開示されていない。

【０００９】

【課題を解決するための手段】前記目的を達成する本願
第一の発明に係る音声認識対話システムは、音声情報の
送信手段と複数個の音声認識対話を行う手段とをネット
ワークで接続した音声認識対話装置であって、前記音声
情報の送信手段の能力と前記音声認識対話を行う手段の
能力とによって一つの前記音声認識対話を行う手段を決
定する。

【００１０】本発明第二の発明の音声認識対話システム
は、音声認識対話を行う手段に対して要求するサービス
と音声情報を送信する手段と、複数個の前記音声認識対
話を行う手段とをネットワークで接続した音声認識対話
装置であって、前記サービスと前記音声情報を送信する
手段の能力と前記音声認識対話を行う手段の能力とによ
って一つの前記音声認識対話を行う手段を決定する。

【００１１】本発明第三の発明の音声認識対話システム
は、音声認識対話を行う手段に対して要求するサービス
を保持するサービス保持手段と、音声情報を送信する手
段と、複数個の前記音声認識対話を行う手段とをネット
ワークで接続した音声認識対話装置であって、前記サー
ビスと前記音声情報を送信する手段の能力と前記音声認
識対話を行う手段の能力とによって一つの前記音声認識
対話を行う手段を決定する。

【００１２】本発明第四の発明の音声認識対話システム
は、本発明第一、または三の発明の音声認識対話システ
ムであって、決定された前記音声認識対話を行う手段を
特定する情報を前記音声情報を送信する手段へ送り、前
記音声情報を送信する手段と前記決定された音声認識対
話を行う手段との間で前記音声情報を交換し音声認識対
話を行う。

【００１３】本発明第五の発明の音声認識対話システム
は、本発明第二の発明の音声認識対話システムであっ
て、決定された前記音声認識対話を行う手段を特定する
情報を前記サービスと音声情報を送信する手段へ送り、
前記前記音声情報を送信する手段と前記決定された音声
認識対話を行う手段との間で前記サービスと音声情報を
交換し音声認識対話を行う。

【００１４】本発明第六の発明の音声認識対話システム
は、本発明第四、または五の発明の音声認識対話システ
ムであって、決定された前記音声認識対話を行う手段
を、他の決定された前記音声認識対話を行う手段に変更
する手段をさらに有す。

【００１５】本発明第七の発明の音声認識対話システム
は、本発明第一、三、四または六の発明の音声認識対話
システムであって、複数個の前記音声認識対話を行う手
段から１つの前記音声認識対話を行う手段を決定する部
分が、前記音声情報の送信手段の能力と複数個の前記音
声認識対話を行う手段の能力とを比較し、前記音声認識
対話を行う手段の前記音声情報の入力形式と前記音声情
報の送信手段との前記音声情報の出力形式が一致し、且
つ、特定の能力を持つ前記音声認識対話を行う手段を決
定する請求項１、３、４または６記載の音声認識対話シ
ステム。

【００１６】本発明第八の発明の音声認識対話システム
は、本発明第二，五または六の発明の音声認識対話シス
テムであって、複数個の前記音声認識対話を行う手段か
ら１つの前記音声認識対話を行う手段を決定する部分
が、前記サービスと音声情報の送信手段の能力と複数個
の前記音声認識対話を行う手段の能力とを比較し、前記
音声認識対話を行う手段の前記音声情報の入力形式と前
記サービスと音声情報の送信手段との前記音声情報の出
力形式が一致し、且つ、特定の能力を持つ前記音声認識
対話を行う手段を決定する。

【００１７】本発明第九の発明の音声認識対話システム
は、音声認識対話サーバに対して要求するサービスと音
声情報を送信するクライアント端末と、複数個の音声認
識対話サーバと、前記クライアント端末と前記音声認識
対話サーバの中からひとつを選択する音声認識対話選択
サーバとがネットワークにより接続された音声認識対話
システムであって、前記音声認識対話選択サーバは、ネ
ットワークを介して通信を行うデータ通信部と、前記音
声認識対話サーバの能力を記憶する認識対話サーバ情報
記憶部と、前記端末情報記憶部内の前記クライアント端
末の能力を読み出して、前記認識対話サーバ情報記憶部
内の音声認識対話サーバの能力とを比較して特定の能力
を有するひとつの音声認識対話サーバを決定し、前記ひ
とつの音声認識対話サーバの情報を前記クライアント端
末へ送る認識対話サーバ決定部を有し、前記クライアン
ト端末は、音声情報とサービスを入力するデータ入力部
と、前記クライアント端末の能力を記憶する端末情報記
憶部と、ネットワークを介して通信を行うデータ通信部
と、前記ひとつの音声認識対話サーバに対して前記音声
情報を送信するように前記クライアント端末を制御する
制御部から構成され、前記音声認識対話サーバは、前記
クライアント端末からの前記音声情報により音声認識対
話を実行する音声認識対話実行部と、ネットワークを介
して通信を行うデータ通信部と、音声認識対話サーバを
制御する制御部から構成される。

【００１８】本発明第十の発明の音声認識対話システム
は、本発明第九の発明の音声認識対話システムであっ
て、さらにサービスを保持するサービス内容保持サーバ
がネットワークに接続され、前記音声認識対話サーバは
前記サービス内容保持サーバからサービス内容を読み込
む読み込み部をさらに有する。

【００１９】本発明第十一の発明の音声認識対話システ
ムは、本発明第九または十の発明の音声認識対話システ
ムであって、前記音声認識対話サーバはほかの前記音声
認識対話サーバへ音声認識対話処理を移行させる要求を
前記音声認識対話選択サーバへ出す手段を、さらに有す
る。

【００２０】本発明第十二の発明の音声認識対話システ
ムは、本発明第一から十一の発明の音声認識対話システ
ムであって、前記音声情報がデジタル化された音声デー
タ、又は圧縮された音声データ、又は特徴ベクトルであ
る。

【００２１】本発明第十三の発明の音声認識対話システ
ムは、本発明第一から八の発明の音声認識対話システム
であって、前記送信手段の能力が、ＣＯＤＥＣの能力、
音声データ形式、録音・合成音声入出力機能である。

【００２２】本発明第十四の発明の音声認識対話システ
ムは、本発明第一から八の発明の音声認識対話システム
であって、前記音声認識対話を行う手段の能力が、ＣＯ
ＤＥＣの能力、音声データ形式、録音・合成音声出力機
能、サービス内容、認識の能力、稼動情報である。

【００２３】本発明第十五の発明の音声認識対話システ
ムは、本発明第九から十一の発明の音声認識対話システ
ムであって、前記クライアント端末の能力が、ＣＯＤＥ
Ｃの能力、音声データ形式、録音・合成音声入出力機能
である。

【００２４】本発明第十六の発明の音声認識対話システ
ムは、本発明第九、十、十一または十五の発明の音声認
識対話システムであって、前記音声認識対話サーバをの
能力が、ＣＯＤＥＣの能力、音声データ形式、録音・合
成音声出力機能、サービス内容、認識の能力、稼動情報
である。

【００２５】本発明第一の音声認識対話選択方法は、複
数の音声認識対話を行う手段の中からひとつの音声認識
対話を行う手段を選択する音声認識対話選択方法であっ
て、音声情報の送信手段から音声認識対話処理を含むサ
ービスの要求を受け取る第１のステップと、前記音声情
報の送信手段の能力を要求する第２のステップと、前記
音声情報の送信手段から前記音声情報の送信手段の能力
を送信する第３のステップと、前記音声情報の送信手段
の能力情報と複数の前記音声認識対話を行う手段の能力
を比較し、前記音声認識対話を行う手段を一意に決定す
る第４のステップと、前記音声認識対話を行う手段を決
定する部分から前記音声情報の送信手段へ一意に決定さ
れた前記音声認識対話を行う手段の情報を通知する第５
のステップと、前記音声情報の送信手段と一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第６のステップを有する。

【００２６】本発明第二の音声認識対話選択方法は、本
発明第一の音声認識対話選択方法であって、前記音声情
報の送信手段と前記音声認識対話を行う手段との間で音
声認識対話処理が行われている最中に、前記音声認識対
話を行う手段から音声認識対話処理を他の前記音声認識
対話を行う手段へ移行する要求を送信する第７のステッ
プと、前記音声情報の送信手段へ前記音声情報の送信手
段の能力情報を要求する第８のステップと、前記音声情
報の送信手段から前記音声情報の送信手段の能力情報を
送信する第９のステップと前記音声情報の送信手段の能
力情報と複数個の前記音声認識対話を行う手段の能力情
報とを比較し、前記音声認識対話を行う手段を新規に一
意に決定する第１０のステップと、前記音声情報の送信
手段へ新規に一意に決定された前記音声認識対話を行う
手段の情報を通知する第１１のステップと、前記音声情
報の送信手段と新規に一意に決定された前記音声認識対
話を行う手段との間で音声認識対話処理を行う第１２の
ステップをさらに有する。

【００２７】本発明第三の音声認識対話選択方法は、複
数の音声認識対話を行う手段の中からひとつの音声認識
対話を行う手段を選択する音声認識対話選択方法であっ
て、音声情報の送信手段から音声認識対話処理を含むサ
ービスの要求を受け取る第１のステップと、前記音声情
報の送信手段の能力を要求する第２のステップと、前記
音声情報の送信手段から前記音声情報の送信手段の能力
を送信する第３のステップと、前記音声情報の送信手段
の能力情報と複数の前記音声認識対話を行う手段の能力
を比較し、前記音声認識対話を行う手段を一意に決定す
る第４のステップと、前記音声認識対話を行う手段を決
定する部分から前記音声情報の送信手段へ一意に決定さ
れた前記音声認識対話を行う手段の情報を通知する第５
のステップと、前記音声情報の送信手段と一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第６のステップと、一意に決定された前記音
声認識対話を行う手段からサービス内容を保持手段へサ
ービス内容を要求する第７のステップと、前記サービス
内容を保持する部分から一意に決定された前記音声認識
対話を行う手段へサービス内容を送信する第８のステッ
プと、一意に決定された前記音声認識対話を行う手段に
て送信された前記サービス内容を読み込む第９のステッ
プと、前記音声情報の送信手段と一意に決定された前記
音声認識対話を行う手段との間で音声認識対話処理を行
う第１０のステップを有する。

【００２８】本発明第四の音声認識対話選択方法は、本
発明第三の音声認識対話選択方法であって、前記音声情
報の送信手段と前記音声認識対話を行う手段との間で音
声認識対話処理が行われている最中に、前記音声認識対
話を行う手段から音声認識対話処理を他の前記音声認識
対話を行う手段へ移行する要求を送信する第１１のステ
ップと、前記音声情報の送信手段へ前記音声情報の送信
手段の能力情報を要求する第１２のステップと、前記音
声情報の送信手段から前記音声情報の送信手段の能力情
報を送信する第１３のステップと前記音声情報の送信手
段の能力情報と複数個の前記音声認識対話を行う手段の
能力情報とを比較し、前記音声認識対話を行う手段を新
規に一意に決定する第１４のステップと、前記音声情報
の送信手段へ新規に一意に決定された前記音声認識対話
を行う手段の情報を通知する第１５のステップと、前記
音声情報の送信手段と新規に一意に決定された前記音声
認識対話を行う手段との間で音声認識対話処理を行う第
１６のステップをさらに有する。

【００２９】本発明第五の音声認識対話選択方法は、本
発明第一から四の音声認識対話選択方法であって、前記
音声情報がデジタル化された音声データ、又は圧縮され
た音声データ、又は特徴ベクトルである。

【００３０】本発明第六の音声認識対話選択方法は、本
発明第一から四の音声認識対話選択方法であって、前記
音声情報の送信手段の能力が、ＣＯＤＥＣの能力、音声
データ形式、録音・合成音声入出力機能、サービス内容
である。

【００３１】本発明第六の音声認識対話選択方法は、本
発明第一から四の音声認識対話選択方法であって、前記
音声認識対話を行う手段の能力が、ＣＯＤＥＣの能力、
音声データ形式、録音・合成音声出力機能、サービス内
容、認識の能力、稼動情報である。

【００３２】本発明第一の音声認識対話選択装置は、ネ
ットワークを介して音声情報を送信する送信手段と、前
記音声情報に対して音声認識対話を行う手段が接続され
た音声認識対話システムにおいて、複数の前記音声認識
対話を行う手段の中からひとつの前記音声認識対話を行
う手段を選択を行う音声認識対話選択装置であって、前
記選択を行う際に前記音声情報の送信手段の能力と前記
音声認識対話を行う手段の能力とによって一つの前記音
声認識対話を行う手段を決定する。

【００３３】本発明第二の音声認識対話選択装置は、複
数の音声認識対話を行う手段の中からひとつの音声認識
対話を行う手段を選択する音声認識対話選択装置であっ
て、音声認識対話処理を含むサービスの要求または音声
認識対話を行う手段の変更を受け取る第１の手段と、前
記音声情報の送信手段の能力を要求する第２の手段と、
前記音声情報の送信手段から前記音声情報の送信手段の
能力を送信する第３の手段と、前記音声情報の送信手段
の能力情報と複数の前記音声認識対話を行う手段の能力
を比較し、前記音声認識対話を行う手段を一意に決定す
る第４の手段と、前記音声認識対話を行う手段を決定す
る部分から前記音声情報の送信手段へ一意に決定された
前記音声認識対話を行う手段の情報を通知する第５の手
段とを有する。

【００３４】本発明第三の音声認識対話選択装置は、本
発明第一または二の音声認識対話選択装置であって、前
記音声情報がデジタル化された音声データ、又は圧縮さ
れた音声データ、又は特徴ベクトルである。

【００３５】本発明第四の音声認識対話選択装置は、本
発明第一または二の音声認識対話選択装置であって、前
記音声情報の送信手段の能力が、ＣＯＤＥＣの能力、音
声データ形式、録音・合成音声入出力機能、サービス内
容である。

【００３６】本発明第五の音声認識対話選択装置は、本
発明第一または二の音声認識対話選択装置であって、前
記音声認識対話を行う手段の能力が、ＣＯＤＥＣの能
力、音声データ形式、録音・合成音声出力機能、サービ
ス内容、認識の能力、稼動情報であることを特徴とす
る。

【００３７】本発明第一のプログラムは、複数の音声認
識対話を行う手段の中からひとつの音声認識対話を行う
手段を選択する音声認識対話選択プログラムであって、
音声情報の送信手段から音声認識対話処理を含むサービ
スの要求を受け取る第１の処理と、前記音声情報の送信
手段の能力を要求する第２の処理と、前記音声情報の送
信手段から前記音声情報の送信手段の能力を送信する第
３の処理と、前記音声情報の送信手段の能力情報と複数
の前記音声認識対話を行う手段の能力を比較し、前記音
声認識対話を行う手段を一意に決定する第４の処理と、
前記音声認識対話を行う手段を決定する部分から前記音
声情報の送信手段へ一意に決定された前記音声認識対話
を行う手段の情報を通知する第５の処理と、前記音声情
報の送信手段と一意に決定された前記音声認識対話を行
う手段との間で音声認識対話処理を行う第６の処理を有
する。

【００３８】本発明第二のプログラムは、本発明第一の
プログラムにさらに、前記音声情報の送信手段と前記音
声認識対話を行う手段との間で音声認識対話処理が行わ
れている最中に、前記音声認識対話を行う手段から音声
認識対話処理を他の前記音声認識対話を行う手段へ移行
する要求を送信する第７の処理と、前記音声情報の送信
手段へ前記音声情報の送信手段の能力情報を要求する第
８の処理と、前記音声情報の送信手段から前記音声情報
の送信手段の能力情報を送信する第９の処理と前記音声
情報の送信手段の能力情報と複数個の前記音声認識対話
を行う手段の能力情報とを比較し、前記音声認識対話を
行う手段を新規に一意に決定する第１０の処理と、前記
音声情報の送信手段へ新規に一意に決定された前記音声
認識対話を行う手段の情報を通知する第１１の処理と、
前記音声情報の送信手段と新規に一意に決定された前記
音声認識対話を行う手段との間で音声認識対話処理を行
う第１２の処理をさらに有する。

【００３９】本発明第三のプログラムは複数の音声認識
対話を行う手段の中からひとつの音声認識対話を行う手
段を選択する音声認識対話選択プログラムであって、音
声情報の送信手段から音声認識対話処理を含むサービス
の要求を受け取る第１の処理と、前記音声情報の送信手
段の能力を要求する第２の処理と、前記音声情報の送信
手段から前記音声情報の送信手段の能力を送信する第３
の処理と、前記音声情報の送信手段の能力情報と複数の
前記音声認識対話を行う手段の能力を比較し、前記音声
認識対話を行う手段を一意に決定する第４の処理と、前
記音声認識対話を行う手段を決定する部分から前記音声
情報の送信手段へ一意に決定された前記音声認識対話を
行う手段の情報を通知する第５の処理と、前記音声情報
の送信手段と一意に決定された前記音声認識対話を行う
手段との間で音声認識対話処理を行う第６の処理と、一
意に決定された前記音声認識対話を行う手段からサービ
ス内容を保持手段へサービス内容を要求する第７の処理
と、前記サービス内容を保持する部分から一意に決定さ
れた前記音声認識対話を行う手段へサービス内容を送信
する第８の処理と、一意に決定された前記音声認識対話
を行う手段にて送信された前記サービス内容を読み込む
第９の処理と、前記音声情報の送信手段と一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第１０の処理を有する。

【００４０】本発明第四のプログラムは、本発明第三の
プログラムにさらに、前記音声情報の送信手段と前記音
声認識対話を行う手段との間で音声認識対話処理が行わ
れている最中に、前記音声認識対話を行う手段から音声
認識対話処理を他の前記音声認識対話を行う手段へ移行
する要求を送信する第１１の処理と、前記音声情報の送
信手段へ前記音声情報の送信手段の能力情報を要求する
第１２の処理と、前記音声情報の送信手段から前記音声
情報の送信手段の能力情報を送信する第１３の処理と前
記音声情報の送信手段の能力情報と複数個の前記音声認
識対話を行う手段の能力情報とを比較し、前記音声認識
対話を行う手段を新規に一意に決定する第１４の処理
と、前記音声情報の送信手段へ新規に一意に決定された
前記音声認識対話を行う手段の情報を通知する第１５の
処理と、前記音声情報の送信手段と新規に一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第１６の処理をさらに有する。

【００４１】本発明第五のプログラムは、本発明第一か
ら四のプログラムであって、前記音声情報がデジタル化
された音声データ、又は圧縮された音声データ、又は特
徴ベクトルであることを特徴とする。

【００４２】本発明第六のプログラムは、本発明第一か
ら四のプログラムであって、前記音声情報の送信手段の
能力が、ＣＯＤＥＣの能力、音声データ形式、録音・合
成音声入出力機能、サービス内容であることを特徴とす
る。

【００４３】本発明第七のプログラムは、本発明第一か
ら四のプログラムであって、前記音声認識対話を行う手
段の能力が、ＣＯＤＥＣの能力、音声データ形式、録音
・合成音声出力機能、サービス内容、認識の能力、稼動
情報であることを特徴とする。

【００４４】［作用］本発明よる音声認識対話システム
は、クライアント端末とそれぞれ複数の認識対話サーバ
がネットワークを通して接続されているシステムであ
り、認識対話サーバが複数台ある場合においても複数台
の中から最適な認識対話サーバを選択して決定し、最適
な認識対話サーバ上で音声認識対話を実行することが可
能となっている。

【００４５】最適な認識対話サーバの決定方法について
は、クライアント端末の能力と認識対話サーバ側との能
力とを比較し、クライアント端末と認識対話サーバとの
出入力が一致し、且つ最も高い能力であり、且つ現在稼
動中の認識対話サーバが選択されるような決定方法を一
例として挙げることができる。

【００４６】クライアント端末の能力については、ＣＯ
ＤＥＣの能力（ＣＯＤＥＣの種類、ＣＯＤＥＣ圧縮モー
ド等）、音声データ形式（圧縮音声データ、特徴ベクト
ル等）、録音音声入出力機能、合成音声入出力機能（合
成エンジンなし、中間表現入力用エンジンあり、文字列
入力用エンジンあり等）、サービス内容等が挙げられ
る。また、認識対話サーバの能力については、ＣＯＤＥ
Ｃの能力（ＣＯＤＥＣの種類、ＣＯＤＥＣ伸張モード
等）、録音音声出力機能、合成音声出力機能（合成エン
ジンなし、中間表現出力用エンジンあり、波形出力用エ
ンジンあり等）、サービス内容、認識エンジンの能力
（タスク専用エンジン、ディクテーションエンジン、コ
マンド認識用エンジン等）、稼動情報等が挙げられる。
ＣＯＤＥＣの種類については、AMR-NBやAMR-WB等が挙げ
られる。また、合成音声の中間表現とは、文字列を発音
記号列に変換した後の表現を一例として挙げることがで
きる。サービス内容には、住所認識、名前認識、着信メ
ロディーの曲名認識、電話番号認識、クレジット番号認
識などのサービスが挙げられる。

【００４７】認識対話サーバを決定する処理部について
は、Ｗｅｂサーバ、又は認識対話選択サーバに含まれる
場合や、認識対話サーバに含まれる場合や、Ｗｅｂサー
バ、又は認識対話選択サーバと認識対話サーバとの両方
に含まれる場合とが考えられる。

【００４８】本発明によって、最適な認識対話サーバを
用いた音声認識対話を実行することが可能となる。ま
た、認識対話サーバ自身に認識対話サーバ決定機能を持
たせることで、対話の最中においても、端末側は他の適
切な認識サーバに自動的にアクセスすることが可能とな
る。

【００４９】また、本発明によると、サービスの内容を
認識対話サーバ以外のサーバ（例えば、Webサーバやコ
ンテンツプロバイダーのサーバ等が挙げられる）から受
信し、受信したサービスの内容に従った音声認識対話を
実行することも可能である。サービスの内容の形式につ
いては、VoiceXML文書やサービス名を例として挙げるこ
とができる。

【００５０】

【発明の実施の形態】本発明は、ネットワークを利用し
て音声認識対話のサービスを提供するための音声認識対
話システムにおいて、認識対話サーバが複数台ある場合
に最適な認識対話サーバを一意に選択、決定する機能を
持つシステムである。

【００５１】次に本発明の実施の形態について図面を参
照して詳細に説明する。図１は、本発明実施の形態の音
声認識対話システムの構成を示す図である。クライアン
ト端末１０は、ネットワーク１を介して認識対話選択サ
ーバ２０と、認識対話サーバ３０、認識対話代表サーバ
４０、認識対話サーバＣ５０、新規認識対話サーバ８０
と、サービス内容保持サーバ６０に接続している。

【００５２】ネットワーク１の種類については、インタ
ーネット（有線または無線を含む）、イントラネットが
挙げられる。

【００５３】図２は、本発明のクライアント端末１０の
構成を示すブロック図である。クライアント端末１０は
携帯端末、ＰＤＡ、車載端末、パーソナルコンピュー
タ、ホーム端末である。クライアント端末１０は、クラ
イアント端末１０を制御する制御部１２０、クライアン
ト端末１０の能力を保持する端末情報記憶部１４０、ネ
ットワーク１を介して通信を行うデータ通信部１３０か
ら構成される。クライアント端末１０側の能力について
は、ＣＯＤＥＣの能力（ＣＯＤＥＣの種類、ＣＯＤＥＣ
圧縮モード等）、音声データ形式（圧縮音声データ、特
徴ベクトル等）、録音音声入出力機能、合成音声入出力
機能（合成エンジンなし、中間表現入力用エンジンあ
り、文字列入力用エンジンあり等）、サービス内容であ
る。クライアント端末１０にｗｅｂブラウザを実装し、
これにより利用者とのインタフェースを行うようにして
もよい。サービス内容には、住所認識、名前認識、着信
メロディーの曲名認識、電話番号認識、クレジット番号
認識などのサービスが挙げられる。

【００５４】図３は、本発明実施の形態の認識対話サー
バ３０の構成を示すブロック図である。認識対話サーバ
３０は、認識対話サーバ３０を制御する制御部３２０、
音声認識および対話を実行する音声認識対話実行部３３
０、ネットワーク１を介して通信を行うデータ通信部３
１０から構成される。

【００５５】図４は、本発明の認識対話選択サーバ２０
の構成を示すブロック図である。認識対話選択サーバ２
０は、ネットワーク１を介して通信を行うデータ通信部
２１０、認識対話サーバが複数台ある場合に最適な認識
対話サーバを一意に選択、決定する認識対話サーバ決定
部２２０と、選択、決定された認識対話サーバの能力情
報を記憶する認識対話サーバ情報記憶部２３０から構成
される。認識対話サーバの能力については、ＣＯＤＥＣ
の能力（ＣＯＤＥＣの種類、ＣＯＤＥＣ伸張モード
等）、音声データ形式（圧縮音声データ、特徴ベクトル
等）、録音音声出力機能、合成音声出力機能（合成エン
ジンなし、中間表現出力用エンジンあり、波形出力用エ
ンジンあり等）、サービス内容、認識エンジンの能力
（タスク専用エンジン、ディクテーションエンジン、コ
マンド認識用エンジン等）、稼動情報等が挙げられる。

【００５６】新規認識対話サーバ８０は、認識対話サー
バ３０、認識対話代表サーバ４０、認識対話サーバＣ５
０のうちのどれかひとつと同じである。

【００５７】認識対話選択サーバ２０、認識対話サーバ
３０、認識対話代表サーバ４０、認識対話サーバＣ５
０、新規認識対話サーバ８０は、ＯＳとしてＷｎｄｏｗ
ｓ（登録商標）ＮＴ，Ｗｉｎｄｏｗｓ（登録商標）２０
００を搭載したコンピュータや、Ｓｏｌａｌｉｓ（登録
商標）を搭載したサーバである。認識対話代表サーバ４
０、認識対話サーバＣ５０の構成については後に説明す
る。

【００５８】次に、本発明実施の形態の音声認識対話シ
ステムの動作について説明する。

【００５９】第一に、音声認識と対話を行う認識対話サ
ーバ３０を決定する処理を認識対話選択サーバ２０で行
い、決定した認識対話サーバ３０にて音声認識対話処理
を行う場合について説明する。図５は、本発明実施の形
態の音声認識対話システムにおいて、認識対話選択サー
バ２０にて認識対話サーバ３０を決定する場合の処理を
示すフローチャートである。

【００６０】まず始めに、クライアント端末１０より認
識対話選択サーバ２０へ音声認識対話処理が含まれるサ
ービスの要求が行われる（ステップ５０１）。具体的に
は、クライアント端末１０側のデータ通信部１３０か
ら、サービスを実行するプログラムのＣＧＩのＵＲＬと
処理に必要な引数とがＨＴＴＰコマンド等にて認識対話
選択サーバ２０側に送信される。次に、認識対話選択サ
ーバ２０側ではクライアント端末１０側からのサービス
要求を受け、クライアント端末１０の能力情報を要求す
る（ステップ５０２）。次に、クライアント端末１０
は、認識対話選択サーバ２０からの能力情報要求を受
け、端末情報記憶部１４０に記憶されているクライアン
ト端末１０の能力情報を制御部１２０を通じ、データ通
信部１３０から認識対話選択サーバ２０へ送信する（ス
テップ５０３）。クライアント端末１０の能力について
は、ＣＯＤＥＣの能力（ＣＯＤＥＣの種類、ＣＯＤＥＣ
圧縮モード等）、音声データ形式（圧縮音声データ、特
徴ベクトル等）、録音音声入出力機能、合成音声入出力
機能（合成エンジンなし、中間表現入力用エンジンあ
り、文字列入力用エンジンあり等）、サービス内容等が
挙げられる。

【００６１】認識対話選択サーバ２０は、クライアント
端末１０から送信されたクライアント端末１０の能力情
報を受信し、予め認識対話サーバ情報記憶部２３０に記
憶されている複数台の認識対話サーバの能力情報を読み
出し、認識対話サーバ決定部２２０にてクライアント端
末１０側の能力情報と複数台の認識対話サーバの能力を
比較し（ステップ５０４）、クライアント端末１０側か
ら要求されたサービス内容の情報も加味し、最適な認識
対話サーバを一意に決定する（ステップ５０５）。

【００６２】認識対話サーバの能力については、ＣＯＤ
ＥＣの能力（ＣＯＤＥＣの種類、ＣＯＤＥＣ伸張モード
等）、音声データ形式（圧縮音声データ、特徴ベクトル
等）、録音音声出力機能、合成音声出力機能（合成エン
ジンなし、中間表現出力用エンジンあり、波形出力用エ
ンジンあり等）、サービス内容、認識エンジンの能力
（タスク専用エンジン、ディクテーションエンジン、コ
マンド認識用エンジン等）、稼動情報等が挙げられる。

【００６３】最適な認識対話サーバ３０の決定方法につ
いては、クライアント端末１０の能力と認識対話サーバ
側との能力とを比較し、クライアント端末１０と認識対
話サーバ３０との出入力が一致し、且つ最も高い能力で
あり、且つ現在稼動中の認識対話サーバが選択されるよ
うな決定方法を一例として挙げることができる。また、
サービス毎に認識対話サーバ３０が存在する場合、例え
ば、住所タスク用サーバ、氏名タスク用サーバ、電話番
号タスク用サーバ、カードIDタスク用サーバ等専用の認
識対話サーバ３０が存在する場合、クライアント端末１
０から要求されたサービス内容を実行可能な認識対話サ
ーバを選択する方法も一例として挙げられる。

【００６４】次に、認識対話選択サーバ２０は、認識対
話サーバ決定部２２０にて決定した認識対話サーバの情
報をクライアント端末１０側に通知する（ステップ５０
６）。通知の方法については、認識対話サーバ３０のア
ドレス、又は認識対話サーバ３０上の、認識対話を実行
する実行プログラムのアドレス等をＨＴＭＬ等の画面に
埋め込んで通知する方法を一例として挙げることができ
る。

【００６５】次に、クライアント端末１０は、認識対話
選択サーバ２０より認識対話サーバ３０の情報の通知を
受信し、通知された認識対話サーバ３０へ音声認識対話
の開始を要求する（ステップ５０７）。音声認識対話の
開始要求の方法については、認識対話を実行する実行プ
ログラムのアドレスのＵＲＬと音声認識対話を実行する
際に必要な引数をＨＴＴＰのＰＯＳＴコマンドにて送信
する方法が一例として挙げられる。前述の引数について
は、サービス内容を記述する文書(VoiceXML等)やサービ
ス名、音声認識対話実行コマンド等が挙げられる。次
に、認識対話サーバ３０は、クライアント端末１０から
の音声認識対話開始の要求を受け、音声認識対話を実行
する（ステップ５０８）。音声認識対話処理について
は、後で図６を用いて詳しく説明する。

【００６６】音声認識対話を終了する場合は、クライア
ント端末１０側から認識対話終了要求を行う（ステップ
５０９）。認識対話終了要求の方法については、認識対
話を終了する実行プログラムのアドレスをＨＴＴＰのＰ
ＯＳＴコマンドにて送信する方法や、認識対話を実行す
る実行プログラムのアドレスと認識対話を終了させるコ
マンドとをＨＴＴＰのＰＯＳＴコマンドにて送信する方
法を例として挙げることができる。認識対話サーバは、
クライアント端末１０側からの音声認識対話終了要求を
受信し、音声認識対話を終了する（ステップ７１０）。

【００６７】次に、音声認識対話処理について説明す
る。図６は、本発明実施の形態の音声認識対話方法にお
いて、音声認識対話の処理を示すフローチャートであ
る。まず始めに、クライアント端末１０のデータ入力部
１１０に入力された音声が制御部１２０に送信され、制
御部１２０にてデータ処理が行われる。データ処理の内
容については、デジタル化処理、音声検出処理、音声分
析処理を例として挙げることができる。次に、処理され
た音声データは、データ通信部２１０より認識対話サー
バに送信される（ステップ６０１）。音声データについ
ては、デジタル化された音声データ、圧縮された音声デ
ータ、特徴ベクトルを例として挙げられる。

【００６８】認識対話サーバ３０では、クライアント端
末１０より逐次的に送信された音声データをデータ通信
部３１０にて受信し（ステップ６０２）、制御部３２０
にて音声データであると判断し、音声認識対話実行部３
３０に送信する。音声認識対話実行部３３０は、音声認
識対話に必要な認識エンジン、認識用辞書、合成エンジ
ン、合成用辞書等を持っており、逐次的に音声認識対話
処理を行う（ステップ６０３）。

【００６９】音声認識対話処理については、クライアン
ト端末１０から送信される音声データの種類によって処
理内容が変わる。例えば、送信される音声データが圧縮
音声データである場合は圧縮データの伸張、音声分析、
認識処理を行い、特徴ベクトルが送信される場合は音声
の認識処理のみを行う。認識処理終了後、出力された認
識結果をクライアント端末１０へ送信する（ステップ６
０４）。認識結果の形式については、テキストや、テキ
ストの内容にあう合成音声・録音音声や、認識内容を反
映させた画面のURL等を挙げることができる。クライア
ント端末１０では、認識対話サーバ３０から受信した認
識結果を認識結果の形式に従って処理する（ステップ６
０５）。例えば、認識結果の形式が合成音声、又は録音
音声である場合は音声を出力させ、認識結果の形式が画
面のＵＲＬである場合は画面を表示する処理を行う。こ
のようにしてステップ６０１からステップ６０５までの
処理が何度か繰り返され、音声対話が進行する。

【００７０】第二に、本発明実施の形態の音声認識対話
システムにおいて、音声認識対話処理を行っている認識
対話サーバ３０を、他の新規認識対話サーバ８０で音声
認識対話処理を行うように変更する場合について説明す
る。図７は、本発明実施の形態の音声認識対話システム
において、認識対話サーバ３０にて認識対話処理中に認
識対話選択サーバ２０にて新規認識対話サーバ８０を決
定する場合の処理を示すフローチャートである。

【００７１】図７によると、クライアント端末１０と認
識対話サーバ３０との間で複数回やりとりが行われた後
に新規認識対話サーバ８０での処理が必要となった場
合、認識対話サーバ３０から認識対話選択サーバ２０へ
新規認識対話サーバ８０への処理移行が要求される（ス
テップ７０３）。サーバ移行要求が行われる契機として
は、対話の最中にサービス内容が変更された場合や、サ
ービス内容とサーバ能力に不整合が生じた場合や、認識
対話サーバで不具合が生じた場合等を挙げることができ
る。

【００７２】次に認識対話選択サーバ２０からクライア
ント端末１０へクライアント端末１０の能力情報要求が
行われる（ステップ７０４）。次に、クライアント端末
１０は、認識対話選択サーバ２０からの能力情報要求を
受け、クライアント端末１０情報記憶部１４０に記憶さ
れているクライアント端末１０の能力情報を制御部１２
０を通じ、データ通信部１３０から認識対話サーバへ送
信する（ステップ７０５）。

【００７３】認識対話選択サーバ２０では、クライアン
ト端末１０から送信されたクライアント端末１０の能力
情報を受信し、予め認識対話サーバ情報記憶部２３０に
記憶されている複数台の認識対話サーバの能力情報を読
み出し、認識対話サーバ決定部２２０にてクライアント
端末１０側の能力情報と複数台の認識対話サーバの能力
を比較し（ステップ７０６）、認識対話サーバ側からの
移行要求の契機となったサービス内容の情報も加味し、
最適な認識対話サーバを一意に決定する（ステップ７０
７）。クライアント端末１０の能力情報、認識対話サー
バの能力情報、認識対話サーバの決定方法については前
述と同様である。次に、認識対話選択サーバ２０は、認
識対話サーバ決定部２２０にて決定した新規認識対話サ
ーバ８０の情報をクライアント端末１０側に通知する
（ステップ７０８）。通知の方法については、新規認識
対話サーバ８０のアドレス、又は新規認識対話サーバ８
０上の、認識対話を実行する実行プログラムのアドレス
等をＨＴＭＬ等の画面に埋め込んで通知する方法を一例
として挙げることができる。

【００７４】次に、クライアント端末１０側は、新規認
識対話サーバ８０のアドレスの通知を受信し、通知され
た新規認識対話サーバ８０へ音声認識対話の開始を要求
する（ステップ７０９）。音声認識対話の開始要求の方
法については、認識対話を実行する実行プログラムのア
ドレスのURLと音声認識対話を実行する際に必要な引数
をＨＴＴＰのＰＯＳＴコマンドにて送信する方法が一例
として挙げられる。

【００７５】第三に、本発明実施の形態の音声認識対話
システムにおいて、上述した認識対話選択サーバ２０と
認識対話サーバ３０を同一のサーバに実装して、音声認
識対話と適切な音声認識対話サーバの選択を行うことが
できる認識対話代表サーバ４０とすることができる。

【００７６】図８は、本発明実施の形態の認識対話代表
サーバ４０の構成を示すブロック図である。認識対話代
表サーバ４０は、認識対話サーバ３０に認識対話サーバ
決定部４４０と認識対話サーバ情報記憶部４５０とが追
加されている。制御部４２０、音声認識および対話を実
行する音声認識対話実行部４３０、ネットワーク１を介
して通信を行うデータ通信部４１０は、それぞれ制御部
３２０、音声認識および対話を実行する音声認識対話実
行部３３０、ネットワーク１を介して通信を行うデータ
通信部３１０とおなじである。認識対話サーバ決定部４
４０は、認識対話サーバが複数台ある場合に最適な認識
対話サーバを一意に選択、決定する。認識対話サーバ情
報記憶部４５０は、選択、決定された認識対話サーバの
能力情報を記憶する。認識対話サーバの能力について
は、第一の場合と同様に、ＣＯＤＥＣの能力（ＣＯＤＥ
Ｃの種類、ＣＯＤＥＣ伸張モード等）、音声データ形式
（圧縮音声データ、特徴ベクトル等）、録音音声出力機
能、合成音声出力機能（合成エンジンなし、中間表現出
力用エンジンあり、波形出力用エンジンあり等）、サー
ビス内容、認識エンジンの能力（タスク専用エンジン、
ディクテーションエンジン、コマンド認識用エンジン
等）、稼動情報等が挙げられる。

【００７７】この場合の処理は上述の図５の処理を認識
対話代表サーバ４０が単独で行う。

【００７８】次に、音声認識対話処理を行っている認識
対話代表サーバ４０を、他の新規認識対話サーバ８０で
音声認識対話処理を行うように変更する場合について説
明する。図９は、本発明実施の形態の音声認識対話方法
において、認識対話処理中に認識対話代表サーバ４０に
て新規認識対話サーバ８０を決定する場合の処理を示す
フローチャートである。図９によると、端末側と認識対
話サーバ側との間で複数回やりとりが行われた後に新規
認識対話サーバ８０での処理が必要となった場合、認識
対話代表サーバ４０からクライアント端末１０へクライ
アント端末１０の能力情報要求が行われる（ステップ９
０３）。クライアント端末１０の能力情報要求が行われ
る契機としては、対話の最中にサービス内容が変更され
た場合や、サービス内容とサーバ能力に不整合が生じた
場合や、認識対話サーバで不具合が生じた場合等を挙げ
ることができる。

【００７９】次に、クライアント端末１０は、認識対話
代表サーバ４０からの能力情報要求を受け、端末情報記
憶部１４０に記憶されているクライアント端末１０の能
力情報を制御部１２０を通じ、データ通信部１３０から
認識対話代表サーバ４０へ送信する（ステップ９０
４）。認識対話代表サーバ４０では、クライアント端末
１０側から送信されたクライアント端末１０の能力情報
を受信し、予め認識対話サーバ情報記憶部４５０に記憶
されている複数台の認識対話サーバの能力情報を読み出
し、認識対話サーバ決定部４４０にてクライアント端末
１０の能力情報と複数台の認識対話サーバの能力を比較
し（ステップ９０５）、クライアント端末１０から要求
されたサービス内容の情報も加味し、最適な認識対話サ
ーバを一意に決定する（ステップ９０６）。クライアン
ト端末１０の能力情報、認識対話サーバの能力情報、認
識対話サーバの決定方法については前述と同様である。

【００８０】次に、認識対話代表サーバ４０は、認識対
話サーバ決定部４４０にて決定した新規認識対話サーバ
８０の情報をクライアント端末１０に通知する（ステッ
プ９０７）。通知の方法については、新規認識対話サー
バ８０のアドレス、又は新規認識対話サーバ８０上の、
認識対話を実行する実行プログラムのアドレス等をＨＴ
ＭＬ等の画面に埋め込んで通知する方法を一例として挙
げることができる。

【００８１】次に、クライアント端末１０側は、新規認
識対話サーバ８０のアドレスの通知を受信し、通知され
た新規認識対話サーバ８０へ音声認識対話の開始を要求
する（ステップ９０８）。音声認識対話の開始要求の方
法については、認識対話を実行する実行プログラムのア
ドレスのURLと音声認識対話を実行する際に必要な引数
をＨＴＴＰのＰＯＳＴコマンドにて送信する方法が一例
として挙げられる。

【００８２】第四に、本発明実施の形態の音声認識対話
システムにおいて、認識対話サーバＣ５０が、サービス
内容をサービス内容保持サーバ６０、例えばコンテンツ
プロバイダーから読み込む場合について説明する。この
場合、サービス内容保持サーバ６０を認識対話選択サー
バ２０に実装し、サービスを利用者へ提供するインター
フェースとしてｗｅｂを用いるｗｅｂサーバとしてもよ
い。また、この場合クライアント端末１０には、サービ
ス内容を選択したり入力したりするインタフェースとし
てｗｅｂブラウザを実装してもよい。

【００８３】図１０は、本発明実施の形態の認識対話サ
ーバＣ５０を示す図である。認識対話代表サーバ４０に
音声認識対話起動部５３０とサービス内容読み込み部５
４０とが追加されている。音声認識対話起動部５３０
は、音声認識対話処理を起動し、クライアント端末１０
側から送信されたサービス情報より、サービス内容を保
持するサーバへサービス内容の要求を行う。サービス内
容には、住所認識、名前認識、着信メロディーの曲名認
識、電話番号認識、クレジット番号認識などのサービス
が挙げられる。サービス内容読み込み部５４０は、サー
ビス内容をサービス内容保持サーバ６０から読み込む。
音声認識対話実行部５５０、制御部５２０、データ通信
部５１０は、それぞれ音声認識対話実行部４３０、制御
部４２０、データ通信部４１０と同じである。認識対話
サーバ情報記憶部５７０、認識対話サーバ決定部５６０
は、実装されていなくてもよい。この場合、ひとつの認
識対話サーバの決定は、認識対話選択サーバ２０により
行われる。認識対話サーバ情報記憶部５７０、認識対話
サーバ決定部５６０が実装される場合は、それぞれ認識
対話サーバ情報記憶部４５０、認識対話サーバ決定部４
４０と同じである。

【００８４】図１１は、本発明実施の形態の音声認識対
話方法において、認識対話サーバＣ５０がサービス内容
をサービス内容保持サーバ６０から読み込む場合の処理
を示すフローチャートである。

【００８５】図１１のステップ１１０１からステップ１
１０５までの処理については、前述のステップ５０１か
らステップ５０６の処理と同一である。次にクライアン
ト端末１０は、認識対話選択サーバ２０より通知された
認識対話サーバＣ５０の情報より、認識対話サーバＣ５
０へ音声認識対話開始要求を行う（ステップ１１０
６）。要求の際に、サービス情報の送信を行う。音声認
識対話の開始要求の方法については、認識対話を実行す
る実行プログラムのアドレスのＵＲＬとサービス内容情
報をＨＴＴＰのＰＯＳＴコマンドにて送信する方法が一
例として挙げられる。サービス内容情報については、サ
ービス内容を記述する文書(VoiceXML等)やサービス名が
挙げられる。

【００８６】次に、認識対話サーバＣ５０は、クライア
ント端末１０からの要求をデータ通信部５１０で受け、
音声認識対話起動部５３０にて音声認識対話処理を起動
し、クライアント端末１０側から送信されたサービス情
報より、サービス内容保持サーバ６０へサービス内容の
要求を行う（ステップ１１０７）。サービス内容の要求
方法については、クライアント端末１０から送信された
サービス内容の情報がアドレスである場合、そのアドレ
スにアクセスする方法を一例として挙げることができ
る。また、クライアント端末１０から送信されたサービ
ス情報がサービス名である場合は、サービス名と対をな
すアドレスを検索し、そのアドレスにアクセスする方法
も例として挙げられる。

【００８７】次に、サービス内容保持サーバ６０では、
認識対話サーバＣ５０からの要求を受け、サービス内容
を送信する（ステップ１１０８）。認識対話サーバＣ５
０では、送信されたサービス内容をデータ通信部５１０
で受け、サービス内容読み込み部５４０にて読み込み
（ステップ１１０９）、音声認識対話処理を開始する
（ステップ１１１０）。ステップ１１１０からステップ
１１１２までの処理については、前述のステップ５０７
からステップ５１０までの処理と同一である。

【００８８】上述のシステムでは、認識対話選択サーバ
２０と認識対話サーバＣ５０が双方ネットワークに接続
されている例を説明したがどちらかひとつがネットワー
クに接続されている構成でもよい。

【００８９】上述の各ステップはサーバコンピュータ９
０１上で動作するプログラムにより実現することができ
る。図１２は、本発明実施の形態の音声認識対話方法を
サーバコンピュータ９０１上で実行させるプログラムと
そのプログラムが記録された記録媒体９０２を示す図で
ある。

【００９０】

【発明の効果】本発明の音声認識対話システム、方法、
プログラムを用いた場合、複数の認識対話サーバが存在
する場合においても、複数台の中から最適な認識対話サ
ーバを選択して決定し、音声認識対話を実行することが
可能となる。更に、種々の理由により対話中に新規認識
対話サーバでの処理が必要となった場合においても、ク
ライアント端末１０は他の適切な認識対話サーバに自動
的にアクセスすることが可能となり、認識対話処理を続
行することが可能となる。

【図面の簡単な説明】

【図１】本発明実施の形態の音声認識対話システムの構
成を示す図である。

【図２】本発明のクライアント端末１０の構成を示すブ
ロック図である。

【図３】本発明実施の形態の認識対話サーバ３０の構成
を示すブロック図である。

【図４】本発明の認識対話選択サーバ２０の構成を示す
ブロック図である。

【図５】本発明実施の形態の音声認識対話システムにお
いて、認識対話選択サーバ２０にて認識対話サーバを決
定する場合の処理を示すフローチャートである。

【図６】本発明実施の形態の音声認識対話方法におい
て、音声認識対話の処理を示すフローチャートである。

【図７】本発明実施の形態の音声認識対話システムにお
いて、認識対話サーバ３０にて認識対話処理中に認識対
話選択サーバ２０にて新規認識対話サーバ８０を決定す
る場合の処理を示すフローチャートである。

【図８】本発明実施の形態の認識対話代表サーバ４０の
構成を示すブロック図である。

【図９】本発明実施の形態の音声認識対話方法におい
て、認識対話処理中に認識対話代表サーバ４０にて新規
認識対話サーバ８０を決定する場合の処理を示すフロー
チャートである。

【図１０】本発明実施の形態の認識対話サーバＣ５０を
示す図である。図４の装置に音声認識対話起動部とサー
ビス内容読み込み部とが追加されている。

【図１１】本発明実施の形態の音声認識対話方法におい
て、認識対話サーバＣ５０がサービス内容をサービス内
容保持サーバ６０から読み込む場合の処理を示すフロー
チャートである。

【図１２】本発明実施の形態の音声認識対話方法をサー
バコンピュータ９０１上で実行させるプログラムとその
プログラムが記録された記録媒体９０２を示す図であ
る。

【符号の説明】

１ネットワーク１０クライアント端末２０認識対話選択サーバ３０認識対話サーバＡ４０認識対話代表サーバ５０認識対話サーバＣ６０サービス内容保持サーバ８０新規認識対話サーバ１１０データ入力部１２０制御部１３０データ通信部１４０端末情報記憶部２１０データ通信部２２０認識対話サーバ決定部２３０認識対話サーバ情報記憶部３１０データ通信部３２０制御部３３０音声認識対話実行部４１０データ通信部４２０制御部４３０音声認識対話実行部４４０認識対話サーバ決定部４５０認識対話サーバ情報記憶部５１０データ通信部５２０制御部５３０音声認識対話起動部５４０サービス内容読み込み部５５０音声認識対話実行部５６０認識対話サーバ決定部５７０認識対話サーバ情報記憶部９０１サーバコンピュータ９０２記録媒体

Claims

【特許請求の範囲】

【請求項１】音声情報の送信手段と複数個の音声認識
対話を行う手段とをネットワークで接続した音声認識対
話装置であって、前記音声情報の送信手段の能力と前記
音声認識対話を行う手段の能力とによって一つの前記音
声認識対話を行う手段を決定することを特徴とする音声
認識対話システム。
【請求項２】音声認識対話を行う手段に対して要求す
るサービスと音声情報を送信する手段と、複数個の前記
音声認識対話を行う手段とをネットワークで接続した音
声認識対話装置であって、前記サービスと前記音声情報
を送信する手段の能力と前記音声認識対話を行う手段の
能力とによって一つの前記音声認識対話を行う手段を決
定することを特徴とする音声認識対話システム。
【請求項３】音声認識対話を行う手段に対して要求す
るサービスを保持するサービス保持手段と、音声情報を
送信する手段と、複数個の前記音声認識対話を行う手段
とをネットワークで接続した音声認識対話装置であっ
て、前記サービスと前記音声情報を送信する手段の能力
と前記音声認識対話を行う手段の能力とによって一つの
前記音声認識対話を行う手段を決定することを特徴とす
る音声認識対話システム。
【請求項４】決定された前記音声認識対話を行う手段
を特定する情報を前記音声情報を送信する手段へ送り、
前記音声情報を送信する手段と前記決定された音声認識
対話を行う手段との間で前記音声情報を交換し音声認識
対話を行うことを特徴とする請求項１または３記載の音
声認識対話システム。
【請求項５】決定された前記音声認識対話を行う手段
を特定する情報を前記サービスと音声情報を送信する手
段へ送り、前記前記音声情報を送信する手段と前記決定
された音声認識対話を行う手段との間で前記サービスと
音声情報を交換し音声認識対話を行うことを特徴とする
請求項２記載の音声認識対話システム。
【請求項６】決定された前記音声認識対話を行う手段
を、他の決定された前記音声認識対話を行う手段に変更
する手段をさらに有することを特徴とする請求項４また
は５記載の音声認識対話システム。
【請求項７】複数個の前記音声認識対話を行う手段か
ら１つの前記音声認識対話を行う手段を決定する部分
が、前記音声情報の送信手段の能力と複数個の前記音声
認識対話を行う手段の能力とを比較し、前記音声認識対
話を行う手段の前記音声情報の入力形式と前記音声情報
の送信手段との前記音声情報の出力形式が一致し、且
つ、特定の能力を持つ前記音声認識対話を行う手段を決
定する請求項１、３、４または６記載の音声認識対話シ
ステム。
【請求項８】複数個の前記音声認識対話を行う手段か
ら１つの前記音声認識対話を行う手段を決定する部分
が、前記サービスと音声情報の送信手段の能力と複数個
の前記音声認識対話を行う手段の能力とを比較し、前記
音声認識対話を行う手段の前記音声情報の入力形式と前
記サービスと音声情報の送信手段との前記音声情報の出
力形式が一致し、且つ、特定の能力を持つ前記音声認識
対話を行う手段を決定する請求項２、５または６記載の
音声認識対話システム。
【請求項９】音声認識対話サーバに対して要求するサ
ービスと音声情報を送信するクライアント端末と、複数
個の音声認識対話サーバと、前記クライアント端末と前
記音声認識対話サーバの中からひとつを選択する音声認
識対話選択サーバとがネットワークにより接続された音
声認識対話システムであって、前記音声認識対話選択サーバは、ネットワークを介して
通信を行うデータ通信部と、前記音声認識対話サーバの
能力を記憶する認識対話サーバ情報記憶部と、前記端末
情報記憶部内の前記クライアント端末の能力を読み出し
て、前記認識対話サーバ情報記憶部内の音声認識対話サ
ーバの能力とを比較して特定の能力を有するひとつの音
声認識対話サーバを決定し、前記ひとつの音声認識対話
サーバの情報を前記クライアント端末へ送る認識対話サ
ーバ決定部を有し、前記クライアント端末は、音声情報とサービスを入力す
るデータ入力部と、前記クライアント端末の能力を記憶
する端末情報記憶部と、ネットワークを介して通信を行
うデータ通信部と、前記ひとつの音声認識対話サーバに
対して前記音声情報を送信するように前記クライアント
端末を制御する制御部から構成され、前記音声認識対話サーバは、前記クライアント端末から
の前記音声情報により音声認識対話を実行する音声認識
対話実行部と、ネットワークを介して通信を行うデータ
通信部と、音声認識対話サーバを制御する制御部から構
成されることを特徴とする音声認識対話システム。
【請求項１０】さらにサービスを保持するサービス内
容保持サーバがネットワークに接続され、前記音声認識
対話サーバは前記サービス内容保持サーバからサービス
内容を読み込む読み込み部をさらに有することを特徴と
する請求項９記載の音声認識対話システム。
【請求項１１】前記音声認識対話サーバはほかの前記
音声認識対話サーバへ音声認識対話処理を移行させる要
求を前記音声認識対話選択サーバへ出す手段を、さらに
有することを特徴とする請求項９または１０記載の音声
認識対話システム。
【請求項１２】前記音声情報がデジタル化された音声
データ、又は圧縮された音声データ、又は特徴ベクトル
である請求項１から１１記載の音声認識対話装置。
【請求項１３】前記送信手段の能力が、ＣＯＤＥＣの
能力、音声データ形式、録音・合成音声入出力機能であ
る請求項１から８記載の音声認識対話装置。
【請求項１４】前記音声認識対話を行う手段の能力
が、ＣＯＤＥＣの能力、音声データ形式、録音・合成音
声出力機能、サービス内容、認識の能力、稼動情報であ
る請求項１から８記載の音声認識対話装置。
【請求項１５】前記クライアント端末の能力が、ＣＯ
ＤＥＣの能力、音声データ形式、録音・合成音声入出力
機能である請求項９から１１記載の音声認識対話装置。
【請求項１６】前記音声認識対話サーバの能力が、Ｃ
ＯＤＥＣの能力、音声データ形式、録音・合成音声出力
機能、サービス内容、認識の能力、稼動情報である請求
項９、１０、１１、１５記載の音声認識対話装置。
【請求項１７】複数の音声認識対話を行う手段の中か
らひとつの音声認識対話を行う手段を選択する音声認識
対話選択方法であって、音声情報の送信手段から音声認識対話処理を含むサービ
スの要求を受け取る第１のステップと、前記音声情報の
送信手段の能力を要求する第２のステップと、前記音声
情報の送信手段から前記音声情報の送信手段の能力を送
信する第３のステップと、前記音声情報の送信手段の能
力情報と複数の前記音声認識対話を行う手段の能力を比
較し、前記音声認識対話を行う手段を一意に決定する第
４のステップと、前記音声認識対話を行う手段を決定す
る部分から前記音声情報の送信手段へ一意に決定された
前記音声認識対話を行う手段の情報を通知する第５のス
テップと、前記音声情報の送信手段と一意に決定された
前記音声認識対話を行う手段との間で音声認識対話処理
を行う第６のステップを有する音声認識対話方法。
【請求項１８】前記音声情報の送信手段と前記音声認
識対話を行う手段との間で音声認識対話処理が行われて
いる最中に、前記音声認識対話を行う手段から音声認識
対話処理を他の前記音声認識対話を行う手段へ移行する
要求を送信する第７のステップと、前記音声情報の送信
手段へ前記音声情報の送信手段の能力情報を要求する第
８のステップと、前記音声情報の送信手段から前記音声
情報の送信手段の能力情報を送信する第９のステップと
前記音声情報の送信手段の能力情報と複数個の前記音声
認識対話を行う手段の能力情報とを比較し、前記音声認
識対話を行う手段を新規に一意に決定する第１０のステ
ップと、前記音声情報の送信手段へ新規に一意に決定さ
れた前記音声認識対話を行う手段の情報を通知する第１
１のステップと、前記音声情報の送信手段と新規に一意
に決定された前記音声認識対話を行う手段との間で音声
認識対話処理を行う第１２のステップをさらに有するこ
とを特徴とする請求項１７記載の音声認識対話方法。
【請求項１９】複数の音声認識対話を行う手段の中か
らひとつの音声認識対話を行う手段を選択する音声認識
対話選択方法であって、音声情報の送信手段から音声認識対話処理を含むサービ
スの要求を受け取る第１のステップと、前記音声情報の
送信手段の能力を要求する第２のステップと、前記音声
情報の送信手段から前記音声情報の送信手段の能力を送
信する第３のステップと、前記音声情報の送信手段の能
力情報と複数の前記音声認識対話を行う手段の能力を比
較し、前記音声認識対話を行う手段を一意に決定する第
４のステップと、前記音声認識対話を行う手段を決定す
る部分から前記音声情報の送信手段へ一意に決定された
前記音声認識対話を行う手段の情報を通知する第５のス
テップと、前記音声情報の送信手段と一意に決定された
前記音声認識対話を行う手段との間で音声認識対話処理
を行う第６のステップと、一意に決定された前記音声認
識対話を行う手段からサービス内容を保持手段へサービ
ス内容を要求する第７のステップと、前記サービス内容
を保持する部分から一意に決定された前記音声認識対話
を行う手段へサービス内容を送信する第８のステップ
と、一意に決定された前記音声認識対話を行う手段にて
送信された前記サービス内容を読み込む第９のステップ
と、前記音声情報の送信手段と一意に決定された前記音
声認識対話を行う手段との間で音声認識対話処理を行う
第１０のステップを有することを特徴とする音声認識対
話方法。
【請求項２０】前記音声情報の送信手段と前記音声認
識対話を行う手段との間で音声認識対話処理が行われて
いる最中に、前記音声認識対話を行う手段から音声認識
対話処理を他の前記音声認識対話を行う手段へ移行する
要求を送信する第１１のステップと、前記音声情報の送
信手段へ前記音声情報の送信手段の能力情報を要求する
第１２のステップと、前記音声情報の送信手段から前記
音声情報の送信手段の能力情報を送信する第１３のステ
ップと前記音声情報の送信手段の能力情報と複数個の前
記音声認識対話を行う手段の能力情報とを比較し、前記
音声認識対話を行う手段を新規に一意に決定する第１４
のステップと、前記音声情報の送信手段へ新規に一意に
決定された前記音声認識対話を行う手段の情報を通知す
る第１５のステップと、前記音声情報の送信手段と新規
に一意に決定された前記音声認識対話を行う手段との間
で音声認識対話処理を行う第１６のステップをさらに有
することを特徴とする請求項１９記載の音声認識対話方
法。
【請求項２１】前記音声情報がデジタル化された音声
データ、又は圧縮された音声データ、又は特徴ベクトル
である請求項１７から２０記載の音声認識対話方法。
【請求項２２】前記音声情報の送信手段の能力が、Ｃ
ＯＤＥＣの能力、音声データ形式、録音・合成音声入出
力機能、サービス内容である請求項１７から２０記載の
音声認識対話方法。
【請求項２３】前記音声認識対話を行う手段の能力
が、ＣＯＤＥＣの能力、音声データ形式、録音・合成音
声出力機能、サービス内容、認識の能力、稼動情報であ
る請求項１７から２０記載の音声認識対話方法。
【請求項２４】ネットワークを介して音声情報を送信
する送信手段と、前記音声情報に対して音声認識対話を
行う手段が接続された音声認識対話システムにおいて、
複数の前記音声認識対話を行う手段の中からひとつの前
記音声認識対話を行う手段を選択を行う音声認識対話選
択装置であって、前記選択を行う際に前記音声情報の送
信手段の能力と前記音声認識対話を行う手段の能力とに
よって一つの前記音声認識対話を行う手段を決定するこ
とを特徴とする音声認識対話選択装置。
【請求項２５】複数の音声認識対話を行う手段の中か
らひとつの音声認識対話を行う手段を選択する音声認識
対話選択装置であって、音声認識対話処理を含むサービスの要求または音声認識
対話を行う手段の変更を受け取る第１の手段と、前記音
声情報の送信手段の能力を要求する第２の手段と、前記
音声情報の送信手段から前記音声情報の送信手段の能力
を送信する第３の手段と、前記音声情報の送信手段の能
力情報と複数の前記音声認識対話を行う手段の能力を比
較し、前記音声認識対話を行う手段を一意に決定する第
４の手段と、前記音声認識対話を行う手段を決定する部
分から前記音声情報の送信手段へ一意に決定された前記
音声認識対話を行う手段の情報を通知する第５の手段と
を有することを特徴とする音声認識対話選択装置。
【請求項２６】前記音声情報がデジタル化された音声
データ、又は圧縮された音声データ、又は特徴ベクトル
であることを特徴とする請求項２４または２５記載の音
声認識対話選択装置。
【請求項２７】前記音声情報の送信手段の能力が、Ｃ
ＯＤＥＣの能力、音声データ形式、録音・合成音声入出
力機能、サービス内容であることを特徴とする請求項２
４または２５記載の音声認識対話選択装置。
【請求項２８】前記音声認識対話を行う手段の能力
が、ＣＯＤＥＣの能力、音声データ形式、録音・合成音
声出力機能、サービス内容、認識の能力、稼動情報であ
ることを特徴とする請求項２４または２５記載の音声認
識対話選択装置。
【請求項２９】複数の音声認識対話を行う手段の中か
らひとつの音声認識対話を行う手段を選択する音声認識
対話選択プログラムであって、音声情報の送信手段から音声認識対話処理を含むサービ
スの要求を受け取る第１の処理と、前記音声情報の送信
手段の能力を要求する第２の処理と、前記音声情報の送
信手段から前記音声情報の送信手段の能力を送信する第
３の処理と、前記音声情報の送信手段の能力情報と複数
の前記音声認識対話を行う手段の能力を比較し、前記音
声認識対話を行う手段を一意に決定する第４の処理と、
前記音声認識対話を行う手段を決定する部分から前記音
声情報の送信手段へ一意に決定された前記音声認識対話
を行う手段の情報を通知する第５の処理と、前記音声情
報の送信手段と一意に決定された前記音声認識対話を行
う手段との間で音声認識対話処理を行う第６の処理を有
する音声認識対話プログラム。
【請求項３０】前記音声情報の送信手段と前記音声認
識対話を行う手段との間で音声認識対話処理が行われて
いる最中に、前記音声認識対話を行う手段から音声認識
対話処理を他の前記音声認識対話を行う手段へ移行する
要求を送信する第７の処理と、前記音声情報の送信手段
へ前記音声情報の送信手段の能力情報を要求する第８の
処理と、前記音声情報の送信手段から前記音声情報の送
信手段の能力情報を送信する第９の処理と前記音声情報
の送信手段の能力情報と複数個の前記音声認識対話を行
う手段の能力情報とを比較し、前記音声認識対話を行う
手段を新規に一意に決定する第１０の処理と、前記音声
情報の送信手段へ新規に一意に決定された前記音声認識
対話を行う手段の情報を通知する第１１の処理と、前記
音声情報の送信手段と新規に一意に決定された前記音声
認識対話を行う手段との間で音声認識対話処理を行う第
１２の処理をさらに有することを特徴とする請求項２９
記載の音声認識対話プログラム。
【請求項３１】複数の音声認識対話を行う手段の中か
らひとつの音声認識対話を行う手段を選択する音声認識
対話選択プログラムであって、音声情報の送信手段から音声認識対話処理を含むサービ
スの要求を受け取る第１の処理と、前記音声情報の送信
手段の能力を要求する第２の処理と、前記音声情報の送
信手段から前記音声情報の送信手段の能力を送信する第
３の処理と、前記音声情報の送信手段の能力情報と複数
の前記音声認識対話を行う手段の能力を比較し、前記音
声認識対話を行う手段を一意に決定する第４の処理と、
前記音声認識対話を行う手段を決定する部分から前記音
声情報の送信手段へ一意に決定された前記音声認識対話
を行う手段の情報を通知する第５の処理と、前記音声情
報の送信手段と一意に決定された前記音声認識対話を行
う手段との間で音声認識対話処理を行う第６の処理と、
一意に決定された前記音声認識対話を行う手段からサー
ビス内容を保持手段へサービス内容を要求する第７の処
理と、前記サービス内容を保持する部分から一意に決定
された前記音声認識対話を行う手段へサービス内容を送
信する第８の処理と、一意に決定された前記音声認識対
話を行う手段にて送信された前記サービス内容を読み込
む第９の処理と、前記音声情報の送信手段と一意に決定
された前記音声認識対話を行う手段との間で音声認識対
話処理を行う第１０の処理を有することを特徴とする音
声認識対話プログラム。
【請求項３２】前記音声情報の送信手段と前記音声認
識対話を行う手段との間で音声認識対話処理が行われて
いる最中に、前記音声認識対話を行う手段から音声認識
対話処理を他の前記音声認識対話を行う手段へ移行する
要求を送信する第１１の処理と、前記音声情報の送信手
段へ前記音声情報の送信手段の能力情報を要求する第１
２の処理と、前記音声情報の送信手段から前記音声情報
の送信手段の能力情報を送信する第１３の処理と前記音
声情報の送信手段の能力情報と複数個の前記音声認識対
話を行う手段の能力情報とを比較し、前記音声認識対話
を行う手段を新規に一意に決定する第１４の処理と、前
記音声情報の送信手段へ新規に一意に決定された前記音
声認識対話を行う手段の情報を通知する第１５の処理
と、前記音声情報の送信手段と新規に一意に決定された
前記音声認識対話を行う手段との間で音声認識対話処理
を行う第１６の処理をさらに有することを特徴とする請
求項３１記載の音声認識対話プログラム。
【請求項３３】前記音声情報がデジタル化された音声
データ、又は圧縮された音声データ、又は特徴ベクトル
であることを特徴とする請求項２９から３２記載の音声
認識対話プログラム。
【請求項３４】前記音声情報の送信手段の能力が、Ｃ
ＯＤＥＣの能力、音声データ形式、録音・合成音声入出
力機能、サービス内容であることを特徴とする請求項２
９から３２記載の音声認識対話プログラム。
【請求項３５】前記音声認識対話を行う手段の能力
が、ＣＯＤＥＣの能力、音声データ形式、録音・合成音
声出力機能、サービス内容、認識の能力、稼動情報であ
ることを特徴とする請求項２９から３２記載の音声認識
対話プログラム。