JP3037902B2

JP3037902B2 - 音声対話システム

Info

Publication number: JP3037902B2
Application number: JP8266042A
Authority: JP
Inventors: 靖村澤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-10-07
Filing date: 1996-10-07
Publication date: 2000-05-08
Anticipated expiration: 2016-10-07
Also published as: JPH10111698A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声を入力し、
入力した音声を認識して、認識した音声に基づく音声応
答を行う音声対話システムに関するものである。特に、
音声対話システムの設計、実行に関するものである。

【０００２】

【従来の技術】図３３は、従来の音声対話システムのハ
ードウェア構成の一例を示す図である。図において、１
０００は音声認識応答クライアントである。１１００は
音声認識応答装置であり、ローカルエリアネットワーク
（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）１
０９０で、音声認識応答クライアント１０００と接続さ
れている。１１０５はシステム制御カード、１１９０は
非同期システムバスであるＶＭＥバス（ＶｅｒｓａＭ
ｏｄｕｌｅＥｕｒｏｐｅａｎｂｕｓ）である。シス
テム制御カード１１０５は、ＶＭＥバス１１９０を経由
して、音声認識応答カード１２００を複数接続可能であ
る。

【０００３】図３４は、従来の音声対話システムのソフ
トウェア構成の一例を示す図である。図において、１０
１０は音声対話により所定のアプリケーションを実行す
るアプリケーションプログラムである。音声認識応答ラ
イブラリ１０２０は、音声認識応答装置を使用する上記
アプリケーションプログラム１０１０をサポートするＣ
言語ライブラリであり、例えば、電話発信、音声認識、
音声出力という単位で音声認識応答装置に対して命令を
発行する。認識単語辞書応答音声作成ユーティリティ１
０３０は、音声認識応答装置１１００を使用するアプリ
ケーションを作成する上で、必要となる認識単語辞書及
び応答音声データを作成するためのソフトウェアであ
る。音声認識応答サーバ１１１０は、音声認識応答装置
１１００を制御するサーバソフトウェアである。音声認
識応答サーバ１１１０は、音声認識応答ライブラリ１０
２０を経由して、音声認識応答クライアント１０００の
アプリケーションプログラム１０１０との通信を行う。
音声認識応答ドライバ１１２０は、音声認識応答サーバ
１１１０からの指示を受けて音声認識応答ファームウェ
ア１２１０や音声認識応答カード１２００の制御を行
う。音声認識応答ファームウェア１２１０は、音声認識
応答カード１２００上で音声やダイアルの認識、応答音
声の出力及び電話の制御を行うファームウェアである。

【０００４】

【発明が解決しようとする課題】このような構成からな
る音声認識応答装置においては、利用者（話者）の不正
入力や周囲のノイズ入力に備えて聞き直しの手続が必要
である。また、入力した音声を認識した結果である認識
内容の確認の手続も必要である。従来のアプリケーショ
ンプログラムのプログラミングにおいては、音声認識応
答ライブラリ１０２０に用意されている基本的な命令を
用いて全てプログラミングする必要があり、上記のよう
な手続のノウハウを持った人間でないとプログラミング
が難しいという問題点があった。また、対話システムに
不慣れな人間のプログラミングが難しいという問題点が
あった。更に、適用するシステムの内容によって、対話
内容や対話処理のつながりが異なり、作成したアプリケ
ーションプログラムの流用性や保守性がよくないという
問題点があった。このため、音声対話システムに不慣れ
な人間でも、設計のできる音声対話システムの実現が望
まれていた。

【０００５】この発明は、上記のような問題点を解決す
るためになされたものであり、音声対話システムに精通
している人間でなくても効率よくアプリケーションの設
計のできる音声対話システムを実現することを目的とし
ている。また、設計するアプリケーションの保守性のよ
い音声対話システムを実現することを目的としている。

【０００６】

【課題を解決するための手段】この発明に係る音声対話
システムは、音声を入力し、入力した音声を認識して、
認識した音声に基づく音声応答により対話処理を行う音
声対話システムにおいて、以下の要素を有することを特
徴とする。（ａ）上記音声対話システムが行なう対話処理の動作を
動作の種類毎にブロック化して、ブロック化された対話
処理の動作の種類を所定の処理フローが割り当てられた
ブロックタイプとして予め定義するとともに、予め定義
されたブロックタイプから一つのブロックタイプを決定
して、決定したブロックタイプに割り当てられた処理フ
ローを用いてアプリケーションに適用可能な対話処理の
動作を動作ブロックとして記述し、記述された動作ブロ
ックを１つ以上組み合わせて所定の対話処理アプリケー
ションを構成するシーケンス定義データとして予め記述
して記憶するシーケンス定義データ記述部、（ｂ）上記シーケンス定義データを入力し解釈して実行
するシーケンス定義データ実行部、（ｃ）上記シーケンス定義データを上記シーケンス定義
データ実行部に入力させて実行させることにより上記所
定の対話処理アプリケーションを実行するアプリケーシ
ョン実行部。

【０００７】上記シーケンス定義データは、上記動作ブ
ロックの処理内容を決定するパラメータと、上記パラメ
ータに対応するパラメータ値とを定義するパラメータ定
義部を有することを特徴とする。

【０００８】上記シーケンス定義データは、所定の条件
により、処理を分岐させる分岐制御定義部を有すること
を特徴とする。

【０００９】上記シーケンス定義データは、上記入力し
た音声を認識する際に、上記入力した音声に対応する認
識候補を用いて、上記入力した音声の確認を行うことを
特徴とする。

【００１０】上記シーケンス定義データは、上記入力し
た音声を認識する際に、複数の認識候補を採用し、上記
複数の認識候補のうちの１つの認識候補を用いて上記入
力した音声の確認を行い、上記認識候補が、正しい認識
でなかったとき、上記複数の認識候補のうちの他の認識
候補を用いて、入力した音声の確認を行うことを特徴と
する。

【００１１】上記シーケンス定義データは、更に、上記
動作ブロックの実行結果と分岐先の対応を参照テーブル
として定義し、上記シーケンス定義データ実行部は、上
記参照テーブルを参照して上記動作ブロックの実行結果
により処理を分岐させることを特徴とする。

【００１２】

【発明の実施の形態】

実施の形態１．この発明の音声対話システムでは、音声
対話システムの動作を予めテキストデータで定義する。
この音声対話システムの動作を定義したデータをシーケ
ンス定義データと呼ぶ。シーケンス定義データは、シー
ケンス定義データ記述部に予め記憶される。アプリケー
ション実行部は、このシーケンス定義データを指定し
て、シーケンス定義データ実行部を呼び出す。呼び出さ
れたシーケンス定義データ実行部は、シーケンス定義デ
ータ記述部から指定されたシーケンス定義データを読み
込み、シーケンス定義データの記述内容を解釈して、音
声認識応答装置を動作させる。

【００１３】図１は、この実施の形態の音声対話システ
ムの構成図である。図において、１０はシーケンス定義
データ記述部であり、動作ブロック１２及び参照テーブ
ル１４をシーケンス定義データとして予め記憶する。動
作ブロック１２及び参照テーブル１４については、後述
する。２０は音声対話システムの処理するアプリケーシ
ョンを実行するアプリケーション実行部である。シーケ
ンス定義データ実行部３０は、前述したように、アプリ
ケーション実行部２０から指定されたシーケンス定義デ
ータの内容に従って、音声認識応答装置１１００を動作
させる。アプリケーション実行部２０とシーケンス定義
データ実行部３０は、通信エリア４０を用いてデータを
やりとりする。通信エリア４０には、例えば、音声認識
結果などが格納される。格納されるデータは、実行する
動作ブロックの内容により異なる。

【００１４】図２は、この発明の音声応答システムのソ
フトウェア構成図である。図において、Ｑ＆Ａシーケン
ス生成ユーティリティ１００が、図１のシーケンス定義
データ実行部３０に相当する。他の符号については、前
述した図３４と同一である。また、この発明の音声応答
システムのハードウェア構成は、前述した図３３と同一
の構成で構わない。シーケンス定義データ記述部１０
は、図３３に示した音声認識応答クライアント１０００
又は音声認識応答装置１１００に接続されているディス
クに配置されるものとする。或いは、シーケンス定義デ
ータ実行部３０からアクセス可能な場所であれば、他の
場所に配置しても構わない。

【００１５】次に、シーケンス定義データの作成方法に
ついて述べる。図３〜図５に音声応答の一例として、旅
行案内の動作フロー例を示す。図３〜図５は、（Ａ）〜
（Ｆ）で接続される一連の動作フローを示す流れ図であ
る。この例では、旅行する方面（Ｓ１４）、地名（Ｓ１
８，Ｓ２０，Ｓ２２）、出発日（Ｓ２４）、予算（Ｓ２
６）を利用者に問い合わせる。利用者が音声で入力した
回答をそれぞれ認識した後、その結果を基に他のデータ
ベースへ検索処理（Ｓ２８）を行い、案内を行う。この
動作フローの２重四角枠部分（Ｓ１０，Ｓ１２，Ｓ１
４，・・・，Ｓ３６，Ｓ４０）を、動作ブロックと呼
ぶ。動作ブロックは、音声認識応答装置への典型的な処
理をひとかたまりにしたもので、この動作ブロックを組
み合わせることによってアプリケーションを作成するこ
とができる。動作ブロック間のリンクに関して、単純に
次の動作ブロックへ一意に進む場合もあるが、動作ブロ
ックの実行結果によって分岐することもある（旅行する
方面の認識結果から地名の認識へ進む場面（Ｓ１６）な
ど）。その実行結果と分岐先に対応を示すためのテーブ
ルを参照テーブルと呼ぶ。シーケンス定義データは、こ
の動作ブロックと参照テーブルの定義とそれらのパラメ
ータ設定を記述したものである。

【００１６】図６に、シーケンス定義データの記述形式
を示す。動作ブロックの記述（５０，５２，５８）で
は、動作ブロックの種類を示すブロックタイプやその実
行時に必要となるパラメータを定義する。参照テーブル
の記述（６０，６２，６８）では、動作ブロックの実行
終了時に返る認識結果やエラー内容とそれらに対応する
次の動作ブロックとを定義する。

【００１７】次に、動作ブロック及び参照テーブルの記
述内容について詳細に説明する。図７に、動作ブロック
の記述形式を示す。大文字の部分（７０，７２，７４）
は、この発明の音声対話システムで定められた記述であ
り固定である。小文字の部分がアプリケーション作成時
に、音声対話システムの管理者が記述する部分である。
＃以下（７７，７９，８２，８９）は、コメントであ
る。各定義データについて、以下に説明する。

【００１８】（ａ）ｂｌｏｃｋｎａｍｅ：動作ブロック
名７６動作ブロックの名前を記述する。名前は、ＮＵＬＬＢＬ
ＯＣＫ以外、かつ、１つのシーケンス定義データ内で一
意であれば、数字又はアルファベットで始まる最大１５
文字で自由に記述して構わない。

【００１９】（ｂ）ｂｌｏｃｋｔｙｐｅ：ブロックタイ
プ７８動作ブロックの種類を記述する。この発明の音声対話シ
ステムでサポートしている動作ブロックの種類を、図８
に示す。この中のいずれかのタイプをブロックタイプに
指定する。ブロックタイプには、音声認識応答装置の典
型的な処理がサポートされている。例えば、ＱＡＶＣ
（質問音声出力＆認識＆確認音声出力＆認識）９６で
は、図９に示すような典型的な応答を行う。まず、Ｓ５
０では、利用者の応答を促す音声を出力する。Ｓ５２で
は、利用者の応答の認識結果が成功であったかどうかを
判断する。ＮＧのときには、Ｓ５４において、利用者の
繰り返しの応答を促す音声を出力する。ＯＫのときに
は、Ｓ５６において、認識した内容の確認を行う。次
に、Ｓ５８において、確認が肯定されたか否かを判定す
る。ＯＫのときには、この処理を終了する。ＮＧのとき
には、Ｓ６０において、応答の繰り返しを促す音声を出
力する。この内部フローは、ＱＡＶＣ９６という動作ブ
ロックの種類に対応するものである。動作ブロックの種
類毎に、内部フローは異なっている。

【００２０】この発明の音声応答システムにおいては、
アプリケーションに適用できる様々な種類の動作ブロッ
クを予め用意しており、任意の動作ブロックを組み合わ
せることにより利用者の要求にあったアプリケーション
を作成、実行することができる。また、各動作ブロック
には、それぞれの動作に関して通常行われている音声認
識及び応答のノウハウが含まれている。従って、この動
作ブロックを利用してアプリケーションを作成すること
により、利用者が１からアプリケーションプログラムを
作成する場合に比べて、既に用意されている音声応答シ
ステムのノウハウを利用者が利用できるというメリット
が得られる。

【００２１】（ｃ）ｐｎａｍｅ：パラメータ名８０＆ｐ
ｖａｌｕｅ：パラメータ値８１パラメータ名８０及びパラメータ値８１をパラメータ定
義部８４と呼ぶ。パラメータ定義部８４には、動作ブロ
ックの処理を決定するパラメータ名８０と、その設定値
であるパラメータ値８１を記述する。パラメータ間は、
スペース又はタブで区切り、１行で記述する。動作ブロ
ックのタイプによって固有のパラメータ名があり、記述
すべき内容が決まっている。パラメータ値８１は、各パ
ラメータ毎に、数字や所定の文字やファイル名を設定す
る。例えば、図８に示すＴＳＲＯ（電話発信＆音声出
力）９８では、発信先の電話番号や音声出力するデータ
などのパラメータがある。同じブロックタイプでも異な
る場面、例えば、「人数の認識」や「予算の認識」など
では異なる応答音声や認識単語辞書を使用するので、異
なるパラメータ値を設定することになる。これらの記述
は、省略可能である。省略された場合には、デフォルト
値定義ファイルで予め指定された設定が使用される。

【００２２】（ｄ）ｃｏｎｄ：条件８６＆ｄｖａｌｕ
ｅ：分岐先８８動作ブロック終了時と、それに対する分岐先を記述す
る。パラメータ間は、スペース又はタブで区切る。

【００２３】図１０に、動作ブロック終了時の条件の種
類を示す。図において、１０２は動作ブロック実行終了
時の条件であり、１０４は条件１０２に対応する記述で
ある。また、１０６はその条件１０２の意味を表す。正
常終了１０１は、動作ブロック内の全ての動作が正常終
了した場合の終了条件である。エラー終了１０７は、動
作ブロック内でエラーが発生した場合の終了条件であ
る。

【００２４】図１１に、分岐先の定義方法を示す。図に
おいて、１０８は定義方法、１１０は定義方法１０８が
適用される場面である。「動作ブロック名を定義」は、
次に実行する動作ブロックが一意に決まっている場合に
適用される。この場合は、シーケンス定義データ内で定
義した次に実行するブロック名を次の分岐先として記述
する。「未定義又はＮＵＬＬＢＬＯＣＫを定義」は、呼
び出しアプリケーションで実行結果を参照して次の動作
ブロックを決定したり、認識結果を元にデータベース検
索するなど、呼び出しアプリケーションに戻る場合に
は、ＮＵＬＬＢＬＯＣＫと記述する。「参照テーブル名
を定義」は、わざわざ呼び出しアプリケーションに戻る
ことなく、認識結果やエラー内容を元に次に実行する動
作ブロックを動的に決定する場合、その対応を記述した
参照テーブル名を次の分岐先として定義する。これらの
記述は、省略可能である。省略された場合には、デフォ
ルト値定義ファイルで予め指定された設定が使用され
る。

【００２５】次に、動作ブロック「ＱＡＶＣ」を例にと
って、動作ブロックの内部フローと定義すべきデータの
詳細について具体的に述べる。動作ブロック「ＱＡＶ
Ｃ」は、質問音声出力と質問に対する応答として入力さ
れる音声又はダイアルの認識と確認音声出力とその回答
の認識とを処理する動作ブロックである。この動作ブロ
ックの内部フローを図１２〜図１４に示す。図１２〜図
１４は、（Ｊ）〜（Ｔ）で接続する一連の内部フローを
示している。具体的な機能としては、質問音声出力処理
（Ｓ１００）と、それに続く音声又はダイアル認識処理
（Ｓ１０６）とを実行し、更に、認識候補の確認をする
音声出力処理（Ｓ１１６）と、その回答を認識する処理
（Ｓ１２２）の設定を定義する。この動作ブロックは、
利用者に対する質問とそれに対する回答を認識する場面
で使用する。設定により、質問が終了しない内に認識処
理を開始することも可能である。認識結果の相違度によ
るリジェクト判定もＳ１１２に示すように、動作ブロッ
ク内で行う。リジェクトされた場合に、再度質問するこ
とができる。この際、最初の質問と異なる質問内容を設
定することもできる（Ｓ１１４，Ｓ１１５）。タイムア
ウトなどのエラー終了で認識結果が得られなかった場合
にもリトライ可能な場合には、リトライ動作を設定でき
る（Ｓ１０８，Ｓ１１０，Ｓ１１４，Ｓ１１５）。この
動作ブロックでは、認識候補を利用者へ確認する（Ｓ１
１６）ので、認識誤りを修正することができる。認識結
果の第一候補が否定された場合には、次の候補の確認を
実行する（Ｓ１３４，Ｓ１３６）。全ての候補が否定さ
れた場合には、再度最初の質問からリトライすることも
可能である（Ｓ１３８，Ｓ１４０）。リトライ回数分繰
り返して認識候補が得られない場合には、エラー終了
（Ｓ１４６）となる。正常終了時（Ｓ１４２）には、通
信エリアに認識候補が書き込まれる。音声認識時には、
認識された単語番号列が、ダイアル認識時には、０〜９
や＃，＊に対応した番号が書き込まれる。

【００２６】次に、各処理の設定で使用するデータを説
明する。ｍｅｓｓａｇｅ１．ｃｏｎｔｅｎｔｓＸ：質問音声出力
処理（Ｓ１００）において、出力する質問音声データを
指定する。具体的には、音声認識応答装置内の音声デー
タのファイル名をフルパスで記述する。この実施の形態
では、Ｘは１〜３２を記述し、記述された順に連続して
音声データが出力されるものとする。音声出力を行わな
い指定も可能である。

【００２７】ｍｅｓｓａｇｅ１．ｅｎｄｃｈｅｃｋ：質
問音声出力中処理（Ｓ１０２）を、以下のように設定す
る。ＮＯＰ：音声出力終了を待たずに認識処理を開始する。
利用者の音声入力を検出しても音声出力は停止しない。
電話終了を検出した場合には、音声出力を停止し、エラ
ー終了する。ＣＡＮＣＥＬ：音声出力終了を待たずに、認識処理を開
始する。利用者の音声入力を検出したら、音声出力を停
止する（この処理を応答キャンセルと呼ぶ）。電話終了
を検出した場合には、音声出力を停止し、エラー終了す
る。ＷＡＩＴ：音声出力終了してから、認識処理を開始す
る。音声出力中の利用者の入力は無視される。電話終了
を検出した場合には、音声出力を停止し、エラー終了す
る。この設定は、「ｍｅｓｓａｇｅ１．ｃｏｎｔｅｎｔ
ｓＸ」によって音声出力が指定されたときに有効であ
る。

【００２８】ｒｅｃｏｇ１．ｔｙｐｅ：質問に対する回
答の認識処理（Ｓ１０６）の種類を、以下のように設定
する。ＲＥＣＧ：音声認識を行う。ＴＥＬＲ：ダイアル認識を行う。ＢＯＴＨ：音声とダイアルの同時認識を行う。

【００２９】ｒｅｃｏｇ１．ｒｅｃｎｕｍ：質問に対す
る回答の認識処理（Ｓ１０６）の結果として返す最大候
補数を１〜１０の範囲で指定する。実際に返される候補
数は、指定された数より少ない場合がある。「ｒｅｃｏ
ｇ１．ｔｙｐｅ」が「ＲＥＣＧ」、「ＢＯＴＨ」のと
き、有効である。

【００３０】ｒｅｃｏｇ１．ｔｉｍｅｏｕｔ：質問に対
する回答の認識処理（Ｓ１０６）のタイムアウト時間を
秒単位で指定する。０のときには、無限待ちとする。指
定された時間に利用者の音声やダイアル入力がない場合
には、タイムアウトエラーとなる。

【００３１】ｒｅｃｏｇ１．ｐｌａｎｕｍ：質問に対す
る回答の認識処理（Ｓ１０６）のダイアル認識処理の認
識桁数を１〜４９の範囲で指定する。０を指定した場合
には‘＃’の入力を検出した時点で認識処理を終了す
る。利用者の電話がダイアルパルスのときには‘＃’の
入力ができないので、０を設定した場合には、タイムア
ウト又は５０桁以上のダイアルが入力されるまで認識処
理を終了しないので、注意が必要である。この設定は、
「ｒｅｃｏｇ１．ｔｙｐｅ」が「ＴＥＬＲ」、「ＢＯＴ
Ｈ」ときに有効で、必ず記述する必要がある。

【００３２】ｒｅｃｏｇ１．ｃａｔｅｇｏｒｙＸ：質問
に対する回答の認識処理（Ｓ１０６）の音声認識処理に
使用する認識単語辞書のカテゴリ番号を０〜６５５３５
の範囲で指定する。Ｘは１〜１０を記述し、最大１０個
の認識単語辞書を同時に使用して認識処理をすることが
できる。但し、−１が指定された場合には、認識単語辞
書は使用されない。データの記述がない場合には、直前
に使用した認識単語辞書を使用する。この設定は、「ｒ
ｅｃｏｇ１．ｔｙｐｅ」が「ＲＥＣＧ」、「ＢＯＴＨ」
のとき、有効である。

【００３３】ｒｅｃｏｇ１．ｒｊｔｌｅｖｅｌ：質問に
対する回答の認識処理（Ｓ１０６）が正常終了したと
き、認識結果として返される候補の相違度が大きい場合
には、その候補をリジェクトして再度利用者に音声入力
を要求するリトライ処理を行うことができる。「ｒｅｃ
ｏｇ１．ｒｊｔｌｅｖｅｌ」では、Ｓ１１２の相違度の
判定において、その相違度をどの程度まで許容するかを
指定する。値が大きいほど許容度が大きくなる。この設
定は、「ｒｅｃｏｇ１．ｔｙｐｅ」が「ＲＥＣＧ」、
「ＢＯＴＨ」のとき、有効である。

【００３４】ｒｅｍｅｓｓａｇｅ１．ｒｅｔｒｙｃｎ
ｔ：以下に示す場合には、再度利用者に音声入力を要求
するリトライ処理を行うことができる。この設定は、質
問リトライ回数の判定（Ｓ１１４）で使用される。・認識処理が正常終了したが、第一候補の相違度がｒｅ
ｃｏｇ１．ｒｊｔｌｅｖｅｌで設定された値より大き
く、リジェクトされた場合。・認識処理がタイムアウトエラー終了した場合。・認識処理が認識候補なしエラー終了した場合（ノイズ
や小さい音声が入力された場合）。「ｒｅｍｅｓｓａｇ
ｅ１．ｒｅｔｒｙｃｎｔ」では、そのリトライ回数を１
６進数の０〜０ｘ７ＦＦＦＦＦＦＦの範囲で指定する。
０の場合には、一度もリトライしない。

【００３５】ｒｅｍｅｓｓａｇｅ１．ｃｏｎｔｅｎｔｓ
Ｘ：質問リトライ音声出力処理（Ｓ１１５）時に利用者
に対して出力する音声データを指定する。具体的には、
音声認識応答装置内の音声データのファイル名をフルパ
スで記述する。Ｘは１〜３２を記述し、記述した順に連
続して音声データが出力される。音声出力を行わない設
定も可能である。

【００３６】ｍｅｓｓａｇｅ２．ｃｏｎｔｅｎｔｓＸ：
認識候補確認音声出力処理（Ｓ１１６）において、出力
する確認音声データを指定する。Ｘは１〜３２を記述
し、記述した順に連続して音声データが出力される。通
常は、「○○○ですか」と認識候補を確認する音声を指
定する。この場合、「○○○」の部分は、認識候補によ
って出力する音声が変わるので、その対応を記述した参
照テーブル名を指定する。「ですか」の部分は、固定な
ので音声認識応答装置内のその音声データファイル名を
フルパスで記述する。／ｒｐｄａｔ／ＮＵＬＬが指定さ
れた場合には、音声出力を行わない。

【００３７】ｍｅｓｓａｇｅ２．ｅｎｄｃｈｅｃｋ：確
認音声出力中処理（Ｓ１１８）を、以下のように設定す
る。ＮＯＰ：音声出力終了を待たずに、認識処理を開始す
る。利用者の音声入力を検出しても、音声出力は停止し
ない。電話終了を検出した場合には、音声出力を停止
し、エラー終了する。ＣＡＮＣＥＬ：音声出力終了を待たずに、認識処理を開
始する。利用者の音声入力を検出したら、音声出力を停
止する（この処理を応答キャンセルと呼ぶ）。電話終了
を検出した場合には、音声出力を停止し、エラー終了す
る。ＷＡＩＴ：音声出力終了してから、認識処理を開始す
る。音声出力中の利用者の入力は、無視される。電話終
了を検出した場合には、音声出力停止し、エラー終了す
る。この設定は、「ｍｅｓｓａｇｅ２．ｃｏｎｔｅｎｔ
ｓＸ」によって音声出力が指定されたときに有効であ
る。

【００３８】ｒｅｃｏｇ２．ｔｙｐｅ：確認に対する回
答の認識処理（Ｓ１２２）の種類を、以下のように設定
する。ＲＥＣＧ：音声認識を行う。ＴＥＬＲ：ダイアル認識を行う。ＢＯＴＨ：音声とダイアルの同時認識を行う。ダイアル認識の場合には、１桁しか認識しない。

【００３９】ｒｅｃｏｇ２．ｔｉｍｅｏｕｔ：確認に対
する回答の認識処理（Ｓ１２２）のタイムアウト時間を
秒単位で指定する。０のときには、無制限待ちとする。
指定された時間に利用者の音声やダイアル入力がない場
合には、タイムアウトエラーとなる。

【００４０】ｒｅｃｏｇ２．ｃａｔｅｇｏｒｙＸ：確認
に対する回答の認識処理（Ｓ１２２）の音声認識処理に
使用する認識単語辞書のカテゴリ番号を０〜６５５３５
の範囲で指定する。Ｘは１から１０を記述し、最大１０
個の認識単語辞書を同時に使用して認識処理をすること
ができる。また、−１が指定された場合には、認識単語
辞書は使用されない。データの記述がない場合には、直
前に使用した認識単語辞書を使用する。この設定は、
「ｒｅｃｏｇ２．ｔｙｐｅ」が「ＲＥＣＧ」、「ＢＯＴ
Ｈ」のとき、有効である。

【００４１】ｒｅｃｏｇ２．ｒｊｔｌｅｖｅｌ：確認に
対する回答の認識処理（Ｓ１２２）が正常終了したと
き、認識結果として返される候補の相違度が大きい場合
には、その候補をリジェクトして再度利用者に音声入力
を要求するリトライ処理を行うことができる。「ｒｅｃ
ｏｇ２．ｒｊｔｌｅｖｅｌ」では、Ｓ１２８の相違度の
判定において、その相違度をどの程度まで許容するかを
指定する。値が大きいほど、許容度が大きくなる。この
設定は、「ｒｅｃｏｇ２．ｔｙｐｅ」が「ＲＥＣＧ」、
「ＢＯＴＨ」のとき、有効である。

【００４２】ｒｅｃｏｇ２．ｙｅｓｎｕｍ：「はい」な
どの肯定を示す単語番号又はダイアルの番号（０〜９）
を指定する。認識結果（Ｓ１３４）がこの値と一致した
場合には、認識候補が確認されたとし、正常終了（Ｓ１
４２）する。

【００４３】ｒｅｍｅｓｓａｇｅ２．ｒｅｔｒｙｃｎ
ｔ：以下に示す場合には、確認のリトライ処理を行うこ
とができる。この設定は、確認リトライ回数の判定（Ｓ
１３０）で使用される。・認識処理が正常終了したが、第一候補の相違度が「ｒ
ｅｃｏｇ２．ｒｊｔｌｅｖｅｌ」で設定された値より大
きく、リジェクトされた場合。・認識処理がタイムアウトエラー終了した場合。・認識処理が認識候補なしエラー終了した場合（ノイズ
や小さい音声が入力された場合）。「ｒｅｍｅｓｓａｇ
ｅ２．ｒｅｔｒｙｃｎｔ」では、そのリトライ回数を１
６進数の０〜０ｘ７ＦＦＦＦＦＦＦの範囲で指定する。
０の場合には、１度もリトライしない。

【００４４】ｒｅｍｅｓｓａｇｅ２．ｃｏｎｔｅｎｔｓ
Ｘ：確認リトライ音声出力処理（Ｓ１３２）時に利用者
に対して出力する音声データを指定する。具体的には、
音声認識応答装置内の音声データのファイル名をフルパ
スで記述する。Ｘは１〜３２を記述し、記述した順に連
続して音声データが出力される。／ｒｐｄａｔ／ＮＵＬ
Ｌが指定された場合には、音声出力を行わない。

【００４５】ｒｅｍｅｓｓａｇｅ３．ｒｅｔｒｙｃｎ
ｔ：相違度がｒｅｃｏｇ１．ｒｊｔｌｅｖｅｌで設定さ
れた値より小さく、リジェクトされない質問の回答に対
する認識結果の全ての候補について、確認を行ったが全
て利用者に否定された場合、再度最初の質問からやり直
すリトライ処理を行うことができる。ｒｅｍｅｓｓａｇ
ｅ３．ｒｅｔｒｙｃｎｔでは、そのリトライ回数を１６
進数の０〜０ｘ７ＦＦＦＦＦＦＦの範囲で指定する。０
の場合には、１度もリトライしない。この設定は、全体
リトライ回数の判定（Ｓ１３８）で使用される。

【００４６】ｒｅｍｅｓｓａｇｅ３．ｃｏｎｔｅｎｔｓ
Ｘ：確認まで行った後、再度最初の質問からやり直す場
合のブロック全体リトライ音声出力処理（Ｓ１４０）時
に利用者に対して出力する音声データを指定する。具体
的には、音声認識応答装置内の音声データのファイル名
をフルパスで記述する。Ｘは１〜３２を記述し、記述し
た順に連続して音声データが出力される。

【００４７】ｂｌｏｃｋ．ｒｔｎｅｒｒｏｒ：Ｓ１４６
におけるエラー終了時の動作分岐を指定する。認識がタ
イムアウト又は入力キャンセルエラー終了時は、「ｒｅ
ｍｅｓｓａｇｅ１．ｒｅｔｒｙｃｎｔ」及び「ｒｅｍｅ
ｓｓａｇｅ２．ｒｅｔｒｙｃｎｔ」で指定された回数だ
けリトライを行った後の動作を指定する。このブロック
で発生するエラーとその内容を、以下に示す。ＭＥＬＡＥＣＯＮＮ：音声認識応答装置との接続に失敗
した。音声認識応答装置を制御するサーバソフトウェア
（音声認識応答サーバ）が動作しているか、また、ネッ
トワークに異常がないか確認が必要である。ＭＥＬＡＥＰＡＲＭ：シーケンス定義データが不正であ
る。シーケンス定義データの内容を確認が必要である。ＭＥＬＡＥＴＥＬＥ：相手の電話切断を検出した。ＭＥＬＡＥＣＡＮＣ：コマンド実行途中でキャンセルさ
れた。ＭＥＬＡＥＤＩＡＬ：５０桁以上のダイアルを入力され
た。ＭＥＬＡＥＦＩＯ：音声認識応答装置内でファイルのア
クセスに失敗した。「ｍｅｓｓａｇｅ１〜３．ｃｏｎｔ
ｅｎｔｓＸ」で指定したファイル、或いは、「ｒｅｃｏ
ｇ１〜３．ｃａｔｅｇｏｒｙＸ」で指定したカテゴリ番
号に対応した辞書が、音声認識応答装置内にあるか確認
が必要である。ＭＥＬＡＥＲＣＧ：指定された回数リトライするが、結
局、認識候補が得られなかった場合である。ＭＥＬＡＥＩＯ：音声認識応答装置内で異常なエラーが
発生した。音声認識応答装置のファームウェア、ハード
ウェア障害の可能性がある。ＭＥＬＡＥＮＯＲＤＹ：チャネルが使用可能な状態にな
い。初期処理（ＩＮＩＴ）の動作ブロックを正しく実施
したか確認が必要である。ＭＥＬＡＥＤＩＣＳＺ：ｒｅｃｏｇ．ｃａｔｅｇｏｒｙ
Ｘで指定したカテゴリの辞書のサイズが大き過ぎて全て
ロードできなかった場合である。認識対象の単語を絞っ
たり、質問内容を見直して辞書のサイズを減らすことが
必要である。ＭＥＬＡＥＶＥＲ：「ｒｅｃｏｇ．ｃａｔｅｇｏｒｙ
Ｘ」で指定したカテゴリの辞書の中にファームウェアと
バージョンが合ってないものがある。辞書の内容を確認
して、古い辞書をリコンパイルして再生成することが必
要である。これらのエラーが発生した場合、アプリケーションに戻
らない場合には、次に実行する動作ブロック名を記述す
る。エラーの内容によって実行する動作ブロックを変え
る場合には、その対応を記述した参照テーブル名を記述
する。データの記述がない場合及びＮＵＬＬＢＬＯＣＫ
の場合には、アプリケーションへ制御が返る。

【００４８】ｂｌｏｃｋ．ｒｔｎｎｏｒｍａｌ：認識候
補が得られた場合（Ｓ１４２）の動作分岐を指定する。
アプリケーションに戻らない場合には、次に実行する動
作ブロック名を記述する。認識候補によって実行する動
作ブロックを変える場合には、その対応を記述した参照
テーブル名を記述する。データの記述がない場合及びＮ
ＵＬＬＢＬＯＣＫの場合には、アプリケーションへ制御
が返る。

【００４９】図１５〜図１７に、動作ブロック「ＱＡＶ
Ｃ」の記述例を示す。図１５の１２０に示す「ｑａｖｃ
ｂｌｏｃｋ１」は、この動作ブロックの動作ブロック名
である。また、１２２に示す「ＱＡＶＣ」は、この動作
ブロックのブロックタイプである。１２６に示す「／ｒ
ｐｄａｔ／ｑｕｅｓ２．ｕ」は、質問音声出力処理にお
いて、出力する質問音声データを示すファイル名であ
る。１３０に示す「ＮＯＰ」は、利用者が音声出力終了
を待たずに音声入力を開始した場合、音声出力終了を待
たずに、入力された利用者の音声の認識処理を開始する
ことを指定している。１３４に示す「ＲＥＣＧ」は、認
識処理タイプが「音声認識」であることを示している。
１３８に示す「２」は、最大認識候補数を示す。１４２
に示す「３０」は、認識処理タイムアウトが３０秒であ
ることを示している。１４６に示す「０」は、ダイアル
認識ではないので無効である。１５０に示す「１０３８
２」は、認識単語辞書のカテゴリ番号である。１５４に
示す「７００」は、認識リジェクトレベルを示す。図１
６の１５８に示す「３」は、リトライを３回行うことを
示す。１６２に示す「／ｒｐｄａｔ／ｍｏｕｉｔｉｄ
ｏ．ｕ」は、質問のリトライ音声出力処理において、利
用者に対して出力する音声データのファイル名を示して
いる。１６８に示す「！ｑｔａｂｌｅ１」は、認識候補
確認音声出力処理において、出力する確認音声データを
指定する参照テーブル名である。また、１７２に示す
「／ｒｐｄａｔ／ｄｅｓｕｋａ．ｕ」は、１６８で示さ
れた参照テーブルから選択されて出力される確認音声デ
ータに引き続いて、固定的に出力される音声データのフ
ァイル名である。１７６に示す「ＮＯＰ」は、音声出力
終了を待たずに、認識処理を開始することを指定してい
る。１８０に示す「ＲＥＣＧ」は、認識処理タイプが
「音声認識」であることを示している。１８４，１８
８，１９２は、前述した１４２，１５０，１５４と同一
の設定内容であるので、説明は省略する。図１７の１９
６に示す「１」は、認識リトライ回数が１回であること
を示す。「／ｒｐｄａｔ／ｍｏｕｉｔｉｄｏ．ｕ」は、
確認のリトライ音声出力処理時に、利用者に対して出力
する音声データのファイル名である。２０４に示す
「１」は、ブロック全体のリトライ回数が１回であるこ
とを示す。２０８に示す「／ｒｐｄａｔ／ｍｏｕｉｔｉ
ｄｏ．ｕ」は、ブロック全体リトライ音声出力処理時
に、利用者に対して出力する音声データを指定するファ
イル名である。２１２に示す「／ｒｐｄａｔ／ｓａｉｓ
ｙｏ．ｕ」は、２０８で指定した音声データファイルに
続いて出力する音声データファイルのファイル名を示し
ている。２１６に示す「！ｅｒｒｔａｂｌｅ１」は、エ
ラー終了時に発生したエラーの内容によって、実行する
動作ブロックを選択する参照テーブル名である。２２４
に示す「！ｒｅｃｔａｂｌｅ１」は、認識候補が得られ
た場合に、得られた認識候補によって実行する動作ブロ
ックを変えるために、認識候補と動作ブロックとの対応
を記述した参照テーブル名である。以上のように、動作
ブロックの詳細データを設定する。

【００５０】このように、動作ブロック「ＱＡＶＣ」に
は、予め質問音声出力及び認識及び確認音声出力及び認
識とが処理として用意されているので、利用者は、予め
システムで用意されている動作ブロック内のデータを定
義し、任意の設定を行うだけで音声応答システムで実行
するアプリケーションを容易に作成することができる。

【００５１】次に、参照テーブルの記述形式について説
明する。図１８は、参照テーブルの記述形式を示す図で
ある。大文字の部分（２４０，２４２，２４６）は、こ
の発明の音声応答システムで定められた記述であり、固
定である。小文字の部分（２４８，２５０，２５２，２
５４）がアプリケーション作成時に記述する部分であ
る。各定義データについて説明する。

【００５２】（ａ）ｔａｂｌｅｎａｍｅ：参照テーブル
名２４８参照テーブル名２４８には、参照テーブルの名前を記述
する。名前は、１つのシーケンス定義データ内で一意で
あればよく、数字又はアルファベットで始まる最大１５
文字となっている。参照テーブルを使用する動作ブロッ
クでは、この参照テーブル名に！を先頭に付けて記述す
る（図１６〜図１７参照）。

【００５３】（ｂ）ｔａｂｌｅｔｙｐｅ：テーブルタイ
プ２５０テーブルタイプ２５０には、参照テーブルの種類を記述
する。参照テーブルの種類を、図１９に示す。図１９に
おいて、２５６はテーブルタイプのタイプ名であり、２
５８はそのテーブルタイプの意味を表している。テーブ
ルタイプ２５０には、この３つのタイプの中からいずれ
かを選んで記述する。参照テーブルには、動作ブロック
間の分岐が定義できる。また、ブロックタイプ「ＱＡＶ
Ｃ」の動作ブロックで認識結果と、その認識結果に対応
する確認音声との組み合わせなどを記述する参照テーブ
ルも定義できる。

【００５４】（ｃ）ｔａｇ：パラメータタグ２５２＆ｖ
ａｌｕｅ：パラメータ値２５４パラメータタグ２５２とパラメータ値２５４には、パラ
メータを索引するためのタグ名とタグに対応した値を記
述する。パラメータタグ２５２とパラメータ値２５４の
間は、スペース又はタブで区切り、１行で記述する。パ
ラメータタグは、各タイプによって認識結果の単語番号
やエラー名を記述する。パラメータ値は、各パラメータ
タグ毎に分岐先の動作ブロック名や応答音声出力ファイ
ル名を記述する。テーブルタイプ「ＲＣＧＴ」の場合認識結果の単語番号と、その単語番号に対応した分岐先
の動作ブロック名を記述する。図２０に、テーブルタイ
プ「ＲＣＧＴ」の参照テーブルの記述例を示す。図にお
いて、２６０に示すｒｃｇｔａｂｌｅ１は、参照テーブ
ル名を示している。また、２６２に示すＲＣＧＴは、テ
ーブルタイプである。２６４，２６６，２６８は、単語
番号列である。認識結果には、このように、認識単語辞
書作成時に各単語に予め定義された単語番号が返され
る。単語番号が１つの場合もあるし、日付や金額のよう
な連続の単語では複数の単語番号が返される。この場合
には、単語番号列を図に示すように、“，”で区切り、
｛｝で囲うものとする。２７０に示すｂｌｏｃｋ１は、
２６４，２６６，２６８に示した単語番号列の場合に分
岐する動作ブロック名である。また、２７２に示すよう
に、ＮＵＬＬＢＬＯＣＫの場合には、呼び出しアプリケ
ーションへ戻る。認識結果の単語番号が参照テーブル内
にない場合も同様に、呼び出しアプリケーションに戻
る。テーブルタイプ「ＥＲＰＴ」の場合この場合の参照テーブルには、動作ブロック内で発生し
たエラー内容とそのエラー内容に対応した分岐先の動作
ブロック名を記述する。このタイプの参照テーブルは、
全てのブロックタイプの動作ブロックで使用される。参
照テーブルには、エラー名と動作ブロック名を対で記述
する。図２１は、テーブルタイプ「ＥＲＰＴ」の参照テ
ーブルの記述例を示す図である。２８０に示すｅｒｒｔ
ａｂｌｅ１は、参照テーブル名であり、２８２に示すＥ
ＲＲＴは、テーブルタイプである。２８４，２８８は、
動作ブロック内で発生し得るエラーのエラー名である。
２８６はそのエラーに対応する分岐先の動作ブロック名
である。テーブルタイプ「ＲＣＧＴ」の場合と同様に、
ＮＵＬＬＢＬＯＣＫの場合には、呼び出しアプリケーシ
ョンに戻る。エラー内容がテーブル内にない場合も同様
に、呼び出しアプリケーションに戻る。テーブルタイプ「ＲＥＰＴ」の場合このタイプの参照テーブルには、認識結果の単語番号と
その単語番号に対応した応答音声データのファイル名を
記述する。例えば、ブロックタイプ「ＱＡＶＣ」の動作
ブロックでは、認識した結果を元に、その確認のため、
オウム替えしに「○○○ですか」といった確認を行う。
この確認のために、使用する応答音声は、認識結果によ
って動的に変化する。その動的な対応をこのタイプの参
照テーブルで定義する。図２２に、テーブルタイプＲＥ
ＰＴの記述例を示す。２９０に示すｒｅｐｈｏｕｍｅｎ
は、参照テーブル名である。２９２に示すＲＥＰＴは、
テーブルタイプである。参照テーブルには、２９４，２
９６に示すように、認識結果の単語番号とその単語番号
に対応した応答音声ファイル名を対にして記述する。１
つの単語番号に対して複数の応答音声ファイルを出力す
る場合には、２９８に示すように、ファイル名を“，”
で区切り、｛｝で囲う。また、認識結果が複数の単語番
号の場合には、それぞれに対応した応答音声ファイルが
連続して出力される。認識結果の単語番号に対して、対
応する音声の出力を行わない設定も可能である。また、
認識結果の単語番号が参照テーブル内にない場合も同様
に、音声出力は行われない。

【００５５】次に、アプリケーション実行部２０と、シ
ーケンス定義データ実行部３０と音声認識応答装置１１
００とのインタフェースについて説明する。図２３，図
２４は、アプリケーション実行部２０と、シーケンス定
義データ実行部３０と音声認識応答装置１１００とのイ
ンタフェースを示す図である。まず、アプリケーション
実行部２０は、シーケンス定義データ実行部３０を実行
するために、セッション生成（３００）を行う。生成時
には、そのセッションで使用するシーケンス定義ファイ
ルを指定する。その指定に従い、シーケンス定義データ
ファイルが読み込まれる（３０２）。シーケンス定義デ
ータファイルの読み込みに続いて、実行資源が確保され
る。実行資源が確保されると、アプリケーションに制御
が戻る。次に、アプリケーション実行部２０は、音声認
識応答装置１１００を動作させるために、シーケンス定
義データに記述した動作の単位である動作ブロックの呼
び出しを行う（３０４）。シーケンス定義データ実行部
３０は、指定されたシーケンス定義データの記述に従っ
て動作ブロックを実行し（３０６）、音声認識応答装置
１１００を制御する。図２３及び図２４において、シー
ケンス定義データ実行部３０と音声認識応答装置１１０
０との間の矢印は、シーケンス定義データ実行部３０と
音声認識応答装置１１００の制御のやりとりを表してい
る。動作ブロック内で他のブロックへの分岐が指示され
ていれば、指定されたブロックへの分岐を行う（３０
８）。そして、分岐した動作ブロックを実行する（３１
０）。１つの動作ブロックが終了した後、分岐先でアプ
リケーションが指定されている場合には（３１２）、動
作ブロックを呼び出した関数がリターンする（３１
４）。アプリケーション実行部２０では、例えば、認識
結果を元に、データベース検索（３１６）などを行った
後、再び次の動作ブロックの呼び出しを行う（３１
８）。シーケンス定義データ実行部は、呼び出された動
作ブロックを実行して、音声認識応答装置を制御する。
シーケンス定義データ実行部３０からアプリケーション
へリターンした場合、アプリケーション実行部では、デ
ータベース検索ばかりではなく、結果画面表示（３５
４）などを行ってもよい。アプリケーション実行部で
は、利用者の音声入力やダイアル入力によるデータを受
け取り、入力されたデータに対して本来のアプリケーシ
ョン処理だけを行えばよく、音声認識応答装置１１００
の詳細な制御は、予め作成されたシーケンス定義データ
に従って、シーケンス定義データ実行部３０が行う。シ
ーケンス定義データ実行部の実行を終了する場合には、
アプリケーションはセッションの解放（３５６）を行
う。シーケンス定義データ実行部３０は、実行資源の解
放を行い（３５８）、アプリケーションに制御を戻す
（３６０）。

【００５６】図２３及び図２４に示すように、アプリケ
ーション実行部２０とシーケンス定義データ実行部３０
とのやりとりを示す矢印の数と、シーケンス定義データ
実行部３０と音声認識応答装置１１００の間の矢印の数
の多さを比較すると、シーケンス定義データ実行部３０
と音声認識応答装置１１００の間の矢印が多いことが判
る。これにより、シーケンス定義データ実行部がシーケ
ンス定義データに従って音声認識応答装置の制御を行う
ので、アプリケーション実行部は、音声認識応答装置の
制御を行う必要がなく、負荷が軽減されていることが判
る。また、前述したように、アプリケーションの作成者
は、シーケンス定義データを作成する際に、予め用意さ
れている動作ブロックにパラメータを設定し、更に、必
要に応じて参照テーブルを定義することで、容易にアプ
リケーションを作成できる。また、このため、アプリケ
ーションでは、本来の業務処理に専念することができ、
従来のような音声認識応答装置の詳細な制御を行う必要
がなくなる。

【００５７】図２５に、アプリケーションが使用する関
数の一覧を示す。４００は関数の名前であり、４０２は
関数の機能である。図２５に示すように、関数を利用し
てシーケンス定義データの値を実行時に設定したり、参
照したりすることも可能である。この機能は、実行しな
いと定まらないパラメータを動的に設定する場合や、シ
ステムのデバック時に使用される。例えば、図３に示し
た旅行案内の業務において、ＦＡＸを送るときの音声応
答データに、出発日や日数など実行時に始めて認識され
て確定される内容をパラメータとして加えるときなどに
使用する。

【００５８】図２６〜図３０に、シーケンス定義データ
を使用するアプリケーションのコーディング例を示す。
４１０に示すｓｅｓｓｉｏｎは、セッションを示す記述
子が返されるパラメータである。４１２に示すｈｏｓｔ
ｎａｍｅ［１６］は、音声認識応答装置のホスト名を指
定する。この実施の形態では、ホスト名は、所定のホス
トファイルにホストのＩＰアドレスとともに定義されて
いなければならないものとする。４１４に示すｆｉｌｅ
ｎａｍｅ［２５６］は、このアプリケーションが使用す
るシーケンス定義データを記述したファイル名を示すパ
ラメータである。４１６のｃｈａｎｕｍは、使用するチ
ャネル番号を指定する。４１８に示すｂｎａｍｅ［１
６］は、実行する動作ブロック名である。動作ブロック
名は、シーケンス定義データで記述されたものでなけれ
ばならない。４２０に示すｂｕｆｆｅｒ［１０２４］
は、認識結果を格納する通信エリアを指定する。４２２
のｂｕｆｃｎｔは、認識結果を格納する通信エリアをワ
ードサイズで指定する。関数のリターン時には、実際に
書き込まれたデータサイズが返される。４３０では、パ
ラメータｈｏｓｔｎａｍｅに“ｓｔａｒｌｅｓｓ”とい
う文字列をセットしている。４３２では、ｃｈａｎｕｍ
番号に“１”を代入してセットしている。４３４では、
パラメータｆｉｌｅｎａｍｅにシーケンス定義ファイル
の名前を文字列で指定している。図２７の４３６では、
図２６の４３０，４３２，４３４でセットした各パラメ
ータを用いてセッション生成の関数を発行している。４
４０では、最初に実行する動作ブロック［ｂｌｏｃｋ
１］をパラメータｂｎａｍｅにセットしている。４４２
では、通信エリアサイズのセットを行っている。図２８
の４４４では、ｓｅｓｓｉｏｎ、ｂｎａｍｅ、ｂｕｆｆ
ｅｒ、ｂｕｆｃｎｔという４つのパラメータを用いてシ
ーケンス実行の関数を定義している。４５０は、エラー
発生時の対応処理の定義である。図２９の４６０及び４
６５は、通信エリアに返された結果を元に画面表示やデ
ータベース検索など、アプリケーション本来の処理を行
う部分である。その後、４７０において、次に実行する
動作ブロック名を指定する。また、４７２において、通
信エリアサイズをセットする。図３０の４７４は、パラ
メータ、ｓｅｓｓｉｏｎ、ｂｎａｍｅ、ｂｕｆｆｅｒ、
ｂｕｆｃｎｔを用いてシーケンス実行を行う関数の定義
である。また、４８０は、セッション解放の関数の定義
である。

【００５９】次に、通信エリアのフォーマット例を示
す。図３１は、音声認識を行った認識結果のフォーマッ
トを示す図である。このフォーマットは、ブロックタイ
プ「ＱＡＶＣ」で音声を認識した場合の通信エリアのフ
ォーマットである。動作ブロック名５００には、シーケ
ンス定義データで記述したブロック名が文字列で格納さ
れる。ブロックタイプ５０２には、実行したブロックタ
イプであるＱＡＶＣがＡＳＣＩＩコードで格納される。
データカウント５０４には、認識タイプ５０６から相違
度５２４までのデータのサイズがワード単位で格納され
る。認識タイプ５０６は、常に０である。始端フレーム
番号５０８は、認識対象となった入力音声区間の先頭フ
レーム番号である。終端フレーム番号５１０は、認識対
象となった入力音声区間の最終フレーム番号である。フ
レーム番号とは、チャネルが使用可能な状態となってか
ら１０ｍｓ単位にカウントアップされるチャネル内部の
カウンタ値である。パワーピーク値５１２は、認識対象
となった入力音声区間の最大の大きさをｄＢ（デシベ
ル）単位で示す。候補数５１４は、常に１である。単語
列数５２０は、認識した単語の数が格納される。単語番
号５２２は、認識した単語の単語番号が格納される。相
違度５２４は、結果として返された単語番号列がどの程
度正しいかを示す値が返される。

【００６０】図３２は、ブロックタイプ「ＱＡ」、「Ｑ
ＡＶＣ」でダイアルを認識した場合のダイアル認識結果
のフォーマットである。動作ブロック名５３０は、シー
ケンス定義データで記述した名前が文字列で格納され
る。ブロックタイプ５３２には、実行したブロックタイ
プ「ＱＡ」か「ＱＡＶＣ」のいずれかがＡＳＣＩＩコー
ドで格納される。データカウント５３４は、認識タイプ
５３６からダイアル番号５４２のデータサイズがワード
単位で格納される。認識タイプ５３６は、常に１であ
る。認識ダイアル数５４０は、認識したダイアルの数が
格納される。ダイアル番号５４２には、認識したダイア
ル番号が格納される。このように、動作ブロックに設定
したパラメータに応じて通信エリアのフォーマットは予
め定めれられている。

【００６１】

【発明の効果】この発明によれば、アプリケーションの
プログラミングとは別にシーケンス定義データを記述す
ることにより、音声応答システムの動作を設定できるの
で、アプリケーションのプログラミングの負荷を軽減す
ることができる。また、作成したシーケンス定義データ
を他のアプリケーションに容易に流用できる。また、保
守も容易に行える。

【００６２】また、この発明によれば、予め用意されて
いるパラメータにパラメータを設定するだけで容易に音
声応答システムの動作を設定できる。

【００６３】また、この発明によれば、処理の結果に応
じた応答や分岐先をアプリケーションと切り離して定義
できる。

【００６４】また、この発明によれば、予め音声応答シ
ステムのノウハウの詰まった動作ブロックが用意されて
いるので、音声応答システムに精通した人間でなくて
も、音声応答システムのアプリケーションの設定が可能
である。

【００６５】また、この発明によれば、音声応答システ
ムの制御と切り離して認識結果や発生したエラーに対応
した分岐先を定義することができる。

【図面の簡単な説明】

【図１】この発明の音声対話システムの構成図であ
る。

【図２】この発明の音声対話システムのソフトウェア
構成図である。

【図３】この実施の形態の音声応答の一例を示す流れ
図である。

【図４】この実施の形態の音声応答の一例を示す流れ
図である。

【図５】この実施の形態の音声応答の一例を示す流れ
図である。

【図６】この発明の音声対話システムのシーケンス定
義データの記述形式の図である。

【図７】この発明の音声対話システムの動作ブロック
の記述形式の図である。

【図８】この発明の音声対話システムの動作ブロック
の種類を示す図である。

【図９】この発明の音声対話システムの動作ブロック
「ＱＡＶＣ」の内部フローを示す図である。

【図１０】この発明の音声対話システムの動作ブロッ
クの終了時の条件の種類を示す図である。

【図１１】この発明の音声対話システムの分岐先の定
義方法を示す図である。

【図１２】この発明の動作ブロック「ＱＡＶＣ」の内
部フローを示す詳細な流れ図である。

【図１３】この発明の動作ブロック「ＱＡＶＣ」の内
部フローを示す詳細な流れ図である。

【図１４】この発明の動作ブロック「ＱＡＶＣ」の内
部フローを示す詳細な流れ図である。

【図１５】この発明の動作ブロック「ＱＡＶＣ」の記
述例を示す図である。

【図１６】この発明の動作ブロック「ＱＡＶＣ」の記
述例を示す図である。

【図１７】この発明の動作ブロック「ＱＡＶＣ」の記
述例を示す図である。

【図１８】この発明の参照テーブルの記述形式を示す
図である。

【図１９】この発明の参照テーブルの種類を示す図で
ある。

【図２０】この発明の参照テーブル「ＲＣＧＴ」の記
述例を示す図である。

【図２１】この発明の参照テーブル「ＥＲＲＴ」の記
述例を示す図である。

【図２２】この発明の参照テーブル「ＲＥＰＴ」の記
述例を示す図である。

【図２３】この発明のアプリケーション実行部とシー
ケンス定義データ実行部のインタフェースを示す図であ
る。

【図２４】この発明のアプリケーション実行部とシー
ケンス定義データ実行部のインタフェースを示す図であ
る。

【図２５】この発明のアプリケーション実行部が利用
する関数一覧を示す図である。

【図２６】この発明のアプリケーションのコーディン
グ例を示す図である。

【図２７】この発明のアプリケーションのコーディン
グ例を示す図である。

【図２８】この発明のアプリケーションのコーディン
グ例を示す図である。

【図２９】この発明のアプリケーションのコーディン
グ例を示す図である。

【図３０】この発明のアプリケーションのコーディン
グ例を示す図である。

【図３１】この発明のアプリケーション実行部とシー
ケンス定義データ実行部が使用する通信エリアのフォー
マットを示す図である。

【図３２】この発明のアプリケーション実行部とシー
ケンス定義データ実行部が使用する通信エリアのフォー
マットを示す図である。

【図３３】従来の音声応答システムのハードウェア構
成図である。

【図３４】従来の音声応答システムのソフトウェア構
成図である。

【符号の説明】

１０シーケンス定義データ記述部、１２動作ブロッ
ク、１４参照テーブル、２０アプリケーション実行
部、３０シーケンス定義データ実行部、４０通信エリ
ア、１１００音声認識応答装置。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−147200（ＪＰ，Ａ) 特開平８−77274（ＪＰ，Ａ) 特開平８−83157（ＪＰ，Ａ) 特開平７−140998（ＪＰ，Ａ) 特開平６−161704（ＪＰ，Ａ) 特公昭47−21921（ＪＰ，Ｂ２) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 11ｔｈｔｈｅＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｔｈｅＩＥＥＥ／ＥｎｇｉｎｉｅｅｒｉｎｇｉｎＭｅｄｉｃｉｎｅａｎｄＢｉｏｌｏｇｙＳｏｃｉｅｔｙ，Ｖｏｌ．６，”ＴｈｅＳｔｒｕｃｔｕｒｅａｎｄＦｕｎｃｔｉｏｎｏｆａＳｐｅｅｃｈＣｏｎｔｒｏｌＬａｎｇｕａｇｅｆｏｒＴｅｘｔＰｒｏｃｅｓｓｉｎｇａｎｄＲｏｂｏｔｉｃＣｏｎｔｒｏｌ”，ｐ．1795−1797，1989 豊田工業高等専門学校研究紀要，第18 巻，「音声認識ＬＳＩを用いた教育用ロボットの制御」，ｐ．31−34，1985年 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G01L 15/22 G01L 15/28 G05B 19/00 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を入力し、入力した音声を認識し
て、認識した音声に基づく音声応答により対話処理を行
う音声対話システムにおいて、以下の要素を有する音声対話システム（ａ）上記音声対話システムが行なう対話処理の動作を
動作の種類毎にブロック化して、ブロック化された対話
処理の動作の種類を所定の処理フローが割り当てられた
ブロックタイプとして予め定義するとともに、予め定義
されたブロックタイプから一つのブロックタイプを決定
して、決定したブロックタイプに割り当てられた処理フ
ローを用いてアプリケーションに適用可能な対話処理の
動作を動作ブロックとして記述し、記述された動作ブロックを１つ以上組み合わせて所定の
対話処理アプリケーションを構成するシーケンス定義デ
ータとして予め記述して記憶するシーケンス定義データ
記述部、（ｂ）上記シーケンス定義データを入力し解釈して実行
するシーケンス定義データ実行部、（ｃ）上記シーケンス定義データを上記シーケンス定義
データ実行部に入力させて実行させることにより上記所
定の対話処理アプリケーションを実行するアプリケーシ
ョン実行部。
【請求項２】上記シーケンス定義データは、上記動作
ブロックの処理内容を決定するパラメータと、上記パラ
メータに対応するパラメータ値とを定義するパラメータ
定義部を有することを特徴とする請求項１記載の音声対
話システム。
【請求項３】上記シーケンス定義データは、所定の条
件により、処理を分岐させる分岐制御定義部を有するこ
とを特徴とする請求項１，２いずれかに記載の音声対話
システム。
【請求項４】上記シーケンス定義データは、上記入力
した音声を認識する際に、上記入力した音声に対応する
認識候補を用いて、上記入力した音声の確認を行うこと
を特徴とする請求項１から３いずれかに記載の音声対話
システム。
【請求項５】上記シーケンス定義データは、上記入力
した音声を認識する際に、複数の認識候補を採用し、上
記複数の認識候補のうちの１つの認識候補を用いて上記
入力した音声の確認を行い、上記認識候補が、正しい認
識でなかったとき、上記複数の認識候補のうちの他の認
識候補を用いて、入力した音声の確認を行うことを特徴
とする請求項４記載の音声対話システム。
【請求項６】上記シーケンス定義データは、更に、上
記動作ブロックの実行結果と分岐先の対応を参照テーブ
ルとして定義し、上記シーケンス定義データ実行部は、上記参照テーブル
を参照して上記動作ブロックの実行結果により処理を分
岐させることを特徴とする請求項１から５いずれかに記
載の音声対話システム。