JP3037902B2 - 音声対話システム - Google Patents

音声対話システム

Info

Publication number
JP3037902B2
JP3037902B2 JP8266042A JP26604296A JP3037902B2 JP 3037902 B2 JP3037902 B2 JP 3037902B2 JP 8266042 A JP8266042 A JP 8266042A JP 26604296 A JP26604296 A JP 26604296A JP 3037902 B2 JP3037902 B2 JP 3037902B2
Authority
JP
Japan
Prior art keywords
voice
recognition
definition data
sequence definition
operation block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8266042A
Other languages
English (en)
Other versions
JPH10111698A (ja
Inventor
靖 村澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8266042A priority Critical patent/JP3037902B2/ja
Publication of JPH10111698A publication Critical patent/JPH10111698A/ja
Application granted granted Critical
Publication of JP3037902B2 publication Critical patent/JP3037902B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声を入力し、
入力した音声を認識して、認識した音声に基づく音声応
答を行う音声対話システムに関するものである。特に、
音声対話システムの設計、実行に関するものである。
【0002】
【従来の技術】図33は、従来の音声対話システムのハ
ードウェア構成の一例を示す図である。図において、1
000は音声認識応答クライアントである。1100は
音声認識応答装置であり、ローカルエリアネットワーク
(LAN:Local Area Network)1
090で、音声認識応答クライアント1000と接続さ
れている。1105はシステム制御カード、1190は
非同期システムバスであるVMEバス(Versa M
odule European bus)である。シス
テム制御カード1105は、VMEバス1190を経由
して、音声認識応答カード1200を複数接続可能であ
る。
【0003】図34は、従来の音声対話システムのソフ
トウェア構成の一例を示す図である。図において、10
10は音声対話により所定のアプリケーションを実行す
るアプリケーションプログラムである。音声認識応答ラ
イブラリ1020は、音声認識応答装置を使用する上記
アプリケーションプログラム1010をサポートするC
言語ライブラリであり、例えば、電話発信、音声認識、
音声出力という単位で音声認識応答装置に対して命令を
発行する。認識単語辞書応答音声作成ユーティリティ1
030は、音声認識応答装置1100を使用するアプリ
ケーションを作成する上で、必要となる認識単語辞書及
び応答音声データを作成するためのソフトウェアであ
る。音声認識応答サーバ1110は、音声認識応答装置
1100を制御するサーバソフトウェアである。音声認
識応答サーバ1110は、音声認識応答ライブラリ10
20を経由して、音声認識応答クライアント1000の
アプリケーションプログラム1010との通信を行う。
音声認識応答ドライバ1120は、音声認識応答サーバ
1110からの指示を受けて音声認識応答ファームウェ
ア1210や音声認識応答カード1200の制御を行
う。音声認識応答ファームウェア1210は、音声認識
応答カード1200上で音声やダイアルの認識、応答音
声の出力及び電話の制御を行うファームウェアである。
【0004】
【発明が解決しようとする課題】このような構成からな
る音声認識応答装置においては、利用者(話者)の不正
入力や周囲のノイズ入力に備えて聞き直しの手続が必要
である。また、入力した音声を認識した結果である認識
内容の確認の手続も必要である。従来のアプリケーショ
ンプログラムのプログラミングにおいては、音声認識応
答ライブラリ1020に用意されている基本的な命令を
用いて全てプログラミングする必要があり、上記のよう
な手続のノウハウを持った人間でないとプログラミング
が難しいという問題点があった。また、対話システムに
不慣れな人間のプログラミングが難しいという問題点が
あった。更に、適用するシステムの内容によって、対話
内容や対話処理のつながりが異なり、作成したアプリケ
ーションプログラムの流用性や保守性がよくないという
問題点があった。このため、音声対話システムに不慣れ
な人間でも、設計のできる音声対話システムの実現が望
まれていた。
【0005】この発明は、上記のような問題点を解決す
るためになされたものであり、音声対話システムに精通
している人間でなくても効率よくアプリケーションの設
計のできる音声対話システムを実現することを目的とし
ている。また、設計するアプリケーションの保守性のよ
い音声対話システムを実現することを目的としている。
【0006】
【課題を解決するための手段】この発明に係る音声対話
システムは、音声を入力し、入力した音声を認識して、
認識した音声に基づく音声応答により対話処理を行う音
声対話システムにおいて、以下の要素を有することを特
徴とする。 (a)上記音声対話システムが行なう対話処理の動作を
動作の種類毎にブロック化して、ブロック化された対話
処理の動作の種類を所定の処理フローが割り当てられた
ブロックタイプとして予め定義するとともに、予め定義
されたブロックタイプから一つのブロックタイプを決定
して、決定したブロックタイプに割り当てられた処理フ
ローを用いてアプリケーションに適用可能な対話処理の
動作を動作ブロックとして記述し、 記述された動作ブロ
ックを1つ以上組み合わせて所定の対話処理アプリケー
ションを構成するシーケンス定義データとして予め記述
して記憶するシーケンス定義データ記述部、 (b)上記シーケンス定義データを入力し解釈して実行
するシーケンス定義データ実行部、 (c)上記シーケンス定義データを上記シーケンス定義
データ実行部に入力させて実行させることにより上記
定の対話処理アプリケーションを実行するアプリケーシ
ョン実行部。
【0007】上記シーケンス定義データは、上記動作ブ
ロックの処理内容を決定するパラメータと、上記パラメ
ータに対応するパラメータ値とを定義するパラメータ定
義部を有することを特徴とする。
【0008】上記シーケンス定義データは、所定の条件
により、処理を分岐させる分岐制御定義部を有すること
を特徴とする。
【0009】上記シーケンス定義データは、上記入力し
た音声を認識する際に、上記入力した音声に対応する認
識候補を用いて、上記入力した音声の確認を行うことを
特徴とする。
【0010】上記シーケンス定義データは、上記入力し
た音声を認識する際に、複数の認識候補を採用し、上記
複数の認識候補のうちの1つの認識候補を用いて上記入
力した音声の確認を行い、上記認識候補が、正しい認識
でなかったとき、上記複数の認識候補のうちの他の認識
候補を用いて、入力した音声の確認を行うことを特徴と
する。
【0011】上記シーケンス定義データは、更に、上記
動作ブロックの実行結果と分岐先の対応を参照テーブル
として定義し、上記シーケンス定義データ実行部は、上
記参照テーブルを参照して上記動作ブロックの実行結果
により処理を分岐させることを特徴とする。
【0012】
【発明の実施の形態】
実施の形態1.この発明の音声対話システムでは、音声
対話システムの動作を予めテキストデータで定義する。
この音声対話システムの動作を定義したデータをシーケ
ンス定義データと呼ぶ。シーケンス定義データは、シー
ケンス定義データ記述部に予め記憶される。アプリケー
ション実行部は、このシーケンス定義データを指定し
て、シーケンス定義データ実行部を呼び出す。呼び出さ
れたシーケンス定義データ実行部は、シーケンス定義デ
ータ記述部から指定されたシーケンス定義データを読み
込み、シーケンス定義データの記述内容を解釈して、音
声認識応答装置を動作させる。
【0013】図1は、この実施の形態の音声対話システ
ムの構成図である。図において、10はシーケンス定義
データ記述部であり、動作ブロック12及び参照テーブ
ル14をシーケンス定義データとして予め記憶する。動
作ブロック12及び参照テーブル14については、後述
する。20は音声対話システムの処理するアプリケーシ
ョンを実行するアプリケーション実行部である。シーケ
ンス定義データ実行部30は、前述したように、アプリ
ケーション実行部20から指定されたシーケンス定義デ
ータの内容に従って、音声認識応答装置1100を動作
させる。アプリケーション実行部20とシーケンス定義
データ実行部30は、通信エリア40を用いてデータを
やりとりする。通信エリア40には、例えば、音声認識
結果などが格納される。格納されるデータは、実行する
動作ブロックの内容により異なる。
【0014】図2は、この発明の音声応答システムのソ
フトウェア構成図である。図において、Q&Aシーケン
ス生成ユーティリティ100が、図1のシーケンス定義
データ実行部30に相当する。他の符号については、前
述した図34と同一である。また、この発明の音声応答
システムのハードウェア構成は、前述した図33と同一
の構成で構わない。シーケンス定義データ記述部10
は、図33に示した音声認識応答クライアント1000
又は音声認識応答装置1100に接続されているディス
クに配置されるものとする。或いは、シーケンス定義デ
ータ実行部30からアクセス可能な場所であれば、他の
場所に配置しても構わない。
【0015】次に、シーケンス定義データの作成方法に
ついて述べる。図3〜図5に音声応答の一例として、旅
行案内の動作フロー例を示す。図3〜図5は、(A)〜
(F)で接続される一連の動作フローを示す流れ図であ
る。この例では、旅行する方面(S14)、地名(S1
8,S20,S22)、出発日(S24)、予算(S2
6)を利用者に問い合わせる。利用者が音声で入力した
回答をそれぞれ認識した後、その結果を基に他のデータ
ベースへ検索処理(S28)を行い、案内を行う。この
動作フローの2重四角枠部分(S10,S12,S1
4,・・・,S36,S40)を、動作ブロックと呼
ぶ。動作ブロックは、音声認識応答装置への典型的な処
理をひとかたまりにしたもので、この動作ブロックを組
み合わせることによってアプリケーションを作成するこ
とができる。動作ブロック間のリンクに関して、単純に
次の動作ブロックへ一意に進む場合もあるが、動作ブロ
ックの実行結果によって分岐することもある(旅行する
方面の認識結果から地名の認識へ進む場面(S16)な
ど)。その実行結果と分岐先に対応を示すためのテーブ
ルを参照テーブルと呼ぶ。シーケンス定義データは、こ
の動作ブロックと参照テーブルの定義とそれらのパラメ
ータ設定を記述したものである。
【0016】図6に、シーケンス定義データの記述形式
を示す。動作ブロックの記述(50,52,58)で
は、動作ブロックの種類を示すブロックタイプやその実
行時に必要となるパラメータを定義する。参照テーブル
の記述(60,62,68)では、動作ブロックの実行
終了時に返る認識結果やエラー内容とそれらに対応する
次の動作ブロックとを定義する。
【0017】次に、動作ブロック及び参照テーブルの記
述内容について詳細に説明する。図7に、動作ブロック
の記述形式を示す。大文字の部分(70,72,74)
は、この発明の音声対話システムで定められた記述であ
り固定である。小文字の部分がアプリケーション作成時
に、音声対話システムの管理者が記述する部分である。
#以下(77,79,82,89)は、コメントであ
る。各定義データについて、以下に説明する。
【0018】(a)blockname:動作ブロック
名76 動作ブロックの名前を記述する。名前は、NULLBL
OCK以外、かつ、1つのシーケンス定義データ内で一
意であれば、数字又はアルファベットで始まる最大15
文字で自由に記述して構わない。
【0019】(b)blocktype:ブロックタイ
プ78 動作ブロックの種類を記述する。この発明の音声対話シ
ステムでサポートしている動作ブロックの種類を、図8
に示す。この中のいずれかのタイプをブロックタイプに
指定する。ブロックタイプには、音声認識応答装置の典
型的な処理がサポートされている。例えば、QAVC
(質問音声出力&認識&確認音声出力&認識)96で
は、図9に示すような典型的な応答を行う。まず、S5
0では、利用者の応答を促す音声を出力する。S52で
は、利用者の応答の認識結果が成功であったかどうかを
判断する。NGのときには、S54において、利用者の
繰り返しの応答を促す音声を出力する。OKのときに
は、S56において、認識した内容の確認を行う。次
に、S58において、確認が肯定されたか否かを判定す
る。OKのときには、この処理を終了する。NGのとき
には、S60において、応答の繰り返しを促す音声を出
力する。この内部フローは、QAVC96という動作ブ
ロックの種類に対応するものである。動作ブロックの種
類毎に、内部フローは異なっている。
【0020】この発明の音声応答システムにおいては、
アプリケーションに適用できる様々な種類の動作ブロッ
クを予め用意しており、任意の動作ブロックを組み合わ
せることにより利用者の要求にあったアプリケーション
を作成、実行することができる。また、各動作ブロック
には、それぞれの動作に関して通常行われている音声認
識及び応答のノウハウが含まれている。従って、この動
作ブロックを利用してアプリケーションを作成すること
により、利用者が1からアプリケーションプログラムを
作成する場合に比べて、既に用意されている音声応答シ
ステムのノウハウを利用者が利用できるというメリット
が得られる。
【0021】(c)pname:パラメータ名80&p
value:パラメータ値81 パラメータ名80及びパラメータ値81をパラメータ定
義部84と呼ぶ。パラメータ定義部84には、動作ブロ
ックの処理を決定するパラメータ名80と、その設定値
であるパラメータ値81を記述する。パラメータ間は、
スペース又はタブで区切り、1行で記述する。動作ブロ
ックのタイプによって固有のパラメータ名があり、記述
すべき内容が決まっている。パラメータ値81は、各パ
ラメータ毎に、数字や所定の文字やファイル名を設定す
る。例えば、図8に示すTSRO(電話発信&音声出
力)98では、発信先の電話番号や音声出力するデータ
などのパラメータがある。同じブロックタイプでも異な
る場面、例えば、「人数の認識」や「予算の認識」など
では異なる応答音声や認識単語辞書を使用するので、異
なるパラメータ値を設定することになる。これらの記述
は、省略可能である。省略された場合には、デフォルト
値定義ファイルで予め指定された設定が使用される。
【0022】(d)cond:条件86&dvalu
e:分岐先88 動作ブロック終了時と、それに対する分岐先を記述す
る。パラメータ間は、スペース又はタブで区切る。
【0023】図10に、動作ブロック終了時の条件の種
類を示す。図において、102は動作ブロック実行終了
時の条件であり、104は条件102に対応する記述で
ある。また、106はその条件102の意味を表す。正
常終了101は、動作ブロック内の全ての動作が正常終
了した場合の終了条件である。エラー終了107は、動
作ブロック内でエラーが発生した場合の終了条件であ
る。
【0024】図11に、分岐先の定義方法を示す。図に
おいて、108は定義方法、110は定義方法108が
適用される場面である。「動作ブロック名を定義」は、
次に実行する動作ブロックが一意に決まっている場合に
適用される。この場合は、シーケンス定義データ内で定
義した次に実行するブロック名を次の分岐先として記述
する。「未定義又はNULLBLOCKを定義」は、呼
び出しアプリケーションで実行結果を参照して次の動作
ブロックを決定したり、認識結果を元にデータベース検
索するなど、呼び出しアプリケーションに戻る場合に
は、NULLBLOCKと記述する。「参照テーブル名
を定義」は、わざわざ呼び出しアプリケーションに戻る
ことなく、認識結果やエラー内容を元に次に実行する動
作ブロックを動的に決定する場合、その対応を記述した
参照テーブル名を次の分岐先として定義する。これらの
記述は、省略可能である。省略された場合には、デフォ
ルト値定義ファイルで予め指定された設定が使用され
る。
【0025】次に、動作ブロック「QAVC」を例にと
って、動作ブロックの内部フローと定義すべきデータの
詳細について具体的に述べる。動作ブロック「QAV
C」は、質問音声出力と質問に対する応答として入力さ
れる音声又はダイアルの認識と確認音声出力とその回答
の認識とを処理する動作ブロックである。この動作ブロ
ックの内部フローを図12〜図14に示す。図12〜図
14は、(J)〜(T)で接続する一連の内部フローを
示している。具体的な機能としては、質問音声出力処理
(S100)と、それに続く音声又はダイアル認識処理
(S106)とを実行し、更に、認識候補の確認をする
音声出力処理(S116)と、その回答を認識する処理
(S122)の設定を定義する。この動作ブロックは、
利用者に対する質問とそれに対する回答を認識する場面
で使用する。設定により、質問が終了しない内に認識処
理を開始することも可能である。認識結果の相違度によ
るリジェクト判定もS112に示すように、動作ブロッ
ク内で行う。リジェクトされた場合に、再度質問するこ
とができる。この際、最初の質問と異なる質問内容を設
定することもできる(S114,S115)。タイムア
ウトなどのエラー終了で認識結果が得られなかった場合
にもリトライ可能な場合には、リトライ動作を設定でき
る(S108,S110,S114,S115)。この
動作ブロックでは、認識候補を利用者へ確認する(S1
16)ので、認識誤りを修正することができる。認識結
果の第一候補が否定された場合には、次の候補の確認を
実行する(S134,S136)。全ての候補が否定さ
れた場合には、再度最初の質問からリトライすることも
可能である(S138,S140)。リトライ回数分繰
り返して認識候補が得られない場合には、エラー終了
(S146)となる。正常終了時(S142)には、通
信エリアに認識候補が書き込まれる。音声認識時には、
認識された単語番号列が、ダイアル認識時には、0〜9
や#,*に対応した番号が書き込まれる。
【0026】次に、各処理の設定で使用するデータを説
明する。 message1.contentsX:質問音声出力
処理(S100)において、出力する質問音声データを
指定する。具体的には、音声認識応答装置内の音声デー
タのファイル名をフルパスで記述する。この実施の形態
では、Xは1〜32を記述し、記述された順に連続して
音声データが出力されるものとする。音声出力を行わな
い指定も可能である。
【0027】message1.endcheck:質
問音声出力中処理(S102)を、以下のように設定す
る。 NOP:音声出力終了を待たずに認識処理を開始する。
利用者の音声入力を検出しても音声出力は停止しない。
電話終了を検出した場合には、音声出力を停止し、エラ
ー終了する。 CANCEL:音声出力終了を待たずに、認識処理を開
始する。利用者の音声入力を検出したら、音声出力を停
止する(この処理を応答キャンセルと呼ぶ)。電話終了
を検出した場合には、音声出力を停止し、エラー終了す
る。 WAIT:音声出力終了してから、認識処理を開始す
る。音声出力中の利用者の入力は無視される。電話終了
を検出した場合には、音声出力を停止し、エラー終了す
る。この設定は、「message1.content
sX」によって音声出力が指定されたときに有効であ
る。
【0028】recog1.type:質問に対する回
答の認識処理(S106)の種類を、以下のように設定
する。 RECG:音声認識を行う。 TELR:ダイアル認識を行う。 BOTH:音声とダイアルの同時認識を行う。
【0029】recog1.recnum:質問に対す
る回答の認識処理(S106)の結果として返す最大候
補数を1〜10の範囲で指定する。実際に返される候補
数は、指定された数より少ない場合がある。「reco
g1.type」が「RECG」、「BOTH」のと
き、有効である。
【0030】recog1.timeout:質問に対
する回答の認識処理(S106)のタイムアウト時間を
秒単位で指定する。0のときには、無限待ちとする。指
定された時間に利用者の音声やダイアル入力がない場合
には、タイムアウトエラーとなる。
【0031】recog1.planum:質問に対す
る回答の認識処理(S106)のダイアル認識処理の認
識桁数を1〜49の範囲で指定する。0を指定した場合
には‘#’の入力を検出した時点で認識処理を終了す
る。利用者の電話がダイアルパルスのときには‘#’の
入力ができないので、0を設定した場合には、タイムア
ウト又は50桁以上のダイアルが入力されるまで認識処
理を終了しないので、注意が必要である。この設定は、
「recog1.type」が「TELR」、「BOT
H」ときに有効で、必ず記述する必要がある。
【0032】recog1.categoryX:質問
に対する回答の認識処理(S106)の音声認識処理に
使用する認識単語辞書のカテゴリ番号を0〜65535
の範囲で指定する。Xは1〜10を記述し、最大10個
の認識単語辞書を同時に使用して認識処理をすることが
できる。但し、−1が指定された場合には、認識単語辞
書は使用されない。データの記述がない場合には、直前
に使用した認識単語辞書を使用する。この設定は、「r
ecog1.type」が「RECG」、「BOTH」
のとき、有効である。
【0033】recog1.rjtlevel:質問に
対する回答の認識処理(S106)が正常終了したと
き、認識結果として返される候補の相違度が大きい場合
には、その候補をリジェクトして再度利用者に音声入力
を要求するリトライ処理を行うことができる。「rec
og1.rjtlevel」では、S112の相違度の
判定において、その相違度をどの程度まで許容するかを
指定する。値が大きいほど許容度が大きくなる。この設
定は、「recog1.type」が「RECG」、
「BOTH」のとき、有効である。
【0034】remessage1.retrycn
t:以下に示す場合には、再度利用者に音声入力を要求
するリトライ処理を行うことができる。この設定は、質
問リトライ回数の判定(S114)で使用される。 ・認識処理が正常終了したが、第一候補の相違度がre
cog1.rjtlevelで設定された値より大き
く、リジェクトされた場合。 ・認識処理がタイムアウトエラー終了した場合。 ・認識処理が認識候補なしエラー終了した場合(ノイズ
や小さい音声が入力された場合)。「remessag
e1.retrycnt」では、そのリトライ回数を1
6進数の0〜0x7FFFFFFFの範囲で指定する。
0の場合には、一度もリトライしない。
【0035】remessage1.contents
X:質問リトライ音声出力処理(S115)時に利用者
に対して出力する音声データを指定する。具体的には、
音声認識応答装置内の音声データのファイル名をフルパ
スで記述する。Xは1〜32を記述し、記述した順に連
続して音声データが出力される。音声出力を行わない設
定も可能である。
【0036】message2.contentsX:
認識候補確認音声出力処理(S116)において、出力
する確認音声データを指定する。Xは1〜32を記述
し、記述した順に連続して音声データが出力される。通
常は、「○○○ですか」と認識候補を確認する音声を指
定する。この場合、「○○○」の部分は、認識候補によ
って出力する音声が変わるので、その対応を記述した参
照テーブル名を指定する。「ですか」の部分は、固定な
ので音声認識応答装置内のその音声データファイル名を
フルパスで記述する。/rpdat/NULLが指定さ
れた場合には、音声出力を行わない。
【0037】message2.endcheck:確
認音声出力中処理(S118)を、以下のように設定す
る。 NOP:音声出力終了を待たずに、認識処理を開始す
る。利用者の音声入力を検出しても、音声出力は停止し
ない。電話終了を検出した場合には、音声出力を停止
し、エラー終了する。 CANCEL:音声出力終了を待たずに、認識処理を開
始する。利用者の音声入力を検出したら、音声出力を停
止する(この処理を応答キャンセルと呼ぶ)。電話終了
を検出した場合には、音声出力を停止し、エラー終了す
る。 WAIT:音声出力終了してから、認識処理を開始す
る。音声出力中の利用者の入力は、無視される。電話終
了を検出した場合には、音声出力停止し、エラー終了す
る。この設定は、「message2.content
sX」によって音声出力が指定されたときに有効であ
る。
【0038】recog2.type:確認に対する回
答の認識処理(S122)の種類を、以下のように設定
する。 RECG:音声認識を行う。 TELR:ダイアル認識を行う。 BOTH:音声とダイアルの同時認識を行う。 ダイアル認識の場合には、1桁しか認識しない。
【0039】recog2.timeout:確認に対
する回答の認識処理(S122)のタイムアウト時間を
秒単位で指定する。0のときには、無制限待ちとする。
指定された時間に利用者の音声やダイアル入力がない場
合には、タイムアウトエラーとなる。
【0040】recog2.categoryX:確認
に対する回答の認識処理(S122)の音声認識処理に
使用する認識単語辞書のカテゴリ番号を0〜65535
の範囲で指定する。Xは1から10を記述し、最大10
個の認識単語辞書を同時に使用して認識処理をすること
ができる。また、−1が指定された場合には、認識単語
辞書は使用されない。データの記述がない場合には、直
前に使用した認識単語辞書を使用する。この設定は、
「recog2.type」が「RECG」、「BOT
H」のとき、有効である。
【0041】recog2.rjtlevel:確認に
対する回答の認識処理(S122)が正常終了したと
き、認識結果として返される候補の相違度が大きい場合
には、その候補をリジェクトして再度利用者に音声入力
を要求するリトライ処理を行うことができる。「rec
og2.rjtlevel」では、S128の相違度の
判定において、その相違度をどの程度まで許容するかを
指定する。値が大きいほど、許容度が大きくなる。この
設定は、「recog2.type」が「RECG」、
「BOTH」のとき、有効である。
【0042】recog2.yesnum:「はい」な
どの肯定を示す単語番号又はダイアルの番号(0〜9)
を指定する。認識結果(S134)がこの値と一致した
場合には、認識候補が確認されたとし、正常終了(S1
42)する。
【0043】remessage2.retrycn
t:以下に示す場合には、確認のリトライ処理を行うこ
とができる。この設定は、確認リトライ回数の判定(S
130)で使用される。 ・認識処理が正常終了したが、第一候補の相違度が「r
ecog2.rjtlevel」で設定された値より大
きく、リジェクトされた場合。 ・認識処理がタイムアウトエラー終了した場合。 ・認識処理が認識候補なしエラー終了した場合(ノイズ
や小さい音声が入力された場合)。「remessag
e2.retrycnt」では、そのリトライ回数を1
6進数の0〜0x7FFFFFFFの範囲で指定する。
0の場合には、1度もリトライしない。
【0044】remessage2.contents
X:確認リトライ音声出力処理(S132)時に利用者
に対して出力する音声データを指定する。具体的には、
音声認識応答装置内の音声データのファイル名をフルパ
スで記述する。Xは1〜32を記述し、記述した順に連
続して音声データが出力される。/rpdat/NUL
Lが指定された場合には、音声出力を行わない。
【0045】remessage3.retrycn
t:相違度がrecog1.rjtlevelで設定さ
れた値より小さく、リジェクトされない質問の回答に対
する認識結果の全ての候補について、確認を行ったが全
て利用者に否定された場合、再度最初の質問からやり直
すリトライ処理を行うことができる。remessag
e3.retrycntでは、そのリトライ回数を16
進数の0〜0x7FFFFFFFの範囲で指定する。0
の場合には、1度もリトライしない。この設定は、全体
リトライ回数の判定(S138)で使用される。
【0046】remessage3.contents
X:確認まで行った後、再度最初の質問からやり直す場
合のブロック全体リトライ音声出力処理(S140)時
に利用者に対して出力する音声データを指定する。具体
的には、音声認識応答装置内の音声データのファイル名
をフルパスで記述する。Xは1〜32を記述し、記述し
た順に連続して音声データが出力される。
【0047】block.rtnerror:S146
におけるエラー終了時の動作分岐を指定する。認識がタ
イムアウト又は入力キャンセルエラー終了時は、「re
message1.retrycnt」及び「reme
ssage2.retrycnt」で指定された回数だ
けリトライを行った後の動作を指定する。このブロック
で発生するエラーとその内容を、以下に示す。 MELAECONN:音声認識応答装置との接続に失敗
した。音声認識応答装置を制御するサーバソフトウェア
(音声認識応答サーバ)が動作しているか、また、ネッ
トワークに異常がないか確認が必要である。 MELAEPARM:シーケンス定義データが不正であ
る。シーケンス定義データの内容を確認が必要である。 MELAETELE:相手の電話切断を検出した。 MELAECANC:コマンド実行途中でキャンセルさ
れた。 MELAEDIAL:50桁以上のダイアルを入力され
た。 MELAEFIO:音声認識応答装置内でファイルのア
クセスに失敗した。「message1〜3.cont
entsX」で指定したファイル、或いは、「reco
g1〜3.categoryX」で指定したカテゴリ番
号に対応した辞書が、音声認識応答装置内にあるか確認
が必要である。 MELAERCG:指定された回数リトライするが、結
局、認識候補が得られなかった場合である。 MELAEIO:音声認識応答装置内で異常なエラーが
発生した。音声認識応答装置のファームウェア、ハード
ウェア障害の可能性がある。 MELAENORDY:チャネルが使用可能な状態にな
い。初期処理(INIT)の動作ブロックを正しく実施
したか確認が必要である。 MELAEDICSZ:recog.category
Xで指定したカテゴリの辞書のサイズが大き過ぎて全て
ロードできなかった場合である。認識対象の単語を絞っ
たり、質問内容を見直して辞書のサイズを減らすことが
必要である。 MELAEVER:「recog.category
X」で指定したカテゴリの辞書の中にファームウェアと
バージョンが合ってないものがある。辞書の内容を確認
して、古い辞書をリコンパイルして再生成することが必
要である。 これらのエラーが発生した場合、アプリケーションに戻
らない場合には、次に実行する動作ブロック名を記述す
る。エラーの内容によって実行する動作ブロックを変え
る場合には、その対応を記述した参照テーブル名を記述
する。データの記述がない場合及びNULLBLOCK
の場合には、アプリケーションへ制御が返る。
【0048】block.rtnnormal:認識候
補が得られた場合(S142)の動作分岐を指定する。
アプリケーションに戻らない場合には、次に実行する動
作ブロック名を記述する。認識候補によって実行する動
作ブロックを変える場合には、その対応を記述した参照
テーブル名を記述する。データの記述がない場合及びN
ULLBLOCKの場合には、アプリケーションへ制御
が返る。
【0049】図15〜図17に、動作ブロック「QAV
C」の記述例を示す。図15の120に示す「qavc
block1」は、この動作ブロックの動作ブロック名
である。また、122に示す「QAVC」は、この動作
ブロックのブロックタイプである。126に示す「/r
pdat/ques2.u」は、質問音声出力処理にお
いて、出力する質問音声データを示すファイル名であ
る。130に示す「NOP」は、利用者が音声出力終了
を待たずに音声入力を開始した場合、音声出力終了を待
たずに、入力された利用者の音声の認識処理を開始する
ことを指定している。134に示す「RECG」は、認
識処理タイプが「音声認識」であることを示している。
138に示す「2」は、最大認識候補数を示す。142
に示す「30」は、認識処理タイムアウトが30秒であ
ることを示している。146に示す「0」は、ダイアル
認識ではないので無効である。150に示す「1038
2」は、認識単語辞書のカテゴリ番号である。154に
示す「700」は、認識リジェクトレベルを示す。図1
6の158に示す「3」は、リトライを3回行うことを
示す。162に示す「/rpdat/mouitid
o.u」は、質問のリトライ音声出力処理において、利
用者に対して出力する音声データのファイル名を示して
いる。168に示す「!qtable1」は、認識候補
確認音声出力処理において、出力する確認音声データを
指定する参照テーブル名である。また、172に示す
「/rpdat/desuka.u」は、168で示さ
れた参照テーブルから選択されて出力される確認音声デ
ータに引き続いて、固定的に出力される音声データのフ
ァイル名である。176に示す「NOP」は、音声出力
終了を待たずに、認識処理を開始することを指定してい
る。180に示す「RECG」は、認識処理タイプが
「音声認識」であることを示している。184,18
8,192は、前述した142,150,154と同一
の設定内容であるので、説明は省略する。図17の19
6に示す「1」は、認識リトライ回数が1回であること
を示す。「/rpdat/mouitido.u」は、
確認のリトライ音声出力処理時に、利用者に対して出力
する音声データのファイル名である。204に示す
「1」は、ブロック全体のリトライ回数が1回であるこ
とを示す。208に示す「/rpdat/mouiti
do.u」は、ブロック全体リトライ音声出力処理時
に、利用者に対して出力する音声データを指定するファ
イル名である。212に示す「/rpdat/sais
yo.u」は、208で指定した音声データファイルに
続いて出力する音声データファイルのファイル名を示し
ている。216に示す「!errtable1」は、エ
ラー終了時に発生したエラーの内容によって、実行する
動作ブロックを選択する参照テーブル名である。224
に示す「!rectable1」は、認識候補が得られ
た場合に、得られた認識候補によって実行する動作ブロ
ックを変えるために、認識候補と動作ブロックとの対応
を記述した参照テーブル名である。以上のように、動作
ブロックの詳細データを設定する。
【0050】このように、動作ブロック「QAVC」に
は、予め質問音声出力及び認識及び確認音声出力及び認
識とが処理として用意されているので、利用者は、予め
システムで用意されている動作ブロック内のデータを定
義し、任意の設定を行うだけで音声応答システムで実行
するアプリケーションを容易に作成することができる。
【0051】次に、参照テーブルの記述形式について説
明する。図18は、参照テーブルの記述形式を示す図で
ある。大文字の部分(240,242,246)は、こ
の発明の音声応答システムで定められた記述であり、固
定である。小文字の部分(248,250,252,2
54)がアプリケーション作成時に記述する部分であ
る。各定義データについて説明する。
【0052】(a)tablename:参照テーブル
名248 参照テーブル名248には、参照テーブルの名前を記述
する。名前は、1つのシーケンス定義データ内で一意で
あればよく、数字又はアルファベットで始まる最大15
文字となっている。参照テーブルを使用する動作ブロッ
クでは、この参照テーブル名に!を先頭に付けて記述す
る(図16〜図17参照)。
【0053】(b)tabletype:テーブルタイ
プ250 テーブルタイプ250には、参照テーブルの種類を記述
する。参照テーブルの種類を、図19に示す。図19に
おいて、256はテーブルタイプのタイプ名であり、2
58はそのテーブルタイプの意味を表している。テーブ
ルタイプ250には、この3つのタイプの中からいずれ
かを選んで記述する。参照テーブルには、動作ブロック
間の分岐が定義できる。また、ブロックタイプ「QAV
C」の動作ブロックで認識結果と、その認識結果に対応
する確認音声との組み合わせなどを記述する参照テーブ
ルも定義できる。
【0054】(c)tag:パラメータタグ252&v
alue:パラメータ値254 パラメータタグ252とパラメータ値254には、パラ
メータを索引するためのタグ名とタグに対応した値を記
述する。パラメータタグ252とパラメータ値254の
間は、スペース又はタブで区切り、1行で記述する。パ
ラメータタグは、各タイプによって認識結果の単語番号
やエラー名を記述する。パラメータ値は、各パラメータ
タグ毎に分岐先の動作ブロック名や応答音声出力ファイ
ル名を記述する。 テーブルタイプ「RCGT」の場合 認識結果の単語番号と、その単語番号に対応した分岐先
の動作ブロック名を記述する。図20に、テーブルタイ
プ「RCGT」の参照テーブルの記述例を示す。図にお
いて、260に示すrcgtable1は、参照テーブ
ル名を示している。また、262に示すRCGTは、テ
ーブルタイプである。264,266,268は、単語
番号列である。認識結果には、このように、認識単語辞
書作成時に各単語に予め定義された単語番号が返され
る。単語番号が1つの場合もあるし、日付や金額のよう
な連続の単語では複数の単語番号が返される。この場合
には、単語番号列を図に示すように、“,”で区切り、
{}で囲うものとする。270に示すblock1は、
264,266,268に示した単語番号列の場合に分
岐する動作ブロック名である。また、272に示すよう
に、NULLBLOCKの場合には、呼び出しアプリケ
ーションへ戻る。認識結果の単語番号が参照テーブル内
にない場合も同様に、呼び出しアプリケーションに戻
る。 テーブルタイプ「ERPT」の場合 この場合の参照テーブルには、動作ブロック内で発生し
たエラー内容とそのエラー内容に対応した分岐先の動作
ブロック名を記述する。このタイプの参照テーブルは、
全てのブロックタイプの動作ブロックで使用される。参
照テーブルには、エラー名と動作ブロック名を対で記述
する。図21は、テーブルタイプ「ERPT」の参照テ
ーブルの記述例を示す図である。280に示すerrt
able1は、参照テーブル名であり、282に示すE
RRTは、テーブルタイプである。284,288は、
動作ブロック内で発生し得るエラーのエラー名である。
286はそのエラーに対応する分岐先の動作ブロック名
である。テーブルタイプ「RCGT」の場合と同様に、
NULLBLOCKの場合には、呼び出しアプリケーシ
ョンに戻る。エラー内容がテーブル内にない場合も同様
に、呼び出しアプリケーションに戻る。 テーブルタイプ「REPT」の場合 このタイプの参照テーブルには、認識結果の単語番号と
その単語番号に対応した応答音声データのファイル名を
記述する。例えば、ブロックタイプ「QAVC」の動作
ブロックでは、認識した結果を元に、その確認のため、
オウム替えしに「○○○ですか」といった確認を行う。
この確認のために、使用する応答音声は、認識結果によ
って動的に変化する。その動的な対応をこのタイプの参
照テーブルで定義する。図22に、テーブルタイプRE
PTの記述例を示す。290に示すrephoumen
は、参照テーブル名である。292に示すREPTは、
テーブルタイプである。参照テーブルには、294,2
96に示すように、認識結果の単語番号とその単語番号
に対応した応答音声ファイル名を対にして記述する。1
つの単語番号に対して複数の応答音声ファイルを出力す
る場合には、298に示すように、ファイル名を“,”
で区切り、{}で囲う。また、認識結果が複数の単語番
号の場合には、それぞれに対応した応答音声ファイルが
連続して出力される。認識結果の単語番号に対して、対
応する音声の出力を行わない設定も可能である。また、
認識結果の単語番号が参照テーブル内にない場合も同様
に、音声出力は行われない。
【0055】次に、アプリケーション実行部20と、シ
ーケンス定義データ実行部30と音声認識応答装置11
00とのインタフェースについて説明する。図23,図
24は、アプリケーション実行部20と、シーケンス定
義データ実行部30と音声認識応答装置1100とのイ
ンタフェースを示す図である。まず、アプリケーション
実行部20は、シーケンス定義データ実行部30を実行
するために、セッション生成(300)を行う。生成時
には、そのセッションで使用するシーケンス定義ファイ
ルを指定する。その指定に従い、シーケンス定義データ
ファイルが読み込まれる(302)。シーケンス定義デ
ータファイルの読み込みに続いて、実行資源が確保され
る。実行資源が確保されると、アプリケーションに制御
が戻る。次に、アプリケーション実行部20は、音声認
識応答装置1100を動作させるために、シーケンス定
義データに記述した動作の単位である動作ブロックの呼
び出しを行う(304)。シーケンス定義データ実行部
30は、指定されたシーケンス定義データの記述に従っ
て動作ブロックを実行し(306)、音声認識応答装置
1100を制御する。図23及び図24において、シー
ケンス定義データ実行部30と音声認識応答装置110
0との間の矢印は、シーケンス定義データ実行部30と
音声認識応答装置1100の制御のやりとりを表してい
る。動作ブロック内で他のブロックへの分岐が指示され
ていれば、指定されたブロックへの分岐を行う(30
8)。そして、分岐した動作ブロックを実行する(31
0)。1つの動作ブロックが終了した後、分岐先でアプ
リケーションが指定されている場合には(312)、動
作ブロックを呼び出した関数がリターンする(31
4)。アプリケーション実行部20では、例えば、認識
結果を元に、データベース検索(316)などを行った
後、再び次の動作ブロックの呼び出しを行う(31
8)。シーケンス定義データ実行部は、呼び出された動
作ブロックを実行して、音声認識応答装置を制御する。
シーケンス定義データ実行部30からアプリケーション
へリターンした場合、アプリケーション実行部では、デ
ータベース検索ばかりではなく、結果画面表示(35
4)などを行ってもよい。アプリケーション実行部で
は、利用者の音声入力やダイアル入力によるデータを受
け取り、入力されたデータに対して本来のアプリケーシ
ョン処理だけを行えばよく、音声認識応答装置1100
の詳細な制御は、予め作成されたシーケンス定義データ
に従って、シーケンス定義データ実行部30が行う。シ
ーケンス定義データ実行部の実行を終了する場合には、
アプリケーションはセッションの解放(356)を行
う。シーケンス定義データ実行部30は、実行資源の解
放を行い(358)、アプリケーションに制御を戻す
(360)。
【0056】図23及び図24に示すように、アプリケ
ーション実行部20とシーケンス定義データ実行部30
とのやりとりを示す矢印の数と、シーケンス定義データ
実行部30と音声認識応答装置1100の間の矢印の数
の多さを比較すると、シーケンス定義データ実行部30
と音声認識応答装置1100の間の矢印が多いことが判
る。これにより、シーケンス定義データ実行部がシーケ
ンス定義データに従って音声認識応答装置の制御を行う
ので、アプリケーション実行部は、音声認識応答装置の
制御を行う必要がなく、負荷が軽減されていることが判
る。また、前述したように、アプリケーションの作成者
は、シーケンス定義データを作成する際に、予め用意さ
れている動作ブロックにパラメータを設定し、更に、必
要に応じて参照テーブルを定義することで、容易にアプ
リケーションを作成できる。また、このため、アプリケ
ーションでは、本来の業務処理に専念することができ、
従来のような音声認識応答装置の詳細な制御を行う必要
がなくなる。
【0057】図25に、アプリケーションが使用する関
数の一覧を示す。400は関数の名前であり、402は
関数の機能である。図25に示すように、関数を利用し
てシーケンス定義データの値を実行時に設定したり、参
照したりすることも可能である。この機能は、実行しな
いと定まらないパラメータを動的に設定する場合や、シ
ステムのデバック時に使用される。例えば、図3に示し
た旅行案内の業務において、FAXを送るときの音声応
答データに、出発日や日数など実行時に始めて認識され
て確定される内容をパラメータとして加えるときなどに
使用する。
【0058】図26〜図30に、シーケンス定義データ
を使用するアプリケーションのコーディング例を示す。
410に示すsessionは、セッションを示す記述
子が返されるパラメータである。412に示すhost
name[16]は、音声認識応答装置のホスト名を指
定する。この実施の形態では、ホスト名は、所定のホス
トファイルにホストのIPアドレスとともに定義されて
いなければならないものとする。414に示すfile
name[256]は、このアプリケーションが使用す
るシーケンス定義データを記述したファイル名を示すパ
ラメータである。416のchanumは、使用するチ
ャネル番号を指定する。418に示すbname[1
6]は、実行する動作ブロック名である。動作ブロック
名は、シーケンス定義データで記述されたものでなけれ
ばならない。420に示すbuffer[1024]
は、認識結果を格納する通信エリアを指定する。422
のbufcntは、認識結果を格納する通信エリアをワ
ードサイズで指定する。関数のリターン時には、実際に
書き込まれたデータサイズが返される。430では、パ
ラメータhostnameに“starless”とい
う文字列をセットしている。432では、chanum
番号に“1”を代入してセットしている。434では、
パラメータfilenameにシーケンス定義ファイル
の名前を文字列で指定している。図27の436では、
図26の430,432,434でセットした各パラメ
ータを用いてセッション生成の関数を発行している。4
40では、最初に実行する動作ブロック[block
1]をパラメータbnameにセットしている。442
では、通信エリアサイズのセットを行っている。図28
の444では、session、bname、buff
er、bufcntという4つのパラメータを用いてシ
ーケンス実行の関数を定義している。450は、エラー
発生時の対応処理の定義である。図29の460及び4
65は、通信エリアに返された結果を元に画面表示やデ
ータベース検索など、アプリケーション本来の処理を行
う部分である。その後、470において、次に実行する
動作ブロック名を指定する。また、472において、通
信エリアサイズをセットする。図30の474は、パラ
メータ、session、bname、buffer、
bufcntを用いてシーケンス実行を行う関数の定義
である。また、480は、セッション解放の関数の定義
である。
【0059】次に、通信エリアのフォーマット例を示
す。図31は、音声認識を行った認識結果のフォーマッ
トを示す図である。このフォーマットは、ブロックタイ
プ「QAVC」で音声を認識した場合の通信エリアのフ
ォーマットである。動作ブロック名500には、シーケ
ンス定義データで記述したブロック名が文字列で格納さ
れる。ブロックタイプ502には、実行したブロックタ
イプであるQAVCがASCIIコードで格納される。
データカウント504には、認識タイプ506から相違
度524までのデータのサイズがワード単位で格納され
る。認識タイプ506は、常に0である。始端フレーム
番号508は、認識対象となった入力音声区間の先頭フ
レーム番号である。終端フレーム番号510は、認識対
象となった入力音声区間の最終フレーム番号である。フ
レーム番号とは、チャネルが使用可能な状態となってか
ら10ms単位にカウントアップされるチャネル内部の
カウンタ値である。パワーピーク値512は、認識対象
となった入力音声区間の最大の大きさをdB(デシベ
ル)単位で示す。候補数514は、常に1である。単語
列数520は、認識した単語の数が格納される。単語番
号522は、認識した単語の単語番号が格納される。相
違度524は、結果として返された単語番号列がどの程
度正しいかを示す値が返される。
【0060】図32は、ブロックタイプ「QA」、「Q
AVC」でダイアルを認識した場合のダイアル認識結果
のフォーマットである。動作ブロック名530は、シー
ケンス定義データで記述した名前が文字列で格納され
る。ブロックタイプ532には、実行したブロックタイ
プ「QA」か「QAVC」のいずれかがASCIIコー
ドで格納される。データカウント534は、認識タイプ
536からダイアル番号542のデータサイズがワード
単位で格納される。認識タイプ536は、常に1であ
る。認識ダイアル数540は、認識したダイアルの数が
格納される。ダイアル番号542には、認識したダイア
ル番号が格納される。このように、動作ブロックに設定
したパラメータに応じて通信エリアのフォーマットは予
め定めれられている。
【0061】
【発明の効果】この発明によれば、アプリケーションの
プログラミングとは別にシーケンス定義データを記述す
ることにより、音声応答システムの動作を設定できるの
で、アプリケーションのプログラミングの負荷を軽減す
ることができる。また、作成したシーケンス定義データ
を他のアプリケーションに容易に流用できる。また、保
守も容易に行える。
【0062】また、この発明によれば、予め用意されて
いるパラメータにパラメータを設定するだけで容易に音
声応答システムの動作を設定できる。
【0063】また、この発明によれば、処理の結果に応
じた応答や分岐先をアプリケーションと切り離して定義
できる。
【0064】また、この発明によれば、予め音声応答シ
ステムのノウハウの詰まった動作ブロックが用意されて
いるので、音声応答システムに精通した人間でなくて
も、音声応答システムのアプリケーションの設定が可能
である。
【0065】また、この発明によれば、音声応答システ
ムの制御と切り離して認識結果や発生したエラーに対応
した分岐先を定義することができる。
【図面の簡単な説明】
【図1】 この発明の音声対話システムの構成図であ
る。
【図2】 この発明の音声対話システムのソフトウェア
構成図である。
【図3】 この実施の形態の音声応答の一例を示す流れ
図である。
【図4】 この実施の形態の音声応答の一例を示す流れ
図である。
【図5】 この実施の形態の音声応答の一例を示す流れ
図である。
【図6】 この発明の音声対話システムのシーケンス定
義データの記述形式の図である。
【図7】 この発明の音声対話システムの動作ブロック
の記述形式の図である。
【図8】 この発明の音声対話システムの動作ブロック
の種類を示す図である。
【図9】 この発明の音声対話システムの動作ブロック
「QAVC」の内部フローを示す図である。
【図10】 この発明の音声対話システムの動作ブロッ
クの終了時の条件の種類を示す図である。
【図11】 この発明の音声対話システムの分岐先の定
義方法を示す図である。
【図12】 この発明の動作ブロック「QAVC」の内
部フローを示す詳細な流れ図である。
【図13】 この発明の動作ブロック「QAVC」の内
部フローを示す詳細な流れ図である。
【図14】 この発明の動作ブロック「QAVC」の内
部フローを示す詳細な流れ図である。
【図15】 この発明の動作ブロック「QAVC」の記
述例を示す図である。
【図16】 この発明の動作ブロック「QAVC」の記
述例を示す図である。
【図17】 この発明の動作ブロック「QAVC」の記
述例を示す図である。
【図18】 この発明の参照テーブルの記述形式を示す
図である。
【図19】 この発明の参照テーブルの種類を示す図で
ある。
【図20】 この発明の参照テーブル「RCGT」の記
述例を示す図である。
【図21】 この発明の参照テーブル「ERRT」の記
述例を示す図である。
【図22】 この発明の参照テーブル「REPT」の記
述例を示す図である。
【図23】 この発明のアプリケーション実行部とシー
ケンス定義データ実行部のインタフェースを示す図であ
る。
【図24】 この発明のアプリケーション実行部とシー
ケンス定義データ実行部のインタフェースを示す図であ
る。
【図25】 この発明のアプリケーション実行部が利用
する関数一覧を示す図である。
【図26】 この発明のアプリケーションのコーディン
グ例を示す図である。
【図27】 この発明のアプリケーションのコーディン
グ例を示す図である。
【図28】 この発明のアプリケーションのコーディン
グ例を示す図である。
【図29】 この発明のアプリケーションのコーディン
グ例を示す図である。
【図30】 この発明のアプリケーションのコーディン
グ例を示す図である。
【図31】 この発明のアプリケーション実行部とシー
ケンス定義データ実行部が使用する通信エリアのフォー
マットを示す図である。
【図32】 この発明のアプリケーション実行部とシー
ケンス定義データ実行部が使用する通信エリアのフォー
マットを示す図である。
【図33】 従来の音声応答システムのハードウェア構
成図である。
【図34】 従来の音声応答システムのソフトウェア構
成図である。
【符号の説明】
10 シーケンス定義データ記述部、12 動作ブロッ
ク、14 参照テーブル、20 アプリケーション実行
部、30 シーケンス定義データ実行部、40通信エリ
ア、1100 音声認識応答装置。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−147200(JP,A) 特開 平8−77274(JP,A) 特開 平8−83157(JP,A) 特開 平7−140998(JP,A) 特開 平6−161704(JP,A) 特公 昭47−21921(JP,B2) Proceedings of 11t h the Annual Confe rence the IEEE/Eng inieering in Medic ine and Biology So ciety,Vol.6,”The S tructure and Funct ion of a Speech Co ntrol Language for Text Processing a nd Robotic Contro l”,p.1795−1797,1989 豊田工業高等専門学校研究紀要,第18 巻,「音声認識LSIを用いた教育用ロ ボットの制御」,p.31−34,1985年 (58)調査した分野(Int.Cl.7,DB名) G01L 15/22 G01L 15/28 G05B 19/00 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を入力し、入力した音声を認識し
    て、認識した音声に基づく音声応答により対話処理を行
    う音声対話システムにおいて、 以下の要素を有する音声対話システム (a)上記音声対話システムが行なう対話処理の動作を
    動作の種類毎にブロック化して、ブロック化された対話
    処理の動作の種類を所定の処理フローが割り当てられた
    ブロックタイプとして予め定義するとともに、予め定義
    されたブロックタイプから一つのブロックタイプを決定
    して、決定したブロックタイプに割り当てられた処理フ
    ローを用いてアプリケーションに適用可能な対話処理の
    動作を動作ブロックとして記述し、 記述された 動作ブロックを1つ以上組み合わせて所定の
    対話処理アプリケーションを構成するシーケンス定義デ
    ータとして予め記述して記憶するシーケンス定義データ
    記述部、 (b)上記シーケンス定義データを入力し解釈して実行
    するシーケンス定義データ実行部、 (c)上記シーケンス定義データを上記シーケンス定義
    データ実行部に入力させて実行させることにより上記
    定の対話処理アプリケーションを実行するアプリケーシ
    ョン実行部。
  2. 【請求項2】 上記シーケンス定義データは、上記動作
    ブロックの処理内容を決定するパラメータと、上記パラ
    メータに対応するパラメータ値とを定義するパラメータ
    定義部を有することを特徴とする請求項1記載の音声対
    話システム。
  3. 【請求項3】 上記シーケンス定義データは、所定の条
    件により、処理を分岐させる分岐制御定義部を有するこ
    とを特徴とする請求項1,2いずれかに記載の音声対話
    システム。
  4. 【請求項4】 上記シーケンス定義データは、上記入力
    した音声を認識する際に、上記入力した音声に対応する
    認識候補を用いて、上記入力した音声の確認を行うこと
    を特徴とする請求項1から3いずれかに記載の音声対話
    システム。
  5. 【請求項5】 上記シーケンス定義データは、上記入力
    した音声を認識する際に、複数の認識候補を採用し、上
    記複数の認識候補のうちの1つの認識候補を用いて上記
    入力した音声の確認を行い、上記認識候補が、正しい認
    識でなかったとき、上記複数の認識候補のうちの他の認
    識候補を用いて、入力した音声の確認を行うことを特徴
    とする請求項4記載の音声対話システム。
  6. 【請求項6】 上記シーケンス定義データは、更に、上
    記動作ブロックの実行結果と分岐先の対応を参照テーブ
    ルとして定義し、 上記シーケンス定義データ実行部は、上記参照テーブル
    を参照して上記動作ブロックの実行結果により処理を分
    岐させることを特徴とする請求項1から5いずれかに記
    載の音声対話システム。
JP8266042A 1996-10-07 1996-10-07 音声対話システム Expired - Fee Related JP3037902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8266042A JP3037902B2 (ja) 1996-10-07 1996-10-07 音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8266042A JP3037902B2 (ja) 1996-10-07 1996-10-07 音声対話システム

Publications (2)

Publication Number Publication Date
JPH10111698A JPH10111698A (ja) 1998-04-28
JP3037902B2 true JP3037902B2 (ja) 2000-05-08

Family

ID=17425593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8266042A Expired - Fee Related JP3037902B2 (ja) 1996-10-07 1996-10-07 音声対話システム

Country Status (1)

Country Link
JP (1) JP3037902B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321198B1 (en) * 1999-02-23 2001-11-20 Unisys Corporation Apparatus for design and simulation of dialogue
JP2001290493A (ja) * 2000-04-06 2001-10-19 Asahi Kasei Corp 自動対話方法
JP3674453B2 (ja) 2000-04-14 2005-07-20 株式会社デンソー 対話型ユーザインターフェース装置
JP2002073080A (ja) * 2000-09-01 2002-03-12 Fujitsu Ten Ltd 音声対話システム
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
JP4174233B2 (ja) * 2002-04-24 2008-10-29 株式会社日立製作所 音声対話システム及び音声対話方法
CN109074329A (zh) 2016-05-12 2018-12-21 索尼公司 信息处理设备、信息处理方法和程序
KR20180101926A (ko) * 2017-03-06 2018-09-14 삼성전자주식회사 전자 장치 및 전자 장치의 어플리케이션 제어 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Proceedings of 11th the Annual Conference the IEEE/Enginieering in Medicine and Biology Society,Vol.6,"The Structure and Function of a Speech Control Language for Text Processing and Robotic Control",p.1795−1797,1989
豊田工業高等専門学校研究紀要,第18巻,「音声認識LSIを用いた教育用ロボットの制御」,p.31−34,1985年

Also Published As

Publication number Publication date
JPH10111698A (ja) 1998-04-28

Similar Documents

Publication Publication Date Title
US6885989B2 (en) Method and system for collaborative speech recognition for small-area network
US6871322B2 (en) Method and apparatus for providing user support through an intelligent help agent
JP2662157B2 (ja) ホストアクセステーブル構築方法及びデータ処理サブシステム
US6973620B2 (en) Method and apparatus for providing user support based on contextual information
US7983399B2 (en) Remote notification system and method and intelligent agent therefor
CA2304057C (en) System and method using natural language understanding for speech control application
US7469405B2 (en) System and method for scheduling execution of cross-platform computer processes
EP0663750A2 (en) Application-oriented telecommunication system interface
US20040167847A1 (en) System and method for trading financial instruments using speech
US20030043178A1 (en) Initiation of interactive support from a computer desktop
JPH04353957A (ja) プログラマブル・インタフェース・システム及び方法
JP3037902B2 (ja) 音声対話システム
JPH08314825A (ja) コマンドスクリプトの実行制御方法
US6976067B2 (en) Method and apparatus for providing entitlement information for interactive support
KR20030001369A (ko) 컴퓨터 네트워크를 통한 워크플로우 처리 방법
JPH0863478A (ja) 言語処理方法及び言語処理装置
CN110955469A (zh) 一种x86平台分布式批量调用联机交易的方法及装置
JPS61122767A (ja) 上位デ−タ処理システムを自動的にログオンおよびログオフする方法
US6442572B2 (en) Method of and computer system for performing a transaction on a database
JPH11272775A (ja) 電話による取引の情報処理システム
WO2021022702A1 (zh) 日志插入方法、装置、计算机装置及存储介质
JP2010182191A (ja) 帳票入力装置、帳票入力システム、帳票入力方法、及びプログラム
CN111708568B (zh) 一种组件化开发解耦方法及终端
US20060203989A1 (en) Automated follow-up call in a telephone interaction system
CN112148710B (zh) 微服务分库方法、系统和介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040520

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080225

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090225

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100225

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees