JP3423296B2 - 音声対話インターフェース装置 - Google Patents

音声対話インターフェース装置

Info

Publication number
JP3423296B2
JP3423296B2 JP2001183420A JP2001183420A JP3423296B2 JP 3423296 B2 JP3423296 B2 JP 3423296B2 JP 2001183420 A JP2001183420 A JP 2001183420A JP 2001183420 A JP2001183420 A JP 2001183420A JP 3423296 B2 JP3423296 B2 JP 3423296B2
Authority
JP
Japan
Prior art keywords
dialogue
sequence
user
voice
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001183420A
Other languages
English (en)
Other versions
JP2003005786A (ja
Inventor
英二 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2001183420A priority Critical patent/JP3423296B2/ja
Priority to US10/000,445 priority patent/US7080003B2/en
Publication of JP2003005786A publication Critical patent/JP2003005786A/ja
Application granted granted Critical
Publication of JP3423296B2 publication Critical patent/JP3423296B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声対話を用いて
アプリケーションを操作する音声対話インターフェース
装置に関するものである。
【0002】
【従来の技術】アプリケーションを音声によって操作す
る音声インターフェース装置が考案されている。図22
は、従来の音声対話によるアプリケーション操作の例で
ある。実際のユーザの入力及びシステムの応答は音、音
声で行われるが、説明の便宜上、漢字仮名混じり文を用
いて記述している。
【0003】音声対話においては、円滑なやりとりがで
きるように、対話の流れを制御する必要がある。対話の
流れとは、ユーザの入力に対するシステムの応答方法で
あり、システムが適切な応答を返すことにより、効率の
よい音声対話機能を実現することができる。
【0004】対話の流れを制御する目的で、対話システ
ムが内部に保持するデータを、対話シーケンスと呼ぶ。
対話シーケンスは、対話におけるシステムの状態、状態
を遷移させるきっかけとなるイベント(ユーザの発話の
解析結果。データベースからの結果、各種フラグの状態
等)、何らかの作用をするアクション(システムからユ
ーザへのフィードバック、アプリケーション操作、各種
フラグの設定等)、次に遷移する状態を記述したネット
ワークである。
【0005】図23は、従来の対話シーケンスの例であ
る(後述の「文献2」の対話シーケンス)。四角で囲んだ
文字は状態を表す。対話の状態毎に、イベントが起きた
ときに、起きたイベントに対してシステムが行うアクシ
ョン、及び、アクション実行後に遷移する状態を記述す
る。対話シーケンスは、最初に初期状態から開始され、
終了状態へ遷移したところで終了する。また、対話シー
ケンスでは、プログラム言語におけるサブルーチンコー
ルと同じように、ある状態において、その状態を一旦記
憶し、他の対話シーケンスを実行し、その対話シーケン
スが終了した後に、元の対話シーケンスの、記憶した状
態から動作を再開することができる。この場合、サブル
ーチンコールに当たる対話シーケンスの開始状態から終
了状態までの実行が、元の対話シーケンスの1つのアク
ションとなる。
【0006】対話の流れは、音声対話により操作するア
プリケーションやアプリケーションが扱う分野により制
御の方法が変わる。アプリケーションや分野が変わった
場合の変更のし易さ(以下「分野移行性」と呼ぶ)を容
易にする発明としては、以下に開示されるものがあっ
た。 文献1:特開平8−77274号公報 文献2:特開平11−149297号公報
【0007】文献1では、「対話シーケンス切り替え
部」と呼ばれるモジュールが、ユーザが選択したサービ
スの種別に応じて、対話シーケンス記憶部に記憶された
対話シーケンスパタンの中から、対応する1つの対話シ
ーケンスパタンを選択する。対話シーケンス記憶部に記
憶する対話シーケンスパタンを置き換えることにより、
分野移行性を高めている。
【0008】文献2では、対話シーケンスを、汎用部分
を上層、分野依存部分を下層とする2層の対話シーケン
スに分け、下層の対話シーケンスを上層からサブルーチ
ンコールする。下層の対話シーケンスを入れ替えること
により、分野移行性を高めている。
【0009】
【発明が解決しようとする課題】しかし、文献1に記載
された技術は、分野・アプリケーション毎に、対話シー
ケンス全体を入れ替える方法であり、対話シーケンス作
成の効率化は図られておらず、対応アプリケーション、
対応分野毎に対話シーケンスを開発する必要があった。
【0010】また、文献2の発明では、下層の対話シー
ケンスのみを作り替えることにより、分野移行性を高め
ているが、下層の修正が上層に及ぶ可能性があり、必ず
しも分野移行性が十分であるとはいえなかった。
【0011】さらに、いずれの文献についても、ユーザ
が対話の流れをカスタマイズする手段がなかった。
【0012】本発明は、分野移行性が高く、ユーザによ
るカスタマイズが容易な音声対話音声対話インターフェ
ース装置を提供することを目的とする。
【0013】
【課題を解決するための手段】そのために、本発明の音
声対話インターフェース装置においては、ユーザの発生
した入力音声を認識して文字列に変換する音声認識手段
と、認識文字列を解析して意味表現に変換する入力文解
析手段と、対話状態の流れを制御すると共にアプリケー
ションへのアクセスを行う対話制御手段と、ユーザへの
出力のための中間言語を生成する出力文生成手段と、中
間言語を音声に変換して出力する音声合成手段と、対話
制御手段から出力される意味表現を用いてアプリケーシ
ョンにアクセスするためのアプリケーション・インター
フェース手段とを備えた音声対話インターフェース装置
において、対話制御手段は、呼び出し関係にある一連の
対話シーケンスを関連性によって複数の対話タスクとし
てまとめ、該対話タスクを階層構造にして格納した対話
タスク階層データベースを備えている。
【0014】
【発明の実施の形態】[第1の実施の形態] [構成]図1は、第1の実施の形態における装置構成図
である。以下の説明において、本発明における用語とし
て、複数の呼び出し関係にある一連の対話シーケンスを
ひとまとめにしたものを、「対話タスク」と呼ぶ。ま
た、他の対話シーケンスから呼び出される対話シーケン
スを「サブ対話シーケンス」と呼ぶことにする。
【0015】101は、ユーザの入力音声を認識し文字
列に変換する音声認識部、102は、音声認識に用いる
情報を格納する音声認識用情報データベース、103
は、認識文字列を解析して意味表現に変換する入力文解
析部、104は、入力文解析に用いる情報を格納する入
力文解析用情報データベース、105は、対話状態の流
れを制御し、ユーザとの対話、及び、アプリケーション
・インターフェース部を介して、アプリケーションへの
アクセスを行う対話制御部、106は、対話タスクを階
層構造にして格納した、対話タスク階層データベースで
ある。
【0016】図2は、対話タスク階層データベースの構
成例である。図2では、データベースにおいて、上位の
対話タスクは1つになっているが、上位として複数の対
話シーケンスを存在することも許可される。
【0017】図3は、対話タスクの構成である。対話タ
スクには、一連の対話シーケンスと、上位の対話シーケ
ンスを修正した対話シーケンスが含まれる。例えば、図
2の「中華料理屋検索対話タスク」に、「アプリケーシ
ョン操作対話タスク」の初期状態の対話手続きの修正版
を加えることにより、対話開始時に、「中華料理屋検
索」であることをユーザに音声出力すること等ができ
る。
【0018】データベースにおいては、下位の対話タス
クは、上位の対話タスクで必要となる、すべてのサブ対
話シーケンスを含むように作成する。複数の下位対話タ
スクがある場合でも、下位のそれぞれの対話タスクに、
上位の対話タスクのサブ対話タスクがすべて含まれてい
る必要がある。
【0019】図4は、図2の対話タスク階層データベー
スから取り出した対話タスクの上位下位連鎖の例であ
る。
【0020】図1の107は、対話タスク階層データベ
ースから取り出した、対話タスク連鎖に含まれる対話シ
ーケンスを格納する対話シーケンス格納部である。対話
タスク階層データベースのデータは、まず、図4のよう
な対話タスク連鎖を取り出し、次に、図3に示した、
「上位の対話タスクの対話シーケンスの修正部分」を反
映させたうえで、対話シーケンス格納部に格納する。
【0021】図5は、対話シーケンスの構成である。対
話状態名は、対話タスク階層全体で一意になるように定
めることとする。また、遷移先の対話状態は必ず存在
し、適当なイベント列を与えることにより、どの対話状
態からも必ず終了状態へ遷移することができるものとす
る。1つの対話状態には、少なくとも1つの対話手続き
が対応する。対話手続きは、プログラミング言語等で記
述されるが、以下の説明では、便宜上、日本語で記述す
る。
【0022】図6は、対話シーケンスの例である。
【0023】図1の108は、ユーザへの出力のための
中間言語を生成する出力文生成部、109は、出力文生
成に用いる文生成用情報データベース、110は、中間
言語を音声に変換する音声合成部、111は、対話制御
部から渡される意味表現を用いてアプリケーション11
2にアクセスするためのアプリケーション・インターフ
ェース部である。
【0024】[動作]まず、装置の起動時に対話制御部
105は、対話タスク階層データベース106から対話
タスクの上位下位連鎖を取り出し、それを実行可能な対
話シーケンスに変換して、対話シーケンス格納部107
に格納する。システム起動時に、どの対話シーケンス連
鎖を取り出すかは、予め指定しておく。図7は、対話シ
ーケンスの格納の例である。左側が格納前、右側が格納
後の対話シーケンスである。太文字で強調表記した部分
が下位の対話シーケンスに対応し、通常表記の部分が上
位の対話シーケンスに対応する。格納前の対話シーケン
ス「飲食店検索対話タスク」の上位タスクの修正部分に
「情報検索用対話シーケンス」がある。このため、上位
の「情報検索用対話シーケンス」の対話状態STATU
S_101の対話手続きPROC_101が、下位のP
ROC_103に置き換えられる。
【0025】図8は、対話制御部の処理フローである。
対話状態は、最初は初期状態に設定される。以下、対話
状態に付与されている対話手続きを実行し、ユーザ及び
アプリケーションとの対話を行いながら、対話状態を遷
移させていく。対話手続きを1つ実行する毎にユーザか
らの入力、アプリケーションからの応答、各種条件等の
イベントをチェックする。ユーザへの出力は、対話手続
きの中のアクションとして実行する。対話手続き中で、
サブ対話シーケンスが起動された場合は、制御がサブ対
話シーケンスに移り、サブ対話シーケンスについて、図
8のフローが実行される。
【0026】ユーザからの入力を取り込む際は、まず、
音声認識部101が、ユーザの発話を認識し、文字列に
変換する。次に文解析部103が、音声認識部が出力し
た文字列を解析し、対話制御部が用いる意味形式に変換
し、対話制御部に渡す。対話手続き処理中に、ユーザへ
の出力が必要となった場合には、出力文生成部108へ
意味表現を送り、中間言語に変換する。次に、音声生成
部110は、中間言語を音声に変換して、ユーザに出力
する。対話手続き中で、アプリケーションへのアクセス
が必要となった場合には、図1のアプリケーション・イ
ンターフェース部111を介して行う。この場合も意味
表現を用い、アプリンケーション・インタフェース部が
アプリケーションのコマンド入力及び処理結果の出力
と、意味表現との変換を行う。
【0027】以上説明したように、第1の実施の形態に
よれば、下記のような効果が期待できる。 ・対話シーケンスを対話タスクにまとめ、さらに、階層
構造にすることにより、異なる分野・アプリケーション
用の対話シーケンスを、部分的な修正で容易に作成する
ことができる。 ・対話シーケンスを修正した場合、関連する修正も同一
の対話タスクに記述し、修正が上位の対話タスクに及ば
ないため、対話タスクのモジュール性が向上し、各対話
シーケンスの汎用性が高まる。 ・対話シーケンスを対話タスクにまとめ、さらに、階層
構造にすることにより、対話シーケンスの共通部分を共
用することができ、異なる分野・アプリケーション用の
対話シーケンスを同時に格納する場合、格納容量を小さ
くすることができる。
【0028】[第2の実施の形態] [構成]図9は、第2の実施の形態における装置構成図
である。対話タスク連鎖部206が追加されている点
が、第1の実施の形態の構成と異なる。この対話タスク
連鎖部206は、対話タスク階層データベース207か
ら、第1の実施の形態における図4のような対話タスク
の上位下位連鎖を対話の実行中に取り出し、部分的な置
き換えを行う。
【0029】[動作]図9の対話タスク連鎖部206の
動作のみが第1の実施の形態と異なる。まず、第1の実
施の形態と同じく、起動時に対話制御部205が、対話
タスク階層データベース207から対話タスク連鎖を取
り出し、それを実行可能な対話シーケンスに変換して、
対話シーケンス格納部208に格納する。システム起動
時に、どの対話シーケンス連鎖を取り出すかは、予め指
定しておく。第1の実施の形態と異なるのは、対話の実
行中に、対話タスク階層から、別の対話タスク連鎖を取
り出して、対話シーケンス格納部の対話シーケンスの一
部分を書き換えられることである。
【0030】図10は、対話タスク連鎖の書き換えの例
である。また、同じく、対話シーケンス格納部に別の対
話タスク連鎖を格納し直す処理を記述することにより、
対話の実行途中で、対話シーケンスを書き換えることが
できる。書き換えは、対話手続きのアクションとして、
記述する。ただし、現在実行中の対話シーケンス、呼び
出し元の対話シーケンス部分の変更を生じさせるよう
な、対話シーケンスの変更は許さないものとする。
【0031】図11は、対話シーケンス書き換えを起こ
すための、対話シーケンスの記述例である。アプリケー
ション操作の対話シーケンスから、情報検索の対話シー
ケンスへ制御が移った時点で、初期状態の最初にあるア
クションが実行され、対話制御部が「何を検索します
か」という文の意味表現を出力文生成部209へ送る。
この後、第1の実施の形態と同じ処理を経て、ユーザに
音声出力される。
【0032】ユーザが「フランス料理」等と音声入力す
ると、第1の実施の形態と同じ処理を経て、「フランス
料理屋」の意味表現が、入力文解析部203から、対話
制御部205へ送られる。「フランス」という入力を
「フランス料理屋」のように対話シーケンスに記述され
ている表現に正規化する処理は、入力文解析部203が
行う。図11では、図10のように、対話シーケンス書
き換えのアクションで指定されている対話シーケンスを
書き換えてから処理を続行する。図11では、下位の対
話シーケンスの中華料理屋検索対話シーケンスを、フラ
ンス料理屋検索対話シーケンスに書き換えてから、実行
を続ける。書き換えに際して、下位の対話タスクに、実
行中の対話シーケンスの修正部分が含まれている場合に
は、実行中の対話シーケンスを書き換えてしまうため、
このような対話タスクを用いた置き換えは記述できない
ものとする。
【0033】以上説明したように、第2の実施の形態に
よれば、分野・アプリケーション毎にカスタマイズされ
た対話シーケンスを、システムを起動し直すことなく、
書き換えて利用することができる。
【0034】[第3の実施の形態] [構成]図12は、第3の実施の形態に於ける装置構成
図である。構成要素307、308、309、310
が、第1の実施の形態と異なる。第3の実施の形態で
は、ユーザが対話シーケンスを登録することができる。
入力文解析部303から対話制御部305へは、意味表
現以外に、音声認識部が認識した文字列も渡される。ま
た、キーワードを登録することにより、対話制御部30
5が、音声認識文字列をそのままイベントとして用いる
ことができる。ブックマークは、対話状態に対してユー
ザがつける名前で、ユーザが対話シーケンス登録に際し
て、遷移先対話状態を指定するために用いる。
【0035】307は、キーワード及びブックマークを
登録するために用いる対話シーケンスを格納するキーワ
ード・ブックマーク登録用対話シーケンス格納部、30
8は、ユーザが指定したキーワード及びブックマークを
格納するキーワード・ブックマーク格納部、309は、
ユーザ対話シーケンスを登録する為に用いる対話シーケ
ンスを格納するユーザ対話シーケンス登録用対話シーケ
ンス格納部、310は、ユーザ対話シーケンスを格納す
るユーザ対話シーケンス格納部である。
【0036】図13は、第3の実施の形態で用いられる
ユーザ登録対話シーケンスの構成である。イベントとし
て、キーワードを用いることができる点が第1の実施形
態の対話シーケンスと異なっている。
【0037】[動作]第1の実施の形態と異なる動作に
ついて説明する。まず、ユーザ対話シーケンスの登録の
動作について説明する。図14は、ユーザ対話シーケン
ス登録の例(1)である。ユーザは、対話手続きを追加
したい対話状態に移動する。移動した場合に、他の状態
への遷移が起きてしまう場合については、次に、予め指
定された入力により、ユーザ対話シーケンス登録用対話
シーケンス格納部309に格納された対話シーケンスを
起動する。ユーザは、イベント、アクション、次に遷移
する対話状態を指定する。イベントは、その状態で用い
られているイベントをシステムに読み上げさせ、その中
から選ぶ。それ以外に、「イベントなし(無条件)」及び
キーワード(設定方法は後述)を用いることができる。
【0038】アクションは、その状態で可能なアクショ
ンをシステムに読み上げさせ、その中から選ぶ。それ以
外に、「アクションなし(何もしない)」を選択できる。
【0039】次の遷移状態は、ユーザが登録したブック
マーク(設定方法は後述)を用いて指定する。ユーザ対
話シーケンスは、ユーザ対話シーケンス格納部310に
保存される。図15は、図14で登録された、ユーザ対
話シーケンスである。
【0040】キーワード及びブックマークについては、
以下の方法により登録する。 (1)キーワード及びブックマークは、対話状態に対応
づけて登録するため、まず対応づける対話状態へ移動す
る。 (2)キーワード・ブックマーク登録対話用シーケンス
格納部307に格納された対話シーケンスを起動する。
ユーザは、指定された方法でキーワード及びブックマー
クの登録を行う(図16、図17)。「終了状態」では、
その状態に遷移すると、対話システム自体が終了してし
まい、ブックマークをつけられないため、システムがブ
ックマークを用意して指定できるようにする。それ以外
にも、ブックマークをつけられない対話状態について
は、システムがブックマークを用意する。キーワード。
ブックマークの解除・一覧の参照についても同様の手続
きで処理する。終了状態のように、ユーザが実際にその
状態でブックマークをつけることができない状態につい
ては、予約語として使用可能とする。後述するユーザ対
話シーケンスの登録により、同様になった対話状態につ
いてはブックマークの解除を禁止する。
【0041】ユーザ対話シーケンスのイベントには、登
録したキーワードを用いることができる。図18は、キ
ーワードを用いたユーザ対話シーケンスの登録の例
(2)である。また、図19は、図18で登録した対話
シーケンスである。何らかのアクションが起きることに
より、ユーザがとどまることの出来ない対話状態につい
ては、他の対話状態から状態名を指定して登録できるよ
うな対話シーケンスがユーザ対話シーケンス登録対話に
記述されているものとする。ユーザ対話シーケンスの削
除の一覧の参照についても、同様の手続で処理する。
【0042】ユーザ対話シーケンスを用いた音声対話の
動作について説明する。入力文解析部303から対話制
御部305に送られる意味表現には、音声認識部が認識
した文字列が付加されている。対話制御部は、意味表現
に付与されている文字列が現在の対話状態に対応づけら
れているキーワードかどうかを調べるために、キーワー
ド・ブックマーク格納部を検索する。登録されている場
合には、キーワードをイベントとして扱う。登録されて
いない場合には、意味表現をイベントとして扱う。
【0043】対話シーケンスの適用方法については、ま
ず、ユーザ対話シーケンス格納部310の対話シーケン
スを適用する。適用できる対話手続きが見つからなかっ
た場合には、対話シーケンス格納部311の対話シーケ
ンスを適用する。
【0044】その他の動作は、第1の実施の形態と同じ
動作をする。図20は、図15のユーザ対話シーケンス
を用いた対話、図21は、図19のユーザ対話シーケン
スを用いた対話である。
【0045】以上説明したように、第3の実施の形態に
よれば、以下の効果が期待できる。 ・ユーザ登録した対話シーケンスを使用することによ
り、ユーザが対話の流れをカスタマイズすることがで
き、対話の効率を向上させることができる。 ・キーワードを用いた対話を行うことにより、迅速な対
話を行うことができる。
【0046】
【発明の効果】以上詳細に説明したように、請求項1に
係る発明によれば、ユーザの発生した入力音声を認識し
て文字列に変換する音声認識手段と、前記文字列を解析
して意味表現に変換する入力文解析手段と、対話状態の
流れを制御すると共にアプリケーションへのアクセスを
行う対話制御手段と、ユーザへの出力のための中間言語
を生成する出力文生成手段と、前記中間言語を音声に変
換して出力する音声合成手段と、前記対話制御部から出
力される意味表現を用いてアプリケーションにアクセス
するためのアプリケーション・インターフェース手段と
を備えた音声対話インターフェース装置において、前記
対話制御手段は、複数の関連する一連の対話シーケンス
を対話タスクとしてまとめ、該対話タスクを階層構造に
して格納した対話タスク階層データベースを備えた構成
としたことにより、異なる分野・アプリケーション用の
対話シーケンスを、部分的な修正で容易に作成すること
ができると共に、異なる分野・アプリケーション用の対
話シーケンスを同時に格納する場合、格納容量を小さく
することができる。
【0047】請求項2に係る発明によれば、前記対話タ
スクを修正する際に、階層構造における下位の対話タス
クは、上位の対話タスクで必要となる全てのサブ対話シ
ーケンスを含むように作成される構成としたので、対話
シーケンスを修正した場合、関連する修正も同一の対話
タスクに記述し、修正が他の対話タスクに及ばないた
め、対話タスクのモジュール性が向上し、各対話シーケ
ンスの汎用性が高まる。
【0048】請求項3に係る発明によれば、請求項1に
記載の音声対話インターフェース装置において、更に、
対話タスク連鎖手段を設け、該対話タスク連鎖手段は、
前記対話タスクの上位下位連鎖を対話の実行中に抽出
し、動的に対話シーケンスを切り替えることを可能とし
たことにより、分野・アプリケーション毎にカスタマイ
ズされた対話シーケンスを、システムを再起動すること
なく、書き換えて利用することができる。
【0049】請求項4に係る発明によれば、請求項1に
記載の音声対話インターフェース装置において、前記対
話制御手段は、更に、キーワード・ブックマーク登録用
対話シーケンス格納部、キーワード・ブックマーク格納
部、ユーザ対話シーケンス登録用対話シーケンス格納
部、ユーザ対話シーケンス格納部を備え、ユーザによる
対話シーケンスの登録機能を追加してユーザによる対話
の流れを変更可能としたので、対話効率を向上させるこ
とができる。
【0050】請求項5に係る発明によれば、請求項4に
記載の音声対話インターフェース装置において、前記対
話制御手段は、入力文解析手段から認識文字列を含む意
味表現を受け取り、前記認識文字列に、現在の対話状態
に対応づけられているキーワードが含まれているか否か
を判定し、含まれている場合には、キーワードを用いた
対話シーケンスを追加するようにしたので、キーワード
を用いた対話を行うことにより、迅速な対話を行うこと
ができる。
【図面の簡単な説明】
【図1】第1の実施の形態に於ける装置構成図である。
【図2】対話タスク階層データベースの構成例である。
【図3】対話タスクの構成を示す図である。
【図4】データベースから取り出した対話タスクの上位
下位連鎖の例である。
【図5】対話シーケンスの構成を示す図である。
【図6】対話シーケンスの例である。
【図7】対話シーケンス格納部への格納の例
【図8】対話制御部の処理フローである。
【図9】第2の実施の形態における装置構成図である。
【図10】対話タスク連鎖の書き換えの例である。
【図11】対話シーケンスの例である。
【図12】第3の実施の形態における装置構成図であ
る。
【図13】ユーザ登録用対話シーケンスの構成を示す図
である。
【図14】ユーザ対話シーケンス登録対話の例(1)で
ある。
【図15】「図14」で登録された対話シーケンスであ
る。
【図16】キーワード登録対話の例である。
【図17】ブックマーク登録対話の例である。
【図18】ユーザ対話シーケンス登録対話の例(2)
【図19】「図18」で登録された対話シーケンスであ
る。
【図20】「図15」のユーザ対話シーケンスを用いた
対話である。
【図21】「図19」のユーザ対話シーケンスを用いた
対話である。
【図22】従来の音声対話によるアプリケーション操作
の例である。
【図23】従来の対話シーケンスの例である。
【符号の説明】
101,201,301 音声認識部 102,202,302 音声認識用データベース 103,203,303 入力文解析部 104,204,304 入力文解析用情報データベ
ース 105,205,305 対話制御部 106,207,306 対話タスク階層データベー
ス 107,208,311 対話シーケンス格納部 108、209,312 出力文生成部 109,210,313 出力文生成用情報データベ
ース 110,211,314 音声生成部 111,212,315 アプリケーション・インタ
ーフェース部 206 対話タスク連鎖部 307 キーワード・ブックマーク登録
用対話シーケンス格納部 308 キーワード・ブックマーク格納
部 309 ユーザ対話シーケンス登録用対
話シーケンス格納部 310 ユーザ対話シーケンス格
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 3/00 521W (56)参考文献 特開 平4−122998(JP,A) 特開 平4−307664(JP,A) 特開 平6−208389(JP,A) 特開 平8−77274(JP,A) 特開 平9−50290(JP,A) 特開 平11−149297(JP,A) 特開2000−231398(JP,A) 特開2000−181485(JP,A) 特開2000−242640(JP,A) 特開2001−100787(JP,A) 特開2001−125592(JP,A) 特開2002−123284(JP,A) 特表2000−507021(JP,A) 岩田 他,ゼロからわかるオブジェク ト指向の世界,日本,日刊工業新聞社, 1996年 4月15日,p.63−67 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/18 G10L 15/22 G10L 15/28 G06F 17/30 310 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 ユーザの発生した入力音声を認識して
    文字列に変換する音声認識手段と、前記文字列を解析し
    て意味表現に変換する入力文解析手段と、対話状態の流
    れを制御すると共にアプリケーションへのアクセスを行
    う対話制御手段と、ユーザへの出力のための中間言語を
    生成する出力文生成手段と、前記中間言語を音声に変換
    して出力する音声合成手段と、前記対話制御手段から出
    力される意味表現を用いてアプリケーションにアクセス
    するためのアプリケーション・インターフェース手段と
    を備えた音声対話インターフェース装置において、 前記対話制御手段は、呼び出し関係にある一連の対話シ
    ーケンスを関連性によって複数の対話タスクとしてまと
    め、該対話タスクを階層構造にし、下位の対話タスクは
    上位の対話タスク中の修正すべき対話シーケンスの記述
    を準備し、該修正すべき対話シーケンスの記述に基づい
    て修正対象の上位の対話タスク中の対象シーケンスを修
    正して格納した対話タスク階層データベースを備えたこ
    とを特徴とする音声対話インターフェース装置。
  2. 【請求項2】 前記対話タスク階層データベースに格納
    する下位の対話タスクは、前記上位の対話タスクの修正
    すべき対話シーケンスの他に、上位の対話タスクで必要
    となる全てのサブ対話シーケンスを含むように作成され
    ることを特徴とする請求項1記載の音声対話インターフ
    ェース装置。
  3. 【請求項3】 前記音声対話インターフェース装置に対
    話タスク連鎖手段を設け、該対話タスク連鎖手段は、前
    記対話タスクの上位下位連鎖を対話の実行中に抽出し、
    動的に対話シーケンスを切り替えることを可能としたこ
    とを特徴とする請求項1記載の音声対話インターフェー
    ス装置。
  4. 【請求項4】 前記対話制御手段は、ユーザによる対話
    シーケンスの登録動作に用いられる対話シーケンスを格
    納するユーザ対話シーケンス登録用対話シーケンス格納
    部と、該ユーザ対話シーケンス登録用対話シーケンス格
    納部に格納された対話シーケンスを起動して、ユーザに
    より登録された対話シーケンスを格納するユーザ対話シ
    ーケンス格納部と、該ユーザ対話シーケンス格納部に格
    納された対話シーケンスのイベントに文字列によって識
    別可能なキーワードあるいは遷移状態にブックマークを
    指定する処理を実行するための対話シーケンスを格納す
    キーワード・ブックマーク登録用対話シーケンス格納
    部と、該キーワード・ブックマーク登録用対話シーケン
    ス格納部に格納された対話シーケンスを起動して、ユー
    ザにより指定されたキーワードやブックマークを格納す
    るキーワード・ブックマーク格納部とを備えることによ
    り、ユーザによる対話シーケンスの登録機能を追加して
    ユーザによる対話の流れを変更可能としたことを特徴と
    する請求項1記載の音声対話インターフェース装置。
  5. 【請求項5】 前記対話制御手段は、入力文解析手段
    認識された文字列を含む意味表現を受け取り、該文字列
    に前記キーワード・ブックマーク格納部に格納された
    ーワードが含まれているか否かを判定し、含まれている
    場合には、キーワードを用いた対話シーケンスを適用す
    ことを特徴とする請求項4記載の音声対話インターフ
    ェース装置。
JP2001183420A 2001-06-18 2001-06-18 音声対話インターフェース装置 Expired - Fee Related JP3423296B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001183420A JP3423296B2 (ja) 2001-06-18 2001-06-18 音声対話インターフェース装置
US10/000,445 US7080003B2 (en) 2001-06-18 2001-12-04 Speech interactive interface unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001183420A JP3423296B2 (ja) 2001-06-18 2001-06-18 音声対話インターフェース装置

Publications (2)

Publication Number Publication Date
JP2003005786A JP2003005786A (ja) 2003-01-08
JP3423296B2 true JP3423296B2 (ja) 2003-07-07

Family

ID=19023372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001183420A Expired - Fee Related JP3423296B2 (ja) 2001-06-18 2001-06-18 音声対話インターフェース装置

Country Status (2)

Country Link
US (1) US7080003B2 (ja)
JP (1) JP3423296B2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359860B1 (en) 2003-02-27 2008-04-15 Lumen Vox, Llc Call flow object model in a speech recognition system
WO2005015546A1 (en) * 2003-08-12 2005-02-17 Philips Intellectual Property & Standards Gmbh Speech input interface for dialog systems
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
JP2006099424A (ja) * 2004-09-29 2006-04-13 Hitachi Ltd 音声情報サービスシステム及び音声情報サービス端末
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
JP4634889B2 (ja) * 2005-08-15 2011-02-16 日本電信電話株式会社 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
JP2007225682A (ja) * 2006-02-21 2007-09-06 Murata Mach Ltd 音声対話装置と対話方法及び対話プログラム
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
KR20110072847A (ko) * 2009-12-23 2011-06-29 삼성전자주식회사 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법
JP6115941B2 (ja) * 2013-03-28 2017-04-19 Kddi株式会社 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US10430557B2 (en) 2014-11-17 2019-10-01 Elwha Llc Monitoring treatment compliance using patient activity patterns
US20160135736A1 (en) * 2014-11-17 2016-05-19 Elwha LLC, a limited liability comany of the State of Delaware Monitoring treatment compliance using speech patterns captured during use of a communication system
US20160135738A1 (en) * 2014-11-17 2016-05-19 Elwha Llc Monitoring treatment compliance using passively captured task performance patterns
US9585616B2 (en) 2014-11-17 2017-03-07 Elwha Llc Determining treatment compliance using speech patterns passively captured from a patient environment
US20160135737A1 (en) * 2014-11-17 2016-05-19 Elwha Llc Determining treatment compliance using speech patterns captured during use of a communication system
US9589107B2 (en) 2014-11-17 2017-03-07 Elwha Llc Monitoring treatment compliance using speech patterns passively captured from a patient environment
US20160135739A1 (en) * 2014-11-17 2016-05-19 Elwha LLC, a limited liability company of the State of Delaware Determining treatment compliance using combined performance indicators
US20160140317A1 (en) * 2014-11-17 2016-05-19 Elwha Llc Determining treatment compliance using passively captured activity performance patterns
US20160140986A1 (en) * 2014-11-17 2016-05-19 Elwha Llc Monitoring treatment compliance using combined performance indicators
CN106023991B (zh) * 2016-05-23 2019-12-03 丽水学院 一种面向多任务交互的手持式语音交互装置及交互方法
US10474439B2 (en) 2016-06-16 2019-11-12 Microsoft Technology Licensing, Llc Systems and methods for building conversational understanding systems
KR102365649B1 (ko) * 2017-06-28 2022-02-22 삼성전자주식회사 화면 제어 방법 및 이를 지원하는 전자 장치

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3024187B2 (ja) * 1990-09-13 2000-03-21 日本電気株式会社 音声理解方式
JPH04307664A (ja) * 1991-04-05 1992-10-29 Nec Corp 音声理解方式
JP3278222B2 (ja) * 1993-01-13 2002-04-30 キヤノン株式会社 情報処理方法及び装置
JP3373003B2 (ja) 1993-09-22 2003-02-04 富士通株式会社 情報検索装置
JPH0877274A (ja) * 1994-09-08 1996-03-22 Matsushita Electric Ind Co Ltd 対話制御装置
JPH0950290A (ja) * 1995-08-07 1997-02-18 Kokusai Denshin Denwa Co Ltd <Kdd> 音声認識装置および該装置を用いた通信装置
EP0922279A3 (en) * 1997-01-09 1999-09-01 Koninklijke Philips Electronics N.V. Method and apparatus for executing a human-machine dialogue in the form of two-sided speech as based on a modular dialogue structure
EP0895396A3 (en) * 1997-07-03 2004-01-14 Texas Instruments Incorporated Spoken dialogue system for information access
US6094635A (en) * 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
JP2000181485A (ja) * 1998-12-14 2000-06-30 Toyota Motor Corp 音声認識装置及び方法
FR2788615B1 (fr) * 1999-01-18 2001-02-16 Thomson Multimedia Sa Appareil comportant une interface utilisateur vocale ou manuelle et procede d'aide a l'apprentissage des commandes vocales d'un tel appareil
JP3017492B1 (ja) * 1999-02-23 2000-03-06 株式会社エイ・ティ・アール音声翻訳通信研究所 対話システム
JP3530109B2 (ja) * 1999-05-31 2004-05-24 日本電信電話株式会社 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
JP2001100787A (ja) * 1999-09-29 2001-04-13 Mitsubishi Electric Corp 音声対話システム
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager
US6560576B1 (en) * 2000-04-25 2003-05-06 Nuance Communications Method and apparatus for providing active help to a user of a voice-enabled application
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岩田 他,ゼロからわかるオブジェクト指向の世界,日本,日刊工業新聞社,1996年 4月15日,p.63−67

Also Published As

Publication number Publication date
JP2003005786A (ja) 2003-01-08
US20020193990A1 (en) 2002-12-19
US7080003B2 (en) 2006-07-18

Similar Documents

Publication Publication Date Title
JP3423296B2 (ja) 音声対話インターフェース装置
US7546382B2 (en) Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
KR100431972B1 (ko) 통상의 계층 오브젝트를 사용한 효과적인 음성네비게이션용 뼈대 구조 시스템
US8725517B2 (en) System and dialog manager developed using modular spoken-dialog components
US7024348B1 (en) Dialogue flow interpreter development tool
US5819220A (en) Web triggered word set boosting for speech interfaces to the world wide web
US9083798B2 (en) Enabling voice selection of user preferences
US7412393B1 (en) Method for developing a dialog manager using modular spoken-dialog components
US6513009B1 (en) Scalable low resource dialog manager
US7430510B1 (en) System and method of using modular spoken-dialog components
US20120209613A1 (en) Method and arrangement for managing grammar options in a graphical callflow builder
KR20000028832A (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신판독가능 매체 및 대화형 음성 응답 시스템
JP2003216574A (ja) ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
US20050171780A1 (en) Speech-related object model and interface in managed code system
CA2427512C (en) Dialogue flow interpreter development tool
JP5363589B2 (ja) データ・メタモデルから音声ユーザ・インタフェース・コードを生成するための方法およびシステム
JPH07219590A (ja) 音声情報検索装置及び方法
US20060136195A1 (en) Text grouping for disambiguation in a speech application
US7937687B2 (en) Generating voice extensible markup language (VXML) documents
Turunen et al. Agent-based adaptive interaction and dialogue management architecture for speech applications
Mohri Weighted grammar tools: the GRM library
JP3187317B2 (ja) 対話処理プログラム生成装置
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees