JP2004151562A - 音声対話制御方法および音声対話制御装置 - Google Patents

音声対話制御方法および音声対話制御装置 Download PDF

Info

Publication number
JP2004151562A
JP2004151562A JP2002318636A JP2002318636A JP2004151562A JP 2004151562 A JP2004151562 A JP 2004151562A JP 2002318636 A JP2002318636 A JP 2002318636A JP 2002318636 A JP2002318636 A JP 2002318636A JP 2004151562 A JP2004151562 A JP 2004151562A
Authority
JP
Japan
Prior art keywords
guidance
recognition target
vocabulary
output
target vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002318636A
Other languages
English (en)
Other versions
JP4304959B2 (ja
JP2004151562A5 (ja
Inventor
Masanobu Nishitani
正信 西谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2002318636A priority Critical patent/JP4304959B2/ja
Publication of JP2004151562A publication Critical patent/JP2004151562A/ja
Publication of JP2004151562A5 publication Critical patent/JP2004151562A5/ja
Application granted granted Critical
Publication of JP4304959B2 publication Critical patent/JP4304959B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】対話形式で音声コマンドを入力する際、効率よくしかも対話の自然性を配慮した音声コマンド入力を可能とし、高いに認識率を得るようにする。
【解決手段】ユーザからの音声コマンドの入力タイミングに応じて、ガイダンスごとに設定された認識対象語彙(たとえばガイダンスに含まれる語彙)を制御する。一例として、音声コマンド入力前の段階においては、認識対象語彙W1〜W4である「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」をすべて有効認識対象語彙として設定し、たとえば、時刻Tuでユーザから「インデックスでお願い」という音声コマンドが入力されると、その音声コマンドの入力タイミングにおいて出力の終了または出力途中のガイダンスに対する認識対象語彙(この例では、「インデックス」、「1コマ印刷」、「全コマ印刷」)を有効認識対象語彙とし、これらの有効認識対象語彙を用いて音声コマンドを認識処理する。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザからの音声コマンドを対話形式で入力して認識し、その認識結果に応じた動作を実行するシステムに用いられる音声対話制御方法および音声対話制御装置に関する。
【0002】
【従来の技術】
ユーザからの音声コマンドを対話形式で入力して認識し、その認識結果に応じた動作を実行するシステムが広い分野で使用されている。特に、表示画面を大きく取れない機器(たとえば、ディジタルカメラや、プリンタなど)においては、機能設定などの指示を行うためのメニューの表示や操作手順のガイダンスをその表示画面上で行う際、表示画面が小さいことから表示できる情報量に大きな制約があるとともに、表示された文字なども小さくなりがちで確認しにくいといった問題がある。
【0003】
このため、この種の機器にあっては、音声対話形式で各種コマンド設定を行うことのできる音声対話インタフェースが有効となる。また、表示画面の大きさの制約だけではなく、たとえば、カーナビゲーションなどにおいては、運転中に運転者自らが様々な設定を行わざるを得ない場合もあるが、運転中においては画面を注視できないので、この種の機器においても、音声対話インタフェースは非常に有効である。
【0004】
このような機器に用いられている音声対話インタフェースの一般的な音声コマンド入力方法としては、機器(システム)側からユーザに対して質問し、これにユーザが答えるという方法を順次繰り返しながら、階層的にコマンド入力を行うのが一般的である。
【0005】
また、この種の音声対話インタフェースの多くは、ある質問に対してユーザ側が指示を行う場合、システム側からの質問の終了を待ってから、その質問に対してユーザが答えるのが普通であり、システム側からの質問の出力途中でユーザが音声で割り込むというような自然な対話ができないのが一般的である
このように、システム側からの質問の終了を待ってから、その質問に対してユーザが答えるようなシステムにおいては、システム側から多数の選択候補が出力され、その中からある1つを選択するような場合は、システム側からの質問内容がすべて終了するまで待たなければならないため、そのシステムの使い方に慣れているユーザにとっては、苛立ちを感じることも多い。
【0006】
たとえば、電話による自動応答サービスなどの場合、システム側からの案内が、「・・・の場合は1、・・・の場合は2、・・・の場合は3、・・・と発話してください」というように、ユーザの選択すべき項目が多数存在する場合は、ユーザはその案内をすべて聞いてからでないと、次の階層に移ることができないこともある。
【0007】
このような不具合を解決するための技術の一例として、たとえば、特開平6−110835(以下、従来技術という)がある。この従来技術には、システム側からの音声を遮ってユーザが発話することを可能とし、対話の自然性の向上を実現することが記述されている。
【0008】
【特許文献1】
特開平6−110835号公報
【0009】
【発明が解決しようとする課題】
しかしながら、この従来技術では、システム側の音声をさえぎる方法として、ユーザが「もうわかりました」、「すみません」、「もう結構です」というような出力停止を意図した予め決められたフレーズを発話しなければならない。
【0010】
また、この従来技術は、上述の電話応答サービスのような複数の選択候補が出力されるような場合に対するユーザ側の応答のし易さや、ユーザ側からの音声に対する認識性能の向上に関する取り組みについては述べられていない。したがって、この従来技術では、前述したようなディジタルカメラや、プリンタ、カーナビゲーションなどの機器においては、機能設定など様々な指示を音声で行う際に生じる種々の問題点を解決することはできないと考えられる。
【0011】
そこで本発明は、ユーザからの音声コマンドに対する認識性能の向上を実現するともに、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能とすることで効率的な音声対話による音声コマンド入力を可能とすることを目的としている。
【0012】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音声対話制御方法は、個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御方法であって、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うようにしている。
【0013】
このような音声対話制御方法において、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記音声コマンド入力前の段階においては、前記すべての認識対象語彙が有効認識対象語彙として設定されており、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙としている。
【0014】
また、この音声対話制御方法において、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記それぞれのガイダンスが出力されるごとにそのガイダンスごとに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うようにしてもよい。
【0015】
また、この音声対話制御方法において、前記ユーザからの音声コマンド入力のタイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定するようにしてもよい。
【0016】
この場合、あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答としている。
【0017】
そして、前記ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果としている。
【0018】
また、この音声対話制御方法において、それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙とすることが好ましい。
【0019】
また、本発明の音声対話制御装置は、個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御装置において、音声入力手段に入力された音声コマンドの入力タイミングを監視する音声入力監視手段と、個々のガイダンスに対応したガイダンス情報とその個々のガイダンスに設定された認識対象語彙に対応した認識対象語彙情報を持ち、ユーザとの対話の進行に応じたガイダンス情報と認識語彙情報を出力する対話制御手段と、この対話制御手段からの認識語彙情報を受け取り、前記音声入力監視部で監視されたユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する認識対象語彙制御手段と、この認識対象語彙制御手段で設定された有効認識対象語彙を用いてユーザの音声コマンドに対する認識結果を出力する音声認識手段と、前記対話制御部からのガイダンス情報を受け取って音声合成に必要なガイダンス内容を生成するガイダンス内容生成手段と、このガイダンス内容生成部からのガイダンス内容を音声合成処理して出力する音声出力手段とを有した構成としている。
【0020】
このような音声対話制御装置において、前記認識対象語彙制御手段は、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記音声コマンド入力前の段階においては、前記すべての認識対象語彙が有効認識対象語彙として設定されており、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙としている。
【0021】
また、この音声対話制御装置において、前記認識対象語彙制御手段は、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記それぞれのガイダンスが出力されるごとにそのガイダンスごとに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うようにしてもよい。
【0022】
また、この音声対話制御装置において、前記認識対象語彙制御手段は、前記ユーザからの音声コマンド入力のタイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定するようにしてもよい。
【0023】
この場合、あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答としている。
【0024】
そして、前記ガダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果としている。
【0025】
また、この音声対話制御装置において、それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙とすることが好ましい。
【0026】
以上のように本発明は、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うようにしているので、認識候補としての認識対象語彙をユーザの音声コマンド入力時点での認識に必要な語彙だけに絞り込むことができる。これによって、場合によっては、認識候補が大幅に削減されることになり、高い認識性能を得ることができるとともに、認識処理に要する時間を短縮することもできる。さらに、本発明では、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能としているので、システム側からのガイダンスを聞き終わるのを待つ必要がなくなり、効率的な音声コマンド入力が可能となり、対話の自然性も得られる。
【0027】
また、前記ユーザからの音声コマンドの入力された時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理には、幾つかの手法が考えられる。その1つの方法として、前記音声コマンド入力前の段階においては、すべての認識対象語彙を有効認識対象語彙として設定しておき、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とする方法がある。
【0028】
これによれば、ユーザがガイダンスを聞きながら所望とするタイミングで音声コマンドを与えるような場合、音声コマンドの入力時点までのガイダンスに設定された認識対象語彙だけを有効認識対象語彙とするので、認識を行うに必要な語彙を音声コマンド入力時点での認識に必要な語彙だけに絞り込むことができ、認識率の向上を図ることができるとともに、認識処理の高速化も可能となる。また、初期段階(音声コマンド入力前の段階)では、すべての認識対象語彙が有効認識対象語彙として設定されているので、認識対象語彙の設定されたガイダンスの出力開始前に、ユーザは個々のガイダンスに設定された認識対象語彙のいずれかを指定することが可能であり、そのシステムを使い慣れたユーザにとっては、いちいちガイダンスを聞く必要がなくなり、使い勝手にすぐれたものとなる。
【0029】
また、前記ユーザからの音声コマンドの入力された時点において認識に必要な認識対象語彙を有効認識対象語彙として設定する処理の他の方法としては、前記それぞれのガイダンスが出力されるごとにそのガイダンスに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行う方法がある。
【0030】
これによれば、時系列で出力されるガイダンスがそれぞれ出力されるごとにそのガイダンスに設定された認識対象語彙が増えて行くので、音声コマンド入力時点での有効認識対象語彙をより効率よく絞り込むことができ、認識率や認識処理速度をより一層向上させることができる。
【0031】
また、前記ユーザからの音声コマンドの入力された時点において認識に必要な認識対象語彙を有効認識対象語彙として設定する処理のさらに他の方法として、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する方法が考えられる。
【0032】
これによれば、あるガイダンスが出力され、それに対するユーザの反応(音声コマンドの発話だけでなく無応答も含む)によって有効認識対象語彙を制御するようにしているので、対話の進行に合わせて、それぞれのガイダンスに設定された認識対象語彙を有効認識対象語彙とするか有効認識対象語彙から外すかの決定がなされ、これによって、音声コマンド入力時点での認識に必要な有効認識対象語彙を効率よく絞り込むことができ、認識率の向上や認識処理の高速化を図ることができる。
【0033】
なお、ここでのユーザの反応とは上述したように音声コマンドの発話だけでなく無応答も含むが、ユーザの音声コマンドとしては、ガイダンス内容を肯定する肯定語とガイダンス内容を否定する否定語とすることが考えられる。これによって、ユーザは、ガイダンスが出力されるごとに、たとえば、「はい」や「いいえ」などと発話するだけで、システム側ではユーザの音声コマンド入力時点での認識に必要な有効認識対象語彙を効率よく設定することができる。
【0034】
そして、ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外し、以降に出力すべきガイダンスがあればそのガイダンスを出力し、ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果とするようにしているので、音声コマンド入力時点での有効認識対象語彙を適正かつ効率的に設定することができる。
【0035】
また、前記それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙としている。たとえば、プリンタなどにおける印刷種類の設定であれば、「インデックス印刷ですか」や「1コマ印刷ですか」がガイダンスの内容であり、これらのガイダンスに含まれる「インデックス」や「1コマ印刷」を認識対象語彙とするものであり、これによって、音声対話を円滑に行うことができ、音声コマンドを認識処理して得られる認識結果に基づく動作設定を確実に行うことができる。
【0036】
また、本発明の音声対話制御装置によれば、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能とし、それによって、システム側からのガイダンスを聞き終わってからでないと音声コマンドの入力ができないといった従来の音声対話インタフェースの持つ問題点を解消することができる。しかも、音声認識対象語彙をユーザの音声コマンド入力時点で必要な語彙だけに絞り込むことができるので、認識率や認識処理の向上を図ることもできる。
【0037】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態では、ディジタルカメラなどで撮影した得られた画像情報をパーソナルコンピュータなどを経由させることなく直接印刷処理可能なプリンタに、本発明の音声対話制御方法および音声対話制御装置を適用した例について説明する。
【0038】
図1は本発明の音声対話制御装置の構成を説明する図であり、構成要素のみを列挙すると、音声入力部1、音声入力監視部2、認識対象語彙制御部3、音声認識部4、対話制御部5、ガイダンス内容生成部6、音声出力部7などから構成されている。
【0039】
音声入力部1は、ユーザの発話した音声コマンドを入力して音声信号として音声入力監視部2と音声認識部4に送る。
【0040】
音声入力監視部2は、ガイダンスのどの時点でユーザからの音声コマンド入力があったかを判定し、その判定結果を認識対象語彙制御部3と音声出力部7に渡す。なお、ガイダンスのどの時点で音声コマンドの入力があったかは、音声入力部1からの信号を監視することで音声コマンドの入力タイミングを判定することもできるが、音声入力開始ボタン(図示せず)などを設け、ユーザが音声コマンド入力を行う際に、この音声入力開始ボタンを押し、音声入力監視部2では、その音声入力開始ボタンが押されたことを示す信号を受け取ることによって音声コマンドの入力の開始を判定することも可能である。
【0041】
対話制御部5は、個々のガイダンスに対応したガイダンス情報(後に説明する)とその個々のガイダンスに設定された認識対象語彙に対応した認識対象語彙情報(後に説明する)を持ち、ユーザとの対話の進行に応じたガイダンス情報と認識対象語彙情報を出力する。なお、ガイダンス情報はガイダンス内容生成部6に渡され、認識対象語彙情報は認識対象語彙制御部3に渡される。
【0042】
認識対象語彙制御部3は、対話制御部5からの認識対象語彙情報を受け取り、音声入力監視部2で監視されたユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を設定する。なお、その時点での認識に必要な認識対象語彙を有効認識対象語彙と呼ぶことにする。
【0043】
音声認識部4は、音声出力部7から出力されるガイダンスなどの音声信号をバージイン処理しながら、認識対象語彙制御部3から渡された有効認識対象語彙を用いてユーザの音声コマンドを認識処理し、その認識結果を対話制御部5に渡す。
【0044】
ガイダンス内容生成部6は、対話制御部5からのガイダンス情報に基づき、そのガイダンス情報の1つであるテキスト(ガイダンスすべき内容のテキスト)に対して音声合成に必要な形態素解析やアクセント付加処理などの前処理を施したのちに音声出力部7に渡す。
【0045】
音声出力部7は、ガイダンス内容生成部6から渡されたガイダンス内容を音声合成技術を用いて音声合成処理して、その音声合成結果をガイダンスとして出力するとともに、音声入力監視部2の監視結果(ユーザからの音声コマンドの入力タイミング)に基づいてガイダンスの出力を制御する動作も行う。このガイダンスの出力制御動作は、具体的には、音声コマンドの入力が開始されると少なくともその音声コマンドの入力期間中はガイダンスの出力を停止するといった処理や、音声認識部4での認識結果に基づいて、それ以降のガイダンスの出力が不要と判断された場合はそれ以降のガイダンス出力を停止するといった動作である。
【0046】
以上が本発明の音声対話制御装置を構成するそれぞれの構成要素についての概略的な説明であるが、これら各構成要素の詳細な動作については必要に応じて以下の具体例の動作説明の中でも説明する。
【0047】
前述したように、この実施の形態では、本発明の音声対話制御方法および音声対話制御装置を、ディジタルカメラなどで撮影して得られた画像データをパーソナルコンピュータなどを経由させることなく直接印刷処理可能なプリンタに適用する例につい説明する。
【0048】
なお、以下の説明では、システム(機器としてのプリンタを以下ではシステムという)側の電源の投入やその他の基本的な準備は終了していて、印刷を行うのに必要な設定を音声コマンドで行う例について説明する。この印刷を行うのに必要な設定としては、印刷種類の設定、用紙種類の設定、印刷枚数の設定などが存在するが、ここでは、印刷種類の設定、用紙種類の設定について説明する。
【0049】
また、本発明の主な目的は、前述したように、システム側からの音声による案内の途中でユーザの音声コマンド入力の割り込みを可能とすることで効率的な音声コマンドの入力を実現し、さらに、ユーザからの音声コマンドに対する認識性能の向上と処理速度の向上を図る手法として、認識対象語彙を動的に制御することである。
【0050】
このように、認識対象語彙を動的に制御するために、本発明では、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とするような認識対象語彙制御を行う方法と、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定するような認識対象語彙制御を行う方法を採用する。以下、前者を第1の実施の形態、後者を第2の実施の形態として説明する。
【0051】
なお、ガイダンスに設定された認識対象語彙としては、以下に説明する実施の形態では、個々のガイダンスに含まれる語彙であるとしている。たとえば、プリンタにおける印刷種類の設定であれば、「インデックス印刷ですか」や「1コマ印刷ですか」がガイダンスであり、これらのガイダンスに含まれる「インデックス」や「1コマ印刷」が認識対象語彙となる。
【0052】
〔第1の実施の形態〕
この第1の実施の形態は、ユーザからの音声コマンドの入力があったとき、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とするような認識対象語彙制御を行う例であり、これを印刷種類の設定を例にとって説明する。
【0053】
ユーザが印刷種類の設定を行う際にシステム側から出力されるガイダンスとして、まず、ガイダンスG1として「印刷種類を指定してください」、ガイダンスG2として「次にあげる4つの種類の指定可能です」が出力されたあとに、ガイダンスG3として、「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」が出力されるものとする。
【0054】
なお、これらのガイダンスG1,G2,G3のうち、ガイダンスG3、すなわち、「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」は、認識対象語彙の設定されているガイダンスであり、この場合、「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」がここでの認識対象語彙となる。
【0055】
したがって、ユーザはシステム側から出力されるガイダンスG3としての「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」に対して、たとえば、「インデックス」と指示したり、「1コマ印刷」と指示したり、これらの認識対象語彙を含んだ言い方としてたとえば、「インデックスでお願い」などと発話することによって、システム側ではそのユーザの音声コマンドを音声認識部4で音声認識処理する。
【0056】
対話制御部5は、これら各ガイダンスG1,G2,G3に対応するテキストとこれら各ガイダンスG1,G2,G3の出力開始時刻と出力終了時刻とをガイダンス情報として持つとともに、ガイダンスG3に設定された各認識対象語彙に対応するテキスト(語彙テキストという)と音声認識を行う際に必要な音節表記列(または音素表記列)と各認識対象語彙の出力開始時刻と出力終了時刻を認識対象語彙情報として持っている。図2(a)に各ガイダンスG1,G2,G3のガイダンス情報を示し、同図(b)に各認識対象語彙の認識対象語彙情報を示す。
【0057】
図2(a)は各ガイダンスG1,G2,G3と、これら各ガイダンスG1,G2,G3に対応するテキストと、これら各ガイダンスG1,G2,G3の出力開始時刻および出力終了時刻と対応付けて示す図であり、同図(b)はガイダンスG3に設定された認識対象語彙(これら認識対象語彙にW1,W2,W3,W4を付す)としての「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」に対応する語彙テキストとその音節表記列(音素表記列でもよい)と、これら各認識対象語彙W1,W2,W3,W4の出力開始時刻および出力終了時刻とを対応付けて示す図である。この図2(b)に示されている情報をここでは認識対象語彙情報と呼ぶ。なお、この図2(a)、(b)では出力開始時刻はStart、出力終了時刻はEndとして示されている。
【0058】
なお、図2(a)で示す各ガイダンスG1,G2,G3の出力開始時刻と出力終了時刻は、どのタイミングでその出力ガイダンスを出力するのかを決定するために用いられる時刻であり、図2(b)で示す各認識対象語彙の出力開始時刻と出力終了時刻は、この場合、ガイダンスG3の出力開始時刻Tgs3から出力終了時刻Tge3までの間(ガイダンスG3の有効時間という)のどの区間に対応するかを示す時刻である。これらの時刻情報については後に説明する具体的な動作例の中でも説明する。
【0059】
対話制御部5では図2(a)に示すようなガイダンス情報と同図(b)に示すような認識対象語彙情報を持ち、個々の認識対象語彙に対応する認識対象語彙情報は認識対象語彙制御部3に渡し、個々のガイダンスに対応するガイダンス情報はガイダンス内容生成部6に渡す。
【0060】
ガイダンス内容生成部6は、対話制御部5からガイダンス情報が渡されると、音声出力部7で行われる音声合成処理に必要な形態素解析やアクセント付加処理などの前処理を行う。そして、音声出力部7では、ガイダンス内容生成部6での処理結果を基に、音声合成処理を行ったのちに、ガイダンスG1,G2,G3として、図3で示すように、「印刷種類を指定してください」、「次にあげる4つの種類の指定可能です」、「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」を時系列で順次出力する。
【0061】
このように、システム側からはガイダンスG1として「印刷種類を指定してください」、ガイダンスG2として「次にあげる4つの種類の指定可能です」、ガイダンスG3として「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」が順次出力されるが、最初のガイダンスG1である「印刷種類を指定してください」は、その出力開始時刻がTgs1、その出力終了時刻がTge1であり、2番目に出力されるガイダンスG2の「次にあげる4つの種類の指定可能です」は、その出力開始時刻がTgs2、その出力終了時刻がTge2であり、3番目に出力されるガイダンスG3の「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」は、その出力開始時刻がTgs3、その出力終了時刻がTge3である。
【0062】
これらガイダンスG1,G2,G3のうち、ガイダンスG3の有効時間を詳細に示したタイムチャートを図4に示す。
【0063】
ガイダンスG3の内容である「インデックス、1コマ印刷、全コマ印刷、アルバム印刷です」には、認識対象語彙W1として「インデックス」、認識対象語彙W2として「1コマ印刷」、認識対象語彙W3として「全コマ印刷」、認識対象語彙W4として「アルバム印刷」の4つの認識対象語彙が含まれており、これら認識対象語彙W1〜W4は、ガイダンスG3の有効時間内、つまり、ガイダンスG3の出力開始時刻Tgs3から出力終了時刻Tge3までにおいて、図4に示すような区間が割り当てられている。
【0064】
すなわち、図4に示すように、認識対象語彙W1の「インデックス」は、その出力開始時刻がTws1でその出力終了時刻がTwe1、認識対象語彙W2の「1コマ印刷」は、その出力開始時刻がTws2でその出力終了時刻がTwe2、認識対象語彙W3の「全コマ印刷」は、その出力開始時刻がTws3でその出力終了時刻がTwe3、認識対象語彙W4の「アルバム印刷」は、その出力開始時刻がTws4でその出力終了時刻がTwe4というような割り当てとなっている。
【0065】
ここで、システム側からガイダンスG1,G2の出力が終わって、ガイダンスG3の出力の開始がなされ、そのガイダンスG3の出力の途中で、ユーザから印刷種類の設定を行うための音声コマンド入力がなされた場合を考える。これを図4により説明する。
【0066】
なお、音声コマンド入力前の段階においては、すべての認識対象語彙W1,W2,W3,W4がその時点での認識に必要な語彙(これを有効認識対象語彙と呼んでいる)として設定され、これら有効認識対象語彙を認識候補として用いてユーザからの音声コマンドを音声認識する。すなわち、音声コマンド入力前の段階においては、ユーザからこれら認識対象語彙W1,W2,W3,W4のどれが入力されても認識可能となっている。
【0067】
今、システム側から、ガイダンスG3の内容として、「インデックス」、「1コマ印刷」、・・・と出力している最中に、図4に示すように、時刻Tuでユーザから「インデックスでお願い」というような印刷種類を設定するための音声コマンドが発話されたとする。この時刻Tuはシステム側からの「全コマ印刷」の「印」の出力と「刷」の出力の間の時刻であるとする。
【0068】
このように、ガイダンスG3の出力途中のあるタイミングでユーザが音声コマンドを発話すると、音声入力監視部2がどの時刻でユーザからの音声コマンド入力があったかを判定するとともに、ユーザからの音声コマンド入力があったことを音声出力部7と認識対象語彙制御部3に知らせる。音声出力部7は、音声入力監視部2から音声コマンド入力があったことの通知を受け取ると、この場合、以降のガイダンス出力を停止する。
【0069】
この図4において、破線で示す部分がガイダンスの出力が停止された部分である。なお、ユーザの音声コマンド入力があった時刻Tuと実際にガイダンスの出力が停止されるまでの間に時間遅れTdが生じるが、これは、主に音声コマンド入力があったことを判定するに必要な時間である。なお、以降での説明においても、ユーザの音声コマンド入力があった時刻Tuと実際にガイダンスの出力が停止されるまでの間に同じ理由で時間遅れTdが生じるがこれについてはその都度の説明は行わないことにする。
【0070】
このように、この例では、システム側からガイダンスG3として、「インデックス」、「1コマ印刷」、「全コマ・・・」と出力している最中に、時刻Tuでユーザから印刷種類設定指示がなされたので、この場合、「全コマ印刷」の「ぜ・ん・こ・ま・い・ん・さ」までが出力された段階で出力が停止されることになる。
【0071】
一方、音声入力監視部2からの判定結果(時刻Tuでユーザからの音声コマンド入力があったことの判定結果)を受け取った認識対象語彙制御部3は、それぞれの認識対象語彙W1,W2,W3,W4が持つ時刻情報とユーザの音声コマンド入力時刻Tuとの照合を行う。この時刻の照合は、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻に最も近い前後2つの時刻情報との照合を行う。
【0072】
この例では、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻Tuに最も近い前後2つの時刻情報は、「全コマ印刷」の出力開始時刻Tws3と出力終了時刻Twe3であるので、これらの時刻との照合を行うと、Tws3<Tu<Twe3であり、ユーザの音声コマンド入力は「全コマ印刷」の出力途中で行われたと判断される。
【0073】
このように、印刷の種類として「インデックス」、「1コマ印刷」、「全コマ・・・」と出力している最中に、「全コマ・・・」の途中で、ユーザが印刷種類の設定を行うための音声コマンド入力を行ったことで、そのユーザの所望とする印刷種類は、「インデックス」、「1コマ印刷」、「全コマ印刷」のどれかであって、それ以降の印刷種類(この場合、「アルバム印刷」)は望んでいないと判断する。それによって、この場合、「全コマ印刷」までが有効認識対象語彙と判断され、そのあとの認識対象語彙(時刻Tu以降に出力される認識対象語彙)を有効認識対象語彙から外すような認識対象語彙制御を行う。
【0074】
すなわち、認識対象語彙制御部3では、もともと認識対象語彙として「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」の4つを有効認識対象語彙として設定していたものを、時刻Tuの段階で、有効認識対象語彙を「インデックス」、「1コマ印刷」、「全コマ印刷」の3つに更新し、その更新された「インデックス」、「1コマ印刷」、「全コマ印刷」を音声認識部4に渡す。
【0075】
音声認識部4では、認識対象語彙制御部3から渡されたその時点での認識に必要な語彙(有効認識対象語彙)、すなわち、この場合、「インデックス」、「1コマ印刷」、「全コマ印刷」とユーザの音声コマンドとを照合して認識処理する。
【0076】
この音声認識処理は、この場合、ユーザが「インデックスでお願い」と発話しているので、たとえば、キーワードスポッティングによる音声認識処理を行うことによって、「インデクックス」が認識され、適正に認識処理されれば、その認識結果を対話制御部5に渡す。そして、対話制御部5では、印刷種類設定の次のガイダンスとして、たとえば、用紙種類の設定を行うためのガイダンスの出力の準備を行う。
【0077】
なお、音声認識の手法としては、キーワードスポッティングに限られるものでなく、たとえば、平易なネットワーク文法を用いた連続音声認識を行って、その結果を簡単なパターンマッチングで意味解析するような方式でもよく、音声認識の手法については特に限定されるものではない。また、音声認識処理を行う際は、音声出力部7からの音声信号をバージイン機能を用いて音声認識処理する。
【0078】
以上、システム側からのガイダンスG3における「全コマ印刷」の出力途中でユーザが印刷設定指示を行った場合について説明したが、ユーザの音声コマンド入力タイミングが図5や図6の場合であっても同様に処理される。以下、図5と図6について簡単に説明する。
【0079】
図5はユーザの「インデックスでお願い」という音声コマンド入力がシステム側からの「全コマ印刷」の出力終了直後になされた例であり、前述同様、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻(ここでもユーザの音声コマンド入力時刻をTuで表す)に最も近い前後2つの時刻情報との照合を行うと、この例では、ユーザの音声コマンド入力時刻Tuは、認識対象語彙W3である「全コマ印刷」の出力終了時刻Twe3と「アルバム印刷」の出力開始時刻Tws4との間、つまり、Twe3<Tu<Tws4であるので、ユーザはシステム側から「アルバム印刷」と出力される直前に印刷設定指示を行ったと判断される。
【0080】
このように、印刷の種類として「アルバム印刷」が出力される前にユーザが印刷種類の設定を行うための音声コマンド入力を行ったことで、そのユーザは「アルバム印刷」を望んでいないと判断することができ、それによって、この場合も図4の例と同様、「全コマ印刷」までが有効認識対象語彙と判断され、そのあとの「アルバム印刷」は有効認識対象語彙から外される。
【0081】
また、この場合も前述同様、ユーザが音声コマンド入力を行った時刻Tu以降においてはシステム側からのガイダンスの出力は停止され、出力が停止される部分を破線で示している。
【0082】
したがって、この場合も認識対象語彙制御部3では、その時点における有効認識対象語彙を「インデックス」、「1コマ印刷」、「全コマ印刷」の3つに更新し、その更新された「インデックス」、「1コマ印刷」、「全コマ印刷」の有効認識対象語彙を音声認識部4に渡し、以降、図4の例と同様の処理がなされる。
【0083】
一方、図6の例は、ユーザの「インデックスでお願い」という音声コマンド入力がシステム側からの「アルバム印刷」の出力途中でなされた例であり、前述同様、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻(ここでもユーザの音声コマンド入力時刻をTuで表す)に最も近い前後2つの時刻情報との照合を行うと、この例では、ユーザの音声コマンド入力時刻Tuは、「アルバム印刷」の出力開始時刻Tws4と出力終了時刻Twe4との間、つまり、Tws4<Tu<Twe4であると判定され、ユーザの音声コマンド入力は、システム側からの「アルバム印刷です」の出力途中に行われたと判断される。
【0084】
また、この場合も前述同様、ユーザが音声コマンド入力を行った時刻Tu以降においてはシステム側からのガイダンスの出力は停止され、出力が停止される部分を破線で示している。
【0085】
この図6の例では、ユーザの印刷設定指示は「アルバム印刷」までが含まれる可能性があると判断されるので、「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」をそのまま有効認識識対象語彙とし、有効認識対象語彙の更新は行わない。
【0086】
以上説明したように、この図4,図5、図6の例では、システム側からのガイダンス出力開始時点では、すべての認識対象語彙(この例では、「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」)すべてが有効認識対象語彙となっており、ユーザの発話タイミングによって認識対象語彙を制御している。たとえば、図4と図5の例では、「インデックス」、「1コマ印刷」、「全コマ印刷」を有効認識対象語彙とし、図6の例では「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」を有効認識対象語彙とするような制御を行っている。
【0087】
このように、ユーザの音声コマンドの入力タイミングに応じて認識対象語彙を動的に制御することで、認識候補がその時点での認識に必要な語彙だけに絞られるので、場合によっては、認識候補が大幅に削減されることになり、高い認識性能を得ることができ、また、認識処理時間を短縮することもできる。
【0088】
なお、上述の図4から図6のそれぞれの例は、ユーザはシステム側からのガイダンスG1である「印刷種類を指定してください」とガイダンスG2である「次に挙げる4つが指定可能です」といったガイダンスをすべて聞いたのちに、ガイダンスG3である「インデックス、1コマ印刷、全コマ印刷、・・・」を聞き、所望とする印刷種類が決まれば、その時点で印刷種類設定指示を行うようにする例であったが、その機器の使い方に慣れていて、どのような印刷種類があるかを知っているユーザであれば、ガイダンスG1やガイダンスG2の出力段階で印刷種類の指示を行うことも可能である。これについて図7を参照しながら簡単に説明する。
【0089】
図7の例は、ガイダンスG1である「印刷種類を指定してください」の途中で、ユーザが「インデックスお願い」といった音声コマンド入力を行った例である。この場合もユーザの音声コマンド入力時刻をTuで表し、この時刻Tuにおいてはシステム側からのガイダンスの出力は停止される。すなわち、この図7の例では、ガイダンスG1の途中までは、システム側から「印刷種類を指定・・・」といったガイダンスが出力されるが、ユーザの音声コマンド入力時刻Tu以降は、ガイダンスの出力は停止される。したがって、ガイダンスG2,G3はともに出力されない。
【0090】
この図7の場合、時刻Tuで入力されたユーザからの音声コマンド、すなわち、「インデックスでお願い」が音声認識部4で認識処理され、正しく認識されれば、対話制御部5では、印刷種類設定の次のガイダンスとして、たとえば、用紙種類の設定を行うためのガイダンスを出力するための準備を行う。
【0091】
なお、以上のそれぞれの例では、ガイダンスG1の出力開始時点においては、印刷種類を設定するための認識対象語彙W1,W2,W3,W4である「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」は、それらすべてが認識可能な語彙(有効認識対象語彙)となっていて、たとえば、図4、図5、図6の例のように、ユーザがこれら認識対象語彙のうちのいずれかを音声コマンド入力として与えたときに、その音声コマンド入力のタイミングに応じて、その時点での認識に不必要な認識対象語彙を有効認識対象語彙から外すような処理を行っているが、それぞれの認識対象語彙の持つ有効時間(各認識対象語彙における出力開始時刻時間から出力終了時刻まで)が経過するごとに、その時点での認識に必要な語彙(有効認識対象語彙)を設定する制御を行うこともできる。これについて図8により説明する。
【0092】
図8はガイダンスG3の有効時間を示すもので、これまでの説明と同様、印刷種類を設定するための認識対象語彙である「インデックス」、「1コマ印刷」、「全コマ印刷」、「アルバム印刷」は、これらそれぞれの認識対象語彙ごとに時刻情報を持っている。たとえば、「インデックス」の出力開始時刻は時刻Tws1でその出力終了時刻は時刻Twe1であり、「1コマ印刷」の出力開始時刻は時刻Tws2でその出力終了時刻は時刻Twe2である。
【0093】
ここで、たとえば、ガイダンスG3の出力が開始され、時刻Tws1となると、「インデックス」のみが有効認識対象語彙となり、次の認識対象語彙である「1コマ印刷」の出力開始時刻Tws2までの間は、この「インデックス」のみが有効認識対象語彙となる。そして、時刻Tws2となると、「インデックス」に加えて「1コマ印刷」が有効認識対象語彙となり、次の「全コマ印刷」の出力開始時刻Tws3までの間は、これらの「インデックス」と「1コマ印刷」の2つの認識対象語彙が有効認識対象語彙能となる。
【0094】
以下同様に、時刻Tws3となると、「インデックス」、「1コマ印刷」に加えて「全コマ印刷」の3つの認識対象語彙が有効認識対象語彙となり、次の「アルバム印刷」の出力開始時刻Tws4までの間は、これら「インデックス」、「1コマ印刷」、「全コマ印刷」が有効認識対象語彙となる。そして、時刻Tws4となると、「インデックス」、「1コマ印刷」、「全コマ印刷」に加えて「アルバム印刷」の4つの認識対象語彙が有効認識対象語彙となるというように、それぞれの認識対象語彙の出力とともに有効認識対象語彙を増やしてて行くような制御を行う。
【0095】
このように、認識対象語彙の出力とともに有効認識対象語彙を増やして行くような制御を行うことで、音声コマンド入力時点での有効認識対象語彙をより一層効率よく絞り込むことができ、認識処理の高速化や認識率の向上をより一層図ることができる。
【0096】
〔第2の実施の形態〕
この第2の実施の形態では、音声コマンドの入力時点におけるその音声コマンド内容とシステム側から出力されたガイダンス内容に基づいて認識対象語彙を制御する方法について説明する。ここでは、システム側からのガイダンスに基づいてユーザが印刷用紙の種類(以下では用紙種類という)の設定を行う例について説明する。
【0097】
ユーザが用紙種類の設定を行う際にシステム側から出力されるガイダンスとしては、ここでは、ガイダンスG1として「用紙の種類はどうしますか」に続いて、ガイダンスG2として「PM写真紙ですか」、ガイダンスG3として「フォトプリントですか」、ガイダンスG4として「PMマット紙ですか」、ガイダンスG5として「普通紙ですか」といった内容であるとする。
【0098】
なお、これらのガイダンスG1,G2,・・・,G5の内容のうち、ガイダンスG2〜G5には、それぞれ認識対象語彙が設定されていて、ここでもその認識対象語彙は、それぞれのガイダンスに含まれる語彙とし、この場合、ガイダンスG2である「PM写真紙ですか」の認識対象語彙は「PM写真紙」、ガイダンスG3である「フォトプリントですか」の認識対象語彙は「フォトプリント」、ガイダンスG4である「PMマット紙ですか」の認識対象語彙は「PMマット紙」、ガイダンスG5である「普通紙ですか」の認識対象語彙は「普通紙」としている。
【0099】
図9(a)はこの第2の実施の形態で用いられるガイダンス情報を示すもので、ガイダンスG1,G2,・・・,G5に対応するテキストと、これら各ガイダンスG1,G2,・・・,G5の出力開始時刻および出力終了時刻とを対応付けて示す図であり、同図(b)はこの第2の実施の形態で用いられる認識対象語彙情報を示すもので、ガイダンスG2,G3,・・・,G5に対して設定された認識対象語彙W1,W2,・・・,W5に対応するテキスト(語彙テキスト)とその音節表記列(音素表記列でもよい)と、これら各認識対象語彙の出力開始時刻および出力終了時刻とを対応付けて示す図である。なお、この図9(a)、(b)においても、出力開始時刻はStart、出力終了時刻はEndとして示されている。
【0100】
また、この第2の実施の形態では、上述の認識対象語彙W1,W2,・・・,W5、すなわち、「PM写真紙」、「フォトプリント」、「PMマット紙」、「普通紙」に加えて、ガイダンスG2,G3,・・・,G5に対する肯定語として、たとえば、「はい」や「それ」とガイダンスG2,G3,・・・,G5に対する否定語として、たとえば、「いいえ」をそれぞれ認識対象語彙とする。
【0101】
なお、これら「はい」、「いいえ」、「それ」は、先に述べた認識対象語彙である「PM写真紙」、「フォトプリント」、「PMマット紙」、「普通紙」と区別するために特別認識対象語彙と呼び、「はい」を特別認識対象語彙W11、「いいえ」を特別認識対象語彙W12、「それ」を特別認識対象語彙W13とする。また、肯定語としてはこの実施の形態では「はい」や「それ」を用いて説明するが、肯定を示すそのほかの語彙であってもシステム側ではそれを肯定として判断できるようにしておく。また、否定語も同様で、他の否定を表す語彙であってもよく、システム側ではそれを否定として判断できるようにしておく。
【0102】
図9(c)は、特別認識対象語彙情報を示すもので、特別認識対象語彙W11,W12,W13に対応するテキストとその音節表記列とを対応付けて示す図である。なお、これら、特別認識対象語彙W11,W12,W13は、「PM写真紙」、「フォトプリント」、「PMマット紙」、「普通紙」などの認識対象語彙の出力されている間、どの時刻においても有効であるので時刻情報は持たない。
【0103】
ここで、システム側からガイダンスG1として「用紙の種類はどうしますか」が出力されたあと、ガイダンスG2、G3,・・・が出力され、それに対してユーザから音声コマンド入力がなされた場合の具体例について図10を参照しながら説明する。図10はガイダンスG2以降のタイムチャートを示すものである。
【0104】
まず、システム側から出力されたガイダンスG2の「PM写真紙ですか」という問いに対し、その「PM写真ですか」の出力終了と同時にユーザが「いいえ」の音声コマンドを入力したとする。このユーザの発した音声コマンドは、音声入力監視部2で音声コマンドの入力があったとの判定がなされるとともに、音声認識部4に送られる。
【0105】
音声認識部4ではユーザの発話した「いいえ」を認識処理し、否定語が認識されたことを音声出力部7に通知するとともに対話制御部5に通知する。音声出力部7では、音声入力監視部2からユーザからの音声コマンド入力があったことの通知を受けるが、この場合、音声認識部4からの否定語が認識されたことの通知を受けるので、以降のガイダンス出力の停止は行わず、ガイダンスの出力状態は保持される。
【0106】
一方、対話制御部5では音声認識部4からの否定語を認識したとの通知を受けると、次のガイダンスの出力処理に取り掛かるとともに、認識対象語彙制御部3に対し音声認識部4が否定語を認識した旨を通知する。
【0107】
これによって、システム側からは次のガイダンスG3である「フォトプリントですか」を出力するとともに、認識対象語彙制御部3によって、「PM写真紙」を認識対象語彙から削除する。したがって、この時点での認識に必要な語彙、すなわち、有効認識対象語彙は「フォトプリント」、「PMマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」である。
【0108】
そして、時刻Tgs3において、システム側からガイダンスG3である「フォトプリントですか」が出力されるが、このとき、システム側からの「フォトプリントですか」の途中で、ユーザから再び「いいえ」の音声コマンドが入力されたとする。
【0109】
この場合は、「フォトプリントですか」の途中、つまり、この図10の例では、「フォトプリントですか」の「で」においてユーザからの音声コマンドが入力されたので、「フォトプリントですか」の「すか」の部分の音声出力が停止される(停止された部分が破線で示されている)。なお、この音声出力の停止は、ユーザの発話開始時点から多少の時間遅れTdを有して行われることは前述したとおりである。
【0110】
この場合も、音声認識部4では、ユーザの「いいえ」が否定語であると認識されるので、否定語が認識されたことを音声出力部7に通知するとともに対話制御部4にも通知する。このとき、音声出力部7は、音声入力監視部2からユーザからの音声コマンド入力があったことの通知を受けているが、この場合、音声認識部4からの否定語が認識されたことの通知を受けるので、以降のガイダンスの出力停止は行わず、ガイダンスの出力状態は保持される。
【0111】
一方、対話制御部5では音声認識部4からの否定語を認識したとの通知を受けると、次のガイダンスの出力処理に取り掛かるとともに、認識対象語彙制御部3に対し音声認識部4が否定語を認識した旨を通知する。これによって、システム側からは次のガイダンスG4である「PMマット紙ですか」を出力するとともに、認識対象語彙制御部3によって、「フォトプリント」を認識対象語彙から外す。
【0112】
したがって、この時点での認識に必要な語彙、すなわち、有効認識対象語彙は、「PMマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」である。
【0113】
続けて、時刻Tgs4において、システム側からガイダンスG4として「PMマット紙ですか」が出力されるが、このシステム側からの問いに対し、あらかじめ定めた一定時間内にユーザから応答がないとする。このような場合は、システム側からは時刻Tgs5において、次のガイダンスG5として「普通紙ですか」が出力される。
【0114】
なお、システム側からの問いに対し、あらかじめ定めた一定時間内にユーザから応答がない場合あるいは認識対象語彙以外の語彙(たとえば、「えーと」などが発話された場合、システム側からの問いに対してユーザは肯定も否定もしない(思案中など)として、現時点における有効認識対象語彙の更新は行わない。したがって、時刻Tgs5の時点での有効認識対象語彙は「PMマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」のままである。
【0115】
そして、システム側から出力された「普通紙ですか」の途中で、ユーザが「それ」という音声コマンドを入力したとする。この例では、システム側からの「普通紙ですか」の「普通紙」までを出力し終わって、「で」の直前でユーザが「それ」という音声コマンドを入力した場合であるので、ユーザが音声コマンド入力した時点以降のシステムからの出力、つまり、「普通紙ですか」の「ですか」を出力停止するとともに、ユーザの音声コマンド入力である「それ」に対する音声認識処理を行う。
【0116】
この音声認識の結果、肯定語であると判定されると、有効認識対象語彙の削除や変更を行わず、この場合、それまでの有効認識対象語彙である「PMマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」をそのまま有効認識対象語彙とする。
【0117】
このように、肯定語であるとの認識がなされると、システム側では、ユーザがその肯定語(この場合「それ」)を発話した時刻に最も近い出力開始時刻または出力終了時刻を持つガイダンスを指定したと判断する。
【0118】
ここで、ユーザの発話開始(音声コマンド入力)時刻をTuとすれば、この時刻Tuにもっとも近い出力開始時刻または出力終了時刻を持つガイダンス(時刻Tu以前に出力済みのガイダンス)は、ガイダンスG5の「普通紙ですか」であり、このガイダンスG5に対して設定された認識対象語彙、つまり、ガイダンスG5の出力開始時刻Tgs5から出力終了時刻Tge5までの間の時間内で有効となっている認識対象語彙は、Tgs5<Tws4<Twe4<Tge5から「普通紙」であると判定され、この場合、ユーザの「それ」という発話に対して「普通紙」が認識結果として出力されることになる。
【0119】
なお、ここではユーザの発話した肯定語としては「それ」としたが、ユーザが「はい」と発話した場合も、システム側の音声認識部4ではそれを肯定語と判断し、上述同様、「普通紙」を認識結果として出力する。さらに、システム側からの「普通紙ですか」の問いに対しユーザが「普通紙」と答えた場合も、そのユーザの発話した「普通紙」が音声認識され、肯定語を発話した場合と同様の処理がなされる。
【0120】
上述した図10の例では、用紙種類の設定を行うために、システム側から時系列で出力される幾つかのガイダンス(ガイダンスG2,G2,・・・,G5)に対して、ユーザが否定語を発話すると、その否定語の音声コマンド入力時刻Tuに最も近い出力開始時刻または出力終了時刻を持つガイダンスに対して設定された認識対象語彙(当該ガイダンスの有効時間内で有効となっている認識対象語彙)を有効認識対象語彙から外し、次のガイダンスの出力を行う。
【0121】
また、ガイダンスに対してユーザがシステム側で認識可能な語彙以外の語彙の発話(たとえば「えーと」など)をしたり無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、次のガイダンスを出力する。
【0122】
また、システム側から出力されるガイダンスに対してユーザが肯定語を発話すると、その肯定語の音声コマンド入力時刻Tuに最も近い出力開始時刻または出力終了時刻を持つガイダンスに対して設定された認識対象語彙(当該ガイダンスの有効時間内で有効となっている認識対象語彙)を認識対象語彙を認識結果として出力する。
【0123】
以上のようにこの第2の実施の形態では、ユーザの音声コマンドの入力時点におけるその音声コマンド内容とシステム側から出力されたガイダンス内容に基づいて認識対象語彙を制御している。
【0124】
以上で本発明の第1の実施の形態と第2の実施の形態についての説明を終了する。ところで、この第2の実施の形態で用いた用紙種類の設定を、前述の第1の実施の形態による認識対象語彙制御を行う例について説明する。すなわち、第1の実施の形態は、ユーザからの音声コマンドの入力があったとき、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とするというような制御を行うものであり、この制御を用紙種類の設定に適用した場合について図11を参照しながら説明する。
【0125】
図11は第1の実施の形態で説明した図1から図8のうちのたとえば図4に対応する図であり、ユーザからの音声コマンド入力開始前の段階では、システム側からのガイダンスの出力時間(この図11ではガイダンスG2の出力開始時刻Tgs2からガイダンスG5の出力終了時刻Tge5までの間)において、「PM写真紙」、「フォトプリント」、「PMマット紙」、「普通紙」を有効認識対象語彙としている。
【0126】
そして、ユーザが時刻Tuにて「フォトプリント」と発話したとすると、この時刻Tuまでのガイダンス、すなわち、「PM写真紙」、「フォトプリント」、「PMマット紙」までを有効認識対象語彙とし、「普通紙」を有効認識対象語彙から外す。なお、このように、ユーザが時刻Tuで音声コマンド入力した場合には、それ以降のガイダンスの出力を停止することは前述の通りである。この図11の例では、システム側から「PMマット」と出力された時点でユーザが音声コマンド入力した例であるので、「PMマット」よりもあとのガイダンス出力は停止される。
【0127】
また、図12は第1の実施の形態で説明した時間の経過とともに有効認識対象語彙が増えて行く例である。
【0128】
この場合、時刻Tgs2にてガイダンスG2である「PM写真紙ですか」が出力開始されると、次のガイダンスG3である「フォトプリントですか」の出力開始時刻Tgs3までの間は、「PM写真紙」のみが有効認識対象語彙となり、その間にユーザからの音声コマンド入力がなければ、ガイダンスG3である「フォトプリントですか」が時刻Tgs3で出力開始され、今度は、次のガイダンスG4である「PMマット紙ですか」の出力開始時刻Tgs4までの間は、「PM写真紙」と「フォトプリント」が有効認識対象語彙となる。
【0129】
そして、その間にユーザからの音声コマンド入力がなければ、ガイダンスG5である「普通紙ですか」が時刻Tgs5で出力開始されるが、この図12の例では、システム側から「PMマット紙」の「PMマット」までが出力された時点(時刻Tu)で、ユーザが「フォトプリント」と発話した例であるので、Tgs4<Tu<Tge4の関係から、「PM写真紙」「フォトプリント」、「PMマット紙」が有効認識対象語彙となる。
【0130】
この図12の例において、ユーザが第2の実施の形態で用いた特別認識対象語彙(「はい」、「いいえ」、「それ」など)を併用して印刷用紙設定を行う例について図13により説明する。
【0131】
まず、システム側から出力された「PM写真紙ですか」というガイダンスG2の途中の時刻Tu1でユーザが「いいえ」を発話したとする。この段階における有効認識対象語彙は「PM写真紙」のみであるが、次のガイダンスG3の出力開始時刻Tgs3までにユーザから「いいえ」の否定語が出力されたので、「PM写真紙」を有効認識対象語彙から削除するとともに、システム側では、次のガイダンスG3である「フォトプリントですか」の出力を行うとともに、「フォトプリント」を有効認識対象語彙とする。ちなみに、時刻Tgs3までにユーザから「いいえ」の否定語が出力されなければ、「フォトプリントですか」が出力された時点における有効認識対象語彙は「PM写真紙」と「フォトプリント」の2つとなる。
【0132】
このガイダンスG3の「フォトプリントですか」に対してはユーザからは応答がないとすると、システム側からガイダンスG4として「PMマット紙」が出力され、その途中の時刻Tu2(「PMマット紙」の「PMマット」まで出力された時点)で、ユーザから「フォトプリント」と発話されたとする。システム側ではユーザの発話した「フォトプリント」が否定語でないと判断し、時刻Tu2以降の出力を停止する。
【0133】
そして、この時刻Tu2にもっとも近い出力開始時刻または出力終了時刻を持つガイダンスに対して設定された認識対象語彙、すなわち、この場合、「PMマット紙ですか」の出力開始時刻Tgs4から出力終了時刻Tge4の間で有効となっている認識対象語彙(「PMマット紙」)を有効認識対象語彙に加える。したがって、この時刻Tu2においては、「フォトプリント」と「PMマット紙」の2つが有効認識対象語彙となり、これらの有効認識対象語彙を用いてユーザの発話した「フォトプリント」に対して認識処理する。
【0134】
図14は図13の変形例であり、ガイダンスG2、G3、G4、G5の内容やこれらガイダンスG2、G3、G4、G5のそれぞれの出力開始時刻と出力終了時刻などは図13と同じである。この図14について簡単に説明する。
【0135】
まず、システムからの「PM写真紙ですか」という出力に対してはユーザが応答せず、次の「フォトプリントですか」という出力に対し、その途中の時刻Tu1でユーザが「いいえ」と発話したとする。したがって、「PM写真紙ですか」の出力開始時刻Tgs2から「フォトプリントですか」の出力開始時刻Tgs3までの間における有効認識対象語彙は「PM写真紙」であり、「フォトプリントですか」の出力開始時刻Tgs3から「PMマット紙ですか」の出力開始時刻Tgs4までの間における有効認識対象語彙も「いいえ」の否定語が入力されたことによって「PM写真紙」のみとなる。なお、この「いいえ」の出力があるとシステム側からのガイダンスの出力が停止された状態で、「いいえ」を認識処理して、この場合、否定であると判定されるので、その次のガイダンスの出力は停止されないことは前述したとおりである。
【0136】
そして、次のガイダンスG4である「PMマット紙ですか」が出力され、その途中の時刻Tu2にてユーザが「PM写真紙」と発話したとする。システム側ではユーザの発話した「PM写真紙」が否定語でないと判断し、時刻Tu2以降の出力を停止する。そして、この時刻Tu2にもっとも近い出力開始時刻または出力終了時刻を持つガイダンス(この場合「PMマット紙ですか」の有効時間内で有効となっている認識対象語彙(「PMマット紙」)を有効認識対象語彙に加える。したがって、この時刻Tu2においては、「PM写真紙」と「PMマット紙」の2つが有効認識対象語彙となり、これらの有効認識対象語彙を用いてユーザの発話した「PM写真紙」に対して認識処理する。
【0137】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、上述の各実施の形態では、プリンタにおける印刷種類や印刷用紙の設定を行う例について説明したが、これらは一例にすぎず、本発明はこれに限られるものではなく、ユーザからの音声コマンドを対話形式で入力する音声対話インタフェースを有するシステムに広く適用することができる。
【0138】
また、前述の各実施の形態では、それぞれのガイダンスに対して設定された認識対象語彙は、個々のガイダンスに含まれる語彙としたが、これに限られるものではなく、類似した語彙や意味が同じである語彙などを用いることもできる。
【0139】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフレキシブルディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0140】
【発明の効果】
以上説明したように本発明によれば、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うようにしているので、認識候補としての認識対象語彙をユーザの音声コマンド入力時点での認識に必要な語彙だけに絞り込むことができる。これによって、場合によっては、認識候補が大幅に削減されることになり、高い認識性能を得ることができるとともに、認識処理に要する時間を短縮することもできる。さらに、本発明では、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能としているので、システム側からのガイダンスを聞き終わるのを待つ必要がなくなり、効率的な音声コマンド入力が可能となり、対話の自然性も得られる。
【図面の簡単な説明】
【図1】本発明の音声対話制御装置の実施の形態(第1および第2の実施の形態)を説明する構成図である。
【図2】第1の実施の形態で用いられるガイダンス情報と認識対象語彙情報の一例を示す図である。
【図3】第1の実施の形態におけるガイダンスG1,G2,G3の出力状況を説明するタイムチャートである。
【図4】第3のガイダンスG3の出力途中のあるタイミング(「全コマ印刷」の出力途中)でユーザの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図5】第3のガイダンスG3の出力途中のあるタイミング(「全コマ印刷」と「アルバム印刷」の間)でユーザの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図6】第3のガイダンスG3の出力途中のあるタイミング(「アルバム印刷」の出力途中)でユーザの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図7】ガイダンスG3が出力される前の段階でユーザからの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図8】第1の実施の形態において、ガイダンスG3に含まれる各ガイダンスが出力されるごとに有効認識対象語彙を増やして行く例を説明するタイムチャートである。
【図9】第2の実施の形態で用いられるガイダンス情報と認識対象語彙情報と特別認識対象語彙情報の一例を説明する図であり、(a)は各ガイダンスG1,G2,G3,G4,G5に対応するガイダンス情報例を示す図、(b)はガイダンスG1〜G5に含まれる認識対象語彙に対応する認識対象語彙情報例、(c)は特別認識対象語彙に対応する特別認識対象語彙情報例を示す図である。
【図10】第2の実施の形態における認識対象語彙制御動作を説明するタイムチャートであり、ガイダンスG2〜G5の出力途中でユーザの音声コマンド(肯定語または否定)が入力された場合の動作を説明するタイムチャートである。
【図11】第2の実施の形態で用いたガイダンスG2,G3,G4,G5に対し、第1の実施の形態の説明に用いた図4と同様の認識対象語彙制御を行った例を説明するタイムチャートである。
【図12】第2の実施の形態で用いたガイダンスG2,G3,G4,G5に対し、第1の実施の形態の説明に用いた図8と同様の認識対象語彙制御を行った例を説明するタイムチャートである。
【図13】図12で説明した動作において図10で説明した動作を併用した場合の認識対象語彙制御を行った例を説明するタイムチャートである。
【図14】図13の変形例を説明するタイムチャートである。
【符号の説明図】
1…音声入力部
2…音声入力監視部
3…認識対象語彙制御部
4…音声認識部
5…対話制御部
6…ガイダンス内容生成部
7…音声出力部
GI,G2,G3,・・・…ガイダンス
W1,W2,W3,・・・…認識対象語彙
Tgs1,Tgs2,Tgs3,・・・…ガイダンスの出力開始時刻
Tge1,Tge2,Tge3,・・・…ガイダンスの出力終了時刻
Tws1,Tws2,Tws3,・・・…認識対象語彙の出力開始時刻
Twe1,Twe2,Twe3,・・・…認識対象語彙の出力終了時刻
Tu,Tu1,Tu2…音声コマンド入力時刻

Claims (14)

  1. 個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御方法であって、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うことを特徴とする音声対話制御方法。
  2. 前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、
    前記音声コマンド入力前の段階においては、前記すべての認識対象語彙が有効認識対象語彙として設定されており、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とすることを特徴とする請求項1記載の音声対話制御方法。
  3. 前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、
    前記それぞれのガイダンスが出力されるごとにそのガイダンスごとに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うことを特徴とする請求項1記載の音声対話制御方法。
  4. 前記ユーザからの音声コマンド入力のタイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、
    あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定することを特徴とする請求項1記載の音声対話制御方法。
  5. 前記あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答であることを特徴とする請求4記載の音声対話制御方法。
  6. 前記ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
    前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
    前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果とすることを特徴とする請求項5記載の音声対話制御方法。
  7. 前記それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙であることを特徴とする請求項1から6のいずれかに記載の音声対話制御方法。
  8. 個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御装置において、音声入力手段に入力された音声コマンドの入力タイミングを監視する音声入力監視手段と、
    個々のガイダンスに対応したガイダンス情報とその個々のガイダンスに設定された認識対象語彙に対応した認識対象語彙情報を持ち、ユーザとの対話の進行に応じたガイダンス情報と認識語彙情報を出力する対話制御手段と、
    この対話制御手段からの認識語彙情報を受け取り、前記音声入力監視部で監視されたユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する認識対象語彙制御手段と、
    この認識対象語彙制御手段で設定された有効認識対象語彙を用いてユーザの音声コマンドに対する認識結果を出力する音声認識手段と、
    前記対話制御部からのガイダンス情報を受け取って音声合成に必要なガイダンス内容を生成するガイダンス内容生成手段と、
    このガイダンス内容生成部からのガイダンス内容を音声合成処理して出力する音声出力手段と、
    を有することを特徴とする音声対話制御装置。
  9. 前記認識対象語彙制御手段は、前記音声コマンドが入力される前の段階においては、すべての認識対象語彙を有効認識対象語彙として設定し、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とすることを特徴とする請求項8記載の音声対話制御装置。
  10. 前記認識対象語彙制御手段は、前記それぞれのガイダンスが出力されるごとにそのガイダンスに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うことを特徴とする請求項8記載の音声対話制御装置。
  11. 前記認識対象語彙制御手段は、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定することを特徴とする請求項8記載の音声対話制御装置。
  12. 前記あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答であることを特徴とする請求項11記載の音声対話制御装置。
  13. 前記ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
    前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
    前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、その肯定語の入力タイミングが個々のガイダンスに設定された有効時間のどの有効時間に入っているかを判断し、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果とすることを特徴とする請求項12記載の音声対話制御装置。
  14. 前記ガイダンスに設定された認識対象語彙は、前記個々のガイダンスの内容に含まれる語彙であることを特徴とする請求項8から13のいずれかに記載の音声対話制御装置。
JP2002318636A 2002-10-31 2002-10-31 音声対話制御方法、音声対話制御装置および音声対話制御プログラム Expired - Fee Related JP4304959B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002318636A JP4304959B2 (ja) 2002-10-31 2002-10-31 音声対話制御方法、音声対話制御装置および音声対話制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002318636A JP4304959B2 (ja) 2002-10-31 2002-10-31 音声対話制御方法、音声対話制御装置および音声対話制御プログラム

Publications (3)

Publication Number Publication Date
JP2004151562A true JP2004151562A (ja) 2004-05-27
JP2004151562A5 JP2004151562A5 (ja) 2005-11-04
JP4304959B2 JP4304959B2 (ja) 2009-07-29

Family

ID=32461718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002318636A Expired - Fee Related JP4304959B2 (ja) 2002-10-31 2002-10-31 音声対話制御方法、音声対話制御装置および音声対話制御プログラム

Country Status (1)

Country Link
JP (1) JP4304959B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005124738A1 (ja) * 2004-06-16 2005-12-29 Matsushita Electric Industrial Co., Ltd. 音声対話システム及び音声対話方法
JP2016501391A (ja) * 2012-12-20 2016-01-18 アマゾン テクノロジーズ インコーポレーテッド 発話対象の識別
JP2018054791A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
WO2019123899A1 (ja) * 2017-12-19 2019-06-27 キヤノン株式会社 無線端末、管理サーバ、意図解釈サーバ、それらの制御方法、及びプログラム
CN111625094A (zh) * 2020-05-25 2020-09-04 北京百度网讯科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005124738A1 (ja) * 2004-06-16 2005-12-29 Matsushita Electric Industrial Co., Ltd. 音声対話システム及び音声対話方法
JP2016501391A (ja) * 2012-12-20 2016-01-18 アマゾン テクノロジーズ インコーポレーテッド 発話対象の識別
US11087757B2 (en) 2016-09-28 2021-08-10 Toyota Jidosha Kabushiki Kaisha Determining a system utterance with connective and content portions from a user utterance
JP2018054791A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
US10319379B2 (en) 2016-09-28 2019-06-11 Toyota Jidosha Kabushiki Kaisha Methods and systems for voice dialogue with tags in a position of text for determining an intention of a user utterance
US11900932B2 (en) 2016-09-28 2024-02-13 Toyota Jidosha Kabushiki Kaisha Determining a system utterance with connective and content portions from a user utterance
US11438469B2 (en) 2017-12-19 2022-09-06 Canon Kabushiki Kaisha Wireless terminal, management server and intention interpretation server
RU2750623C1 (ru) * 2017-12-19 2021-06-30 Кэнон Кабусики Кайся Беспроводной терминал, сервер администрирования, сервер интерпретации намерений, способ управления ими и программа
JP2019109752A (ja) * 2017-12-19 2019-07-04 キヤノン株式会社 無線端末、管理サーバ、意図解釈サーバ、それらの制御方法、及びプログラム
JP7177591B2 (ja) 2017-12-19 2022-11-24 キヤノン株式会社 無線端末、サーバ、それらの制御方法、プログラム、及びシステム
WO2019123899A1 (ja) * 2017-12-19 2019-06-27 キヤノン株式会社 無線端末、管理サーバ、意図解釈サーバ、それらの制御方法、及びプログラム
CN111625094A (zh) * 2020-05-25 2020-09-04 北京百度网讯科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN111625094B (zh) * 2020-05-25 2023-07-14 阿波罗智联(北京)科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP4304959B2 (ja) 2009-07-29

Similar Documents

Publication Publication Date Title
US9015048B2 (en) Incremental speech recognition for dialog systems
JP3700266B2 (ja) 音声対話制御方法および音声対話システム
JP5195405B2 (ja) 応答生成装置及びプログラム
US8818801B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
KR100923180B1 (ko) 혼합 주도형 문법의 생성 방법, 혼합 주도형 문법의 자동 생성 방법 및 머신 판독 가능 저장 장치
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
WO2012009045A1 (en) Modification of speech quality in conversations over voice channels
JP2004288018A (ja) 対話制御システム及び方法
JP2005196134A (ja) 音声対話システム及び方法並びに音声対話プログラム
JP2011504624A (ja) 自動同時通訳システム
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP2004151562A (ja) 音声対話制御方法および音声対話制御装置
JP2001268669A (ja) 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP4589843B2 (ja) 対話方法、対話装置、対話プログラムおよび記録媒体
JP2007033478A (ja) マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード
JP2020113150A (ja) 音声翻訳対話システム
JP2019138989A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6736225B2 (ja) 対話装置、対話装置の制御方法およびプログラム
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
JP2005004716A (ja) 異言語間対話処理方法およびその装置、ならびにそのプログラムと記録媒体
JP5519126B2 (ja) 音声認識装置及び音声認識方法
JP3797003B2 (ja) 音声出力装置
JP4979336B2 (ja) 音声出力装置
Wang et al. Cross Cultural Comparison of Users’ Barge-in with the In-Vehicle Speech System

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050822

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050822

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees