JP2004151562A

JP2004151562A - 音声対話制御方法および音声対話制御装置

Info

Publication number: JP2004151562A
Application number: JP2002318636A
Authority: JP
Inventors: Masanobu Nishitani; 正信西谷
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-10-31
Filing date: 2002-10-31
Publication date: 2004-05-27
Anticipated expiration: 2022-10-31
Also published as: JP4304959B2

Abstract

【課題】対話形式で音声コマンドを入力する際、効率よくしかも対話の自然性を配慮した音声コマンド入力を可能とし、高いに認識率を得るようにする。
【解決手段】ユーザからの音声コマンドの入力タイミングに応じて、ガイダンスごとに設定された認識対象語彙（たとえばガイダンスに含まれる語彙）を制御する。一例として、音声コマンド入力前の段階においては、認識対象語彙Ｗ１〜Ｗ４である「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」をすべて有効認識対象語彙として設定し、たとえば、時刻Ｔｕでユーザから「インデックスでお願い」という音声コマンドが入力されると、その音声コマンドの入力タイミングにおいて出力の終了または出力途中のガイダンスに対する認識対象語彙（この例では、「インデックス」、「１コマ印刷」、「全コマ印刷」）を有効認識対象語彙とし、これらの有効認識対象語彙を用いて音声コマンドを認識処理する。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザからの音声コマンドを対話形式で入力して認識し、その認識結果に応じた動作を実行するシステムに用いられる音声対話制御方法および音声対話制御装置に関する。
【０００２】
【従来の技術】
ユーザからの音声コマンドを対話形式で入力して認識し、その認識結果に応じた動作を実行するシステムが広い分野で使用されている。特に、表示画面を大きく取れない機器（たとえば、ディジタルカメラや、プリンタなど）においては、機能設定などの指示を行うためのメニューの表示や操作手順のガイダンスをその表示画面上で行う際、表示画面が小さいことから表示できる情報量に大きな制約があるとともに、表示された文字なども小さくなりがちで確認しにくいといった問題がある。
【０００３】
このため、この種の機器にあっては、音声対話形式で各種コマンド設定を行うことのできる音声対話インタフェースが有効となる。また、表示画面の大きさの制約だけではなく、たとえば、カーナビゲーションなどにおいては、運転中に運転者自らが様々な設定を行わざるを得ない場合もあるが、運転中においては画面を注視できないので、この種の機器においても、音声対話インタフェースは非常に有効である。
【０００４】
このような機器に用いられている音声対話インタフェースの一般的な音声コマンド入力方法としては、機器（システム）側からユーザに対して質問し、これにユーザが答えるという方法を順次繰り返しながら、階層的にコマンド入力を行うのが一般的である。
【０００５】
また、この種の音声対話インタフェースの多くは、ある質問に対してユーザ側が指示を行う場合、システム側からの質問の終了を待ってから、その質問に対してユーザが答えるのが普通であり、システム側からの質問の出力途中でユーザが音声で割り込むというような自然な対話ができないのが一般的である
このように、システム側からの質問の終了を待ってから、その質問に対してユーザが答えるようなシステムにおいては、システム側から多数の選択候補が出力され、その中からある１つを選択するような場合は、システム側からの質問内容がすべて終了するまで待たなければならないため、そのシステムの使い方に慣れているユーザにとっては、苛立ちを感じることも多い。
【０００６】
たとえば、電話による自動応答サービスなどの場合、システム側からの案内が、「・・・の場合は１、・・・の場合は２、・・・の場合は３、・・・と発話してください」というように、ユーザの選択すべき項目が多数存在する場合は、ユーザはその案内をすべて聞いてからでないと、次の階層に移ることができないこともある。
【０００７】
このような不具合を解決するための技術の一例として、たとえば、特開平６−１１０８３５（以下、従来技術という）がある。この従来技術には、システム側からの音声を遮ってユーザが発話することを可能とし、対話の自然性の向上を実現することが記述されている。
【０００８】
【特許文献１】
特開平６−１１０８３５号公報
【０００９】
【発明が解決しようとする課題】
しかしながら、この従来技術では、システム側の音声をさえぎる方法として、ユーザが「もうわかりました」、「すみません」、「もう結構です」というような出力停止を意図した予め決められたフレーズを発話しなければならない。
【００１０】
また、この従来技術は、上述の電話応答サービスのような複数の選択候補が出力されるような場合に対するユーザ側の応答のし易さや、ユーザ側からの音声に対する認識性能の向上に関する取り組みについては述べられていない。したがって、この従来技術では、前述したようなディジタルカメラや、プリンタ、カーナビゲーションなどの機器においては、機能設定など様々な指示を音声で行う際に生じる種々の問題点を解決することはできないと考えられる。
【００１１】
そこで本発明は、ユーザからの音声コマンドに対する認識性能の向上を実現するともに、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能とすることで効率的な音声対話による音声コマンド入力を可能とすることを目的としている。
【００１２】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音声対話制御方法は、個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御方法であって、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うようにしている。
【００１３】
このような音声対話制御方法において、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記音声コマンド入力前の段階においては、前記すべての認識対象語彙が有効認識対象語彙として設定されており、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙としている。
【００１４】
また、この音声対話制御方法において、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記それぞれのガイダンスが出力されるごとにそのガイダンスごとに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うようにしてもよい。
【００１５】
また、この音声対話制御方法において、前記ユーザからの音声コマンド入力のタイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定するようにしてもよい。
【００１６】
この場合、あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答としている。
【００１７】
そして、前記ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果としている。
【００１８】
また、この音声対話制御方法において、それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙とすることが好ましい。
【００１９】
また、本発明の音声対話制御装置は、個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御装置において、音声入力手段に入力された音声コマンドの入力タイミングを監視する音声入力監視手段と、個々のガイダンスに対応したガイダンス情報とその個々のガイダンスに設定された認識対象語彙に対応した認識対象語彙情報を持ち、ユーザとの対話の進行に応じたガイダンス情報と認識語彙情報を出力する対話制御手段と、この対話制御手段からの認識語彙情報を受け取り、前記音声入力監視部で監視されたユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する認識対象語彙制御手段と、この認識対象語彙制御手段で設定された有効認識対象語彙を用いてユーザの音声コマンドに対する認識結果を出力する音声認識手段と、前記対話制御部からのガイダンス情報を受け取って音声合成に必要なガイダンス内容を生成するガイダンス内容生成手段と、このガイダンス内容生成部からのガイダンス内容を音声合成処理して出力する音声出力手段とを有した構成としている。
【００２０】
このような音声対話制御装置において、前記認識対象語彙制御手段は、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記音声コマンド入力前の段階においては、前記すべての認識対象語彙が有効認識対象語彙として設定されており、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙としている。
【００２１】
また、この音声対話制御装置において、前記認識対象語彙制御手段は、前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、前記それぞれのガイダンスが出力されるごとにそのガイダンスごとに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うようにしてもよい。
【００２２】
また、この音声対話制御装置において、前記認識対象語彙制御手段は、前記ユーザからの音声コマンド入力のタイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定するようにしてもよい。
【００２３】
この場合、あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答としている。
【００２４】
そして、前記ガダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果としている。
【００２５】
また、この音声対話制御装置において、それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙とすることが好ましい。
【００２６】
以上のように本発明は、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うようにしているので、認識候補としての認識対象語彙をユーザの音声コマンド入力時点での認識に必要な語彙だけに絞り込むことができる。これによって、場合によっては、認識候補が大幅に削減されることになり、高い認識性能を得ることができるとともに、認識処理に要する時間を短縮することもできる。さらに、本発明では、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能としているので、システム側からのガイダンスを聞き終わるのを待つ必要がなくなり、効率的な音声コマンド入力が可能となり、対話の自然性も得られる。
【００２７】
また、前記ユーザからの音声コマンドの入力された時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理には、幾つかの手法が考えられる。その１つの方法として、前記音声コマンド入力前の段階においては、すべての認識対象語彙を有効認識対象語彙として設定しておき、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とする方法がある。
【００２８】
これによれば、ユーザがガイダンスを聞きながら所望とするタイミングで音声コマンドを与えるような場合、音声コマンドの入力時点までのガイダンスに設定された認識対象語彙だけを有効認識対象語彙とするので、認識を行うに必要な語彙を音声コマンド入力時点での認識に必要な語彙だけに絞り込むことができ、認識率の向上を図ることができるとともに、認識処理の高速化も可能となる。また、初期段階（音声コマンド入力前の段階）では、すべての認識対象語彙が有効認識対象語彙として設定されているので、認識対象語彙の設定されたガイダンスの出力開始前に、ユーザは個々のガイダンスに設定された認識対象語彙のいずれかを指定することが可能であり、そのシステムを使い慣れたユーザにとっては、いちいちガイダンスを聞く必要がなくなり、使い勝手にすぐれたものとなる。
【００２９】
また、前記ユーザからの音声コマンドの入力された時点において認識に必要な認識対象語彙を有効認識対象語彙として設定する処理の他の方法としては、前記それぞれのガイダンスが出力されるごとにそのガイダンスに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行う方法がある。
【００３０】
これによれば、時系列で出力されるガイダンスがそれぞれ出力されるごとにそのガイダンスに設定された認識対象語彙が増えて行くので、音声コマンド入力時点での有効認識対象語彙をより効率よく絞り込むことができ、認識率や認識処理速度をより一層向上させることができる。
【００３１】
また、前記ユーザからの音声コマンドの入力された時点において認識に必要な認識対象語彙を有効認識対象語彙として設定する処理のさらに他の方法として、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する方法が考えられる。
【００３２】
これによれば、あるガイダンスが出力され、それに対するユーザの反応（音声コマンドの発話だけでなく無応答も含む）によって有効認識対象語彙を制御するようにしているので、対話の進行に合わせて、それぞれのガイダンスに設定された認識対象語彙を有効認識対象語彙とするか有効認識対象語彙から外すかの決定がなされ、これによって、音声コマンド入力時点での認識に必要な有効認識対象語彙を効率よく絞り込むことができ、認識率の向上や認識処理の高速化を図ることができる。
【００３３】
なお、ここでのユーザの反応とは上述したように音声コマンドの発話だけでなく無応答も含むが、ユーザの音声コマンドとしては、ガイダンス内容を肯定する肯定語とガイダンス内容を否定する否定語とすることが考えられる。これによって、ユーザは、ガイダンスが出力されるごとに、たとえば、「はい」や「いいえ」などと発話するだけで、システム側ではユーザの音声コマンド入力時点での認識に必要な有効認識対象語彙を効率よく設定することができる。
【００３４】
そして、ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外し、以降に出力すべきガイダンスがあればそのガイダンスを出力し、ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果とするようにしているので、音声コマンド入力時点での有効認識対象語彙を適正かつ効率的に設定することができる。
【００３５】
また、前記それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙としている。たとえば、プリンタなどにおける印刷種類の設定であれば、「インデックス印刷ですか」や「１コマ印刷ですか」がガイダンスの内容であり、これらのガイダンスに含まれる「インデックス」や「１コマ印刷」を認識対象語彙とするものであり、これによって、音声対話を円滑に行うことができ、音声コマンドを認識処理して得られる認識結果に基づく動作設定を確実に行うことができる。
【００３６】
また、本発明の音声対話制御装置によれば、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能とし、それによって、システム側からのガイダンスを聞き終わってからでないと音声コマンドの入力ができないといった従来の音声対話インタフェースの持つ問題点を解消することができる。しかも、音声認識対象語彙をユーザの音声コマンド入力時点で必要な語彙だけに絞り込むことができるので、認識率や認識処理の向上を図ることもできる。
【００３７】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態では、ディジタルカメラなどで撮影した得られた画像情報をパーソナルコンピュータなどを経由させることなく直接印刷処理可能なプリンタに、本発明の音声対話制御方法および音声対話制御装置を適用した例について説明する。
【００３８】
図１は本発明の音声対話制御装置の構成を説明する図であり、構成要素のみを列挙すると、音声入力部１、音声入力監視部２、認識対象語彙制御部３、音声認識部４、対話制御部５、ガイダンス内容生成部６、音声出力部７などから構成されている。
【００３９】
音声入力部１は、ユーザの発話した音声コマンドを入力して音声信号として音声入力監視部２と音声認識部４に送る。
【００４０】
音声入力監視部２は、ガイダンスのどの時点でユーザからの音声コマンド入力があったかを判定し、その判定結果を認識対象語彙制御部３と音声出力部７に渡す。なお、ガイダンスのどの時点で音声コマンドの入力があったかは、音声入力部１からの信号を監視することで音声コマンドの入力タイミングを判定することもできるが、音声入力開始ボタン（図示せず）などを設け、ユーザが音声コマンド入力を行う際に、この音声入力開始ボタンを押し、音声入力監視部２では、その音声入力開始ボタンが押されたことを示す信号を受け取ることによって音声コマンドの入力の開始を判定することも可能である。
【００４１】
対話制御部５は、個々のガイダンスに対応したガイダンス情報（後に説明する）とその個々のガイダンスに設定された認識対象語彙に対応した認識対象語彙情報（後に説明する）を持ち、ユーザとの対話の進行に応じたガイダンス情報と認識対象語彙情報を出力する。なお、ガイダンス情報はガイダンス内容生成部６に渡され、認識対象語彙情報は認識対象語彙制御部３に渡される。
【００４２】
認識対象語彙制御部３は、対話制御部５からの認識対象語彙情報を受け取り、音声入力監視部２で監視されたユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を設定する。なお、その時点での認識に必要な認識対象語彙を有効認識対象語彙と呼ぶことにする。
【００４３】
音声認識部４は、音声出力部７から出力されるガイダンスなどの音声信号をバージイン処理しながら、認識対象語彙制御部３から渡された有効認識対象語彙を用いてユーザの音声コマンドを認識処理し、その認識結果を対話制御部５に渡す。
【００４４】
ガイダンス内容生成部６は、対話制御部５からのガイダンス情報に基づき、そのガイダンス情報の１つであるテキスト（ガイダンスすべき内容のテキスト）に対して音声合成に必要な形態素解析やアクセント付加処理などの前処理を施したのちに音声出力部７に渡す。
【００４５】
音声出力部７は、ガイダンス内容生成部６から渡されたガイダンス内容を音声合成技術を用いて音声合成処理して、その音声合成結果をガイダンスとして出力するとともに、音声入力監視部２の監視結果（ユーザからの音声コマンドの入力タイミング）に基づいてガイダンスの出力を制御する動作も行う。このガイダンスの出力制御動作は、具体的には、音声コマンドの入力が開始されると少なくともその音声コマンドの入力期間中はガイダンスの出力を停止するといった処理や、音声認識部４での認識結果に基づいて、それ以降のガイダンスの出力が不要と判断された場合はそれ以降のガイダンス出力を停止するといった動作である。
【００４６】
以上が本発明の音声対話制御装置を構成するそれぞれの構成要素についての概略的な説明であるが、これら各構成要素の詳細な動作については必要に応じて以下の具体例の動作説明の中でも説明する。
【００４７】
前述したように、この実施の形態では、本発明の音声対話制御方法および音声対話制御装置を、ディジタルカメラなどで撮影して得られた画像データをパーソナルコンピュータなどを経由させることなく直接印刷処理可能なプリンタに適用する例につい説明する。
【００４８】
なお、以下の説明では、システム（機器としてのプリンタを以下ではシステムという）側の電源の投入やその他の基本的な準備は終了していて、印刷を行うのに必要な設定を音声コマンドで行う例について説明する。この印刷を行うのに必要な設定としては、印刷種類の設定、用紙種類の設定、印刷枚数の設定などが存在するが、ここでは、印刷種類の設定、用紙種類の設定について説明する。
【００４９】
また、本発明の主な目的は、前述したように、システム側からの音声による案内の途中でユーザの音声コマンド入力の割り込みを可能とすることで効率的な音声コマンドの入力を実現し、さらに、ユーザからの音声コマンドに対する認識性能の向上と処理速度の向上を図る手法として、認識対象語彙を動的に制御することである。
【００５０】
このように、認識対象語彙を動的に制御するために、本発明では、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とするような認識対象語彙制御を行う方法と、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定するような認識対象語彙制御を行う方法を採用する。以下、前者を第１の実施の形態、後者を第２の実施の形態として説明する。
【００５１】
なお、ガイダンスに設定された認識対象語彙としては、以下に説明する実施の形態では、個々のガイダンスに含まれる語彙であるとしている。たとえば、プリンタにおける印刷種類の設定であれば、「インデックス印刷ですか」や「１コマ印刷ですか」がガイダンスであり、これらのガイダンスに含まれる「インデックス」や「１コマ印刷」が認識対象語彙となる。
【００５２】
〔第１の実施の形態〕
この第１の実施の形態は、ユーザからの音声コマンドの入力があったとき、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とするような認識対象語彙制御を行う例であり、これを印刷種類の設定を例にとって説明する。
【００５３】
ユーザが印刷種類の設定を行う際にシステム側から出力されるガイダンスとして、まず、ガイダンスＧ１として「印刷種類を指定してください」、ガイダンスＧ２として「次にあげる４つの種類の指定可能です」が出力されたあとに、ガイダンスＧ３として、「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」が出力されるものとする。
【００５４】
なお、これらのガイダンスＧ１，Ｇ２，Ｇ３のうち、ガイダンスＧ３、すなわち、「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」は、認識対象語彙の設定されているガイダンスであり、この場合、「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」がここでの認識対象語彙となる。
【００５５】
したがって、ユーザはシステム側から出力されるガイダンスＧ３としての「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」に対して、たとえば、「インデックス」と指示したり、「１コマ印刷」と指示したり、これらの認識対象語彙を含んだ言い方としてたとえば、「インデックスでお願い」などと発話することによって、システム側ではそのユーザの音声コマンドを音声認識部４で音声認識処理する。
【００５６】
対話制御部５は、これら各ガイダンスＧ１，Ｇ２，Ｇ３に対応するテキストとこれら各ガイダンスＧ１，Ｇ２，Ｇ３の出力開始時刻と出力終了時刻とをガイダンス情報として持つとともに、ガイダンスＧ３に設定された各認識対象語彙に対応するテキスト（語彙テキストという）と音声認識を行う際に必要な音節表記列（または音素表記列）と各認識対象語彙の出力開始時刻と出力終了時刻を認識対象語彙情報として持っている。図２（ａ）に各ガイダンスＧ１，Ｇ２，Ｇ３のガイダンス情報を示し、同図（ｂ）に各認識対象語彙の認識対象語彙情報を示す。
【００５７】
図２（ａ）は各ガイダンスＧ１，Ｇ２，Ｇ３と、これら各ガイダンスＧ１，Ｇ２，Ｇ３に対応するテキストと、これら各ガイダンスＧ１，Ｇ２，Ｇ３の出力開始時刻および出力終了時刻と対応付けて示す図であり、同図（ｂ）はガイダンスＧ３に設定された認識対象語彙（これら認識対象語彙にＷ１，Ｗ２，Ｗ３，Ｗ４を付す）としての「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」に対応する語彙テキストとその音節表記列（音素表記列でもよい）と、これら各認識対象語彙Ｗ１，Ｗ２，Ｗ３，Ｗ４の出力開始時刻および出力終了時刻とを対応付けて示す図である。この図２（ｂ）に示されている情報をここでは認識対象語彙情報と呼ぶ。なお、この図２（ａ）、（ｂ）では出力開始時刻はＳｔａｒｔ、出力終了時刻はＥｎｄとして示されている。
【００５８】
なお、図２（ａ）で示す各ガイダンスＧ１，Ｇ２，Ｇ３の出力開始時刻と出力終了時刻は、どのタイミングでその出力ガイダンスを出力するのかを決定するために用いられる時刻であり、図２（ｂ）で示す各認識対象語彙の出力開始時刻と出力終了時刻は、この場合、ガイダンスＧ３の出力開始時刻Ｔｇｓ３から出力終了時刻Ｔｇｅ３までの間（ガイダンスＧ３の有効時間という）のどの区間に対応するかを示す時刻である。これらの時刻情報については後に説明する具体的な動作例の中でも説明する。
【００５９】
対話制御部５では図２（ａ）に示すようなガイダンス情報と同図（ｂ）に示すような認識対象語彙情報を持ち、個々の認識対象語彙に対応する認識対象語彙情報は認識対象語彙制御部３に渡し、個々のガイダンスに対応するガイダンス情報はガイダンス内容生成部６に渡す。
【００６０】
ガイダンス内容生成部６は、対話制御部５からガイダンス情報が渡されると、音声出力部７で行われる音声合成処理に必要な形態素解析やアクセント付加処理などの前処理を行う。そして、音声出力部７では、ガイダンス内容生成部６での処理結果を基に、音声合成処理を行ったのちに、ガイダンスＧ１，Ｇ２，Ｇ３として、図３で示すように、「印刷種類を指定してください」、「次にあげる４つの種類の指定可能です」、「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」を時系列で順次出力する。
【００６１】
このように、システム側からはガイダンスＧ１として「印刷種類を指定してください」、ガイダンスＧ２として「次にあげる４つの種類の指定可能です」、ガイダンスＧ３として「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」が順次出力されるが、最初のガイダンスＧ１である「印刷種類を指定してください」は、その出力開始時刻がＴｇｓ１、その出力終了時刻がＴｇｅ１であり、２番目に出力されるガイダンスＧ２の「次にあげる４つの種類の指定可能です」は、その出力開始時刻がＴｇｓ２、その出力終了時刻がＴｇｅ２であり、３番目に出力されるガイダンスＧ３の「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」は、その出力開始時刻がＴｇｓ３、その出力終了時刻がＴｇｅ３である。
【００６２】
これらガイダンスＧ１，Ｇ２，Ｇ３のうち、ガイダンスＧ３の有効時間を詳細に示したタイムチャートを図４に示す。
【００６３】
ガイダンスＧ３の内容である「インデックス、１コマ印刷、全コマ印刷、アルバム印刷です」には、認識対象語彙Ｗ１として「インデックス」、認識対象語彙Ｗ２として「１コマ印刷」、認識対象語彙Ｗ３として「全コマ印刷」、認識対象語彙Ｗ４として「アルバム印刷」の４つの認識対象語彙が含まれており、これら認識対象語彙Ｗ１〜Ｗ４は、ガイダンスＧ３の有効時間内、つまり、ガイダンスＧ３の出力開始時刻Ｔｇｓ３から出力終了時刻Ｔｇｅ３までにおいて、図４に示すような区間が割り当てられている。
【００６４】
すなわち、図４に示すように、認識対象語彙Ｗ１の「インデックス」は、その出力開始時刻がＴｗｓ１でその出力終了時刻がＴｗｅ１、認識対象語彙Ｗ２の「１コマ印刷」は、その出力開始時刻がＴｗｓ２でその出力終了時刻がＴｗｅ２、認識対象語彙Ｗ３の「全コマ印刷」は、その出力開始時刻がＴｗｓ３でその出力終了時刻がＴｗｅ３、認識対象語彙Ｗ４の「アルバム印刷」は、その出力開始時刻がＴｗｓ４でその出力終了時刻がＴｗｅ４というような割り当てとなっている。
【００６５】
ここで、システム側からガイダンスＧ１，Ｇ２の出力が終わって、ガイダンスＧ３の出力の開始がなされ、そのガイダンスＧ３の出力の途中で、ユーザから印刷種類の設定を行うための音声コマンド入力がなされた場合を考える。これを図４により説明する。
【００６６】
なお、音声コマンド入力前の段階においては、すべての認識対象語彙Ｗ１，Ｗ２，Ｗ３，Ｗ４がその時点での認識に必要な語彙（これを有効認識対象語彙と呼んでいる）として設定され、これら有効認識対象語彙を認識候補として用いてユーザからの音声コマンドを音声認識する。すなわち、音声コマンド入力前の段階においては、ユーザからこれら認識対象語彙Ｗ１，Ｗ２，Ｗ３，Ｗ４のどれが入力されても認識可能となっている。
【００６７】
今、システム側から、ガイダンスＧ３の内容として、「インデックス」、「１コマ印刷」、・・・と出力している最中に、図４に示すように、時刻Ｔｕでユーザから「インデックスでお願い」というような印刷種類を設定するための音声コマンドが発話されたとする。この時刻Ｔｕはシステム側からの「全コマ印刷」の「印」の出力と「刷」の出力の間の時刻であるとする。
【００６８】
このように、ガイダンスＧ３の出力途中のあるタイミングでユーザが音声コマンドを発話すると、音声入力監視部２がどの時刻でユーザからの音声コマンド入力があったかを判定するとともに、ユーザからの音声コマンド入力があったことを音声出力部７と認識対象語彙制御部３に知らせる。音声出力部７は、音声入力監視部２から音声コマンド入力があったことの通知を受け取ると、この場合、以降のガイダンス出力を停止する。
【００６９】
この図４において、破線で示す部分がガイダンスの出力が停止された部分である。なお、ユーザの音声コマンド入力があった時刻Ｔｕと実際にガイダンスの出力が停止されるまでの間に時間遅れＴｄが生じるが、これは、主に音声コマンド入力があったことを判定するに必要な時間である。なお、以降での説明においても、ユーザの音声コマンド入力があった時刻Ｔｕと実際にガイダンスの出力が停止されるまでの間に同じ理由で時間遅れＴｄが生じるがこれについてはその都度の説明は行わないことにする。
【００７０】
このように、この例では、システム側からガイダンスＧ３として、「インデックス」、「１コマ印刷」、「全コマ・・・」と出力している最中に、時刻Ｔｕでユーザから印刷種類設定指示がなされたので、この場合、「全コマ印刷」の「ぜ・ん・こ・ま・い・ん・さ」までが出力された段階で出力が停止されることになる。
【００７１】
一方、音声入力監視部２からの判定結果（時刻Ｔｕでユーザからの音声コマンド入力があったことの判定結果）を受け取った認識対象語彙制御部３は、それぞれの認識対象語彙Ｗ１，Ｗ２，Ｗ３，Ｗ４が持つ時刻情報とユーザの音声コマンド入力時刻Ｔｕとの照合を行う。この時刻の照合は、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻に最も近い前後２つの時刻情報との照合を行う。
【００７２】
この例では、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻Ｔｕに最も近い前後２つの時刻情報は、「全コマ印刷」の出力開始時刻Ｔｗｓ３と出力終了時刻Ｔｗｅ３であるので、これらの時刻との照合を行うと、Ｔｗｓ３＜Ｔｕ＜Ｔｗｅ３であり、ユーザの音声コマンド入力は「全コマ印刷」の出力途中で行われたと判断される。
【００７３】
このように、印刷の種類として「インデックス」、「１コマ印刷」、「全コマ・・・」と出力している最中に、「全コマ・・・」の途中で、ユーザが印刷種類の設定を行うための音声コマンド入力を行ったことで、そのユーザの所望とする印刷種類は、「インデックス」、「１コマ印刷」、「全コマ印刷」のどれかであって、それ以降の印刷種類（この場合、「アルバム印刷」）は望んでいないと判断する。それによって、この場合、「全コマ印刷」までが有効認識対象語彙と判断され、そのあとの認識対象語彙（時刻Ｔｕ以降に出力される認識対象語彙）を有効認識対象語彙から外すような認識対象語彙制御を行う。
【００７４】
すなわち、認識対象語彙制御部３では、もともと認識対象語彙として「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」の４つを有効認識対象語彙として設定していたものを、時刻Ｔｕの段階で、有効認識対象語彙を「インデックス」、「１コマ印刷」、「全コマ印刷」の３つに更新し、その更新された「インデックス」、「１コマ印刷」、「全コマ印刷」を音声認識部４に渡す。
【００７５】
音声認識部４では、認識対象語彙制御部３から渡されたその時点での認識に必要な語彙（有効認識対象語彙）、すなわち、この場合、「インデックス」、「１コマ印刷」、「全コマ印刷」とユーザの音声コマンドとを照合して認識処理する。
【００７６】
この音声認識処理は、この場合、ユーザが「インデックスでお願い」と発話しているので、たとえば、キーワードスポッティングによる音声認識処理を行うことによって、「インデクックス」が認識され、適正に認識処理されれば、その認識結果を対話制御部５に渡す。そして、対話制御部５では、印刷種類設定の次のガイダンスとして、たとえば、用紙種類の設定を行うためのガイダンスの出力の準備を行う。
【００７７】
なお、音声認識の手法としては、キーワードスポッティングに限られるものでなく、たとえば、平易なネットワーク文法を用いた連続音声認識を行って、その結果を簡単なパターンマッチングで意味解析するような方式でもよく、音声認識の手法については特に限定されるものではない。また、音声認識処理を行う際は、音声出力部７からの音声信号をバージイン機能を用いて音声認識処理する。
【００７８】
以上、システム側からのガイダンスＧ３における「全コマ印刷」の出力途中でユーザが印刷設定指示を行った場合について説明したが、ユーザの音声コマンド入力タイミングが図５や図６の場合であっても同様に処理される。以下、図５と図６について簡単に説明する。
【００７９】
図５はユーザの「インデックスでお願い」という音声コマンド入力がシステム側からの「全コマ印刷」の出力終了直後になされた例であり、前述同様、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻（ここでもユーザの音声コマンド入力時刻をＴｕで表す）に最も近い前後２つの時刻情報との照合を行うと、この例では、ユーザの音声コマンド入力時刻Ｔｕは、認識対象語彙Ｗ３である「全コマ印刷」の出力終了時刻Ｔｗｅ３と「アルバム印刷」の出力開始時刻Ｔｗｓ４との間、つまり、Ｔｗｅ３＜Ｔｕ＜Ｔｗｓ４であるので、ユーザはシステム側から「アルバム印刷」と出力される直前に印刷設定指示を行ったと判断される。
【００８０】
このように、印刷の種類として「アルバム印刷」が出力される前にユーザが印刷種類の設定を行うための音声コマンド入力を行ったことで、そのユーザは「アルバム印刷」を望んでいないと判断することができ、それによって、この場合も図４の例と同様、「全コマ印刷」までが有効認識対象語彙と判断され、そのあとの「アルバム印刷」は有効認識対象語彙から外される。
【００８１】
また、この場合も前述同様、ユーザが音声コマンド入力を行った時刻Ｔｕ以降においてはシステム側からのガイダンスの出力は停止され、出力が停止される部分を破線で示している。
【００８２】
したがって、この場合も認識対象語彙制御部３では、その時点における有効認識対象語彙を「インデックス」、「１コマ印刷」、「全コマ印刷」の３つに更新し、その更新された「インデックス」、「１コマ印刷」、「全コマ印刷」の有効認識対象語彙を音声認識部４に渡し、以降、図４の例と同様の処理がなされる。
【００８３】
一方、図６の例は、ユーザの「インデックスでお願い」という音声コマンド入力がシステム側からの「アルバム印刷」の出力途中でなされた例であり、前述同様、各認識対象語彙の持つ時刻情報のうち、ユーザの音声コマンド入力時刻（ここでもユーザの音声コマンド入力時刻をＴｕで表す）に最も近い前後２つの時刻情報との照合を行うと、この例では、ユーザの音声コマンド入力時刻Ｔｕは、「アルバム印刷」の出力開始時刻Ｔｗｓ４と出力終了時刻Ｔｗｅ４との間、つまり、Ｔｗｓ４＜Ｔｕ＜Ｔｗｅ４であると判定され、ユーザの音声コマンド入力は、システム側からの「アルバム印刷です」の出力途中に行われたと判断される。
【００８４】
また、この場合も前述同様、ユーザが音声コマンド入力を行った時刻Ｔｕ以降においてはシステム側からのガイダンスの出力は停止され、出力が停止される部分を破線で示している。
【００８５】
この図６の例では、ユーザの印刷設定指示は「アルバム印刷」までが含まれる可能性があると判断されるので、「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」をそのまま有効認識識対象語彙とし、有効認識対象語彙の更新は行わない。
【００８６】
以上説明したように、この図４，図５、図６の例では、システム側からのガイダンス出力開始時点では、すべての認識対象語彙（この例では、「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」）すべてが有効認識対象語彙となっており、ユーザの発話タイミングによって認識対象語彙を制御している。たとえば、図４と図５の例では、「インデックス」、「１コマ印刷」、「全コマ印刷」を有効認識対象語彙とし、図６の例では「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」を有効認識対象語彙とするような制御を行っている。
【００８７】
このように、ユーザの音声コマンドの入力タイミングに応じて認識対象語彙を動的に制御することで、認識候補がその時点での認識に必要な語彙だけに絞られるので、場合によっては、認識候補が大幅に削減されることになり、高い認識性能を得ることができ、また、認識処理時間を短縮することもできる。
【００８８】
なお、上述の図４から図６のそれぞれの例は、ユーザはシステム側からのガイダンスＧ１である「印刷種類を指定してください」とガイダンスＧ２である「次に挙げる４つが指定可能です」といったガイダンスをすべて聞いたのちに、ガイダンスＧ３である「インデックス、１コマ印刷、全コマ印刷、・・・」を聞き、所望とする印刷種類が決まれば、その時点で印刷種類設定指示を行うようにする例であったが、その機器の使い方に慣れていて、どのような印刷種類があるかを知っているユーザであれば、ガイダンスＧ１やガイダンスＧ２の出力段階で印刷種類の指示を行うことも可能である。これについて図７を参照しながら簡単に説明する。
【００８９】
図７の例は、ガイダンスＧ１である「印刷種類を指定してください」の途中で、ユーザが「インデックスお願い」といった音声コマンド入力を行った例である。この場合もユーザの音声コマンド入力時刻をＴｕで表し、この時刻Ｔｕにおいてはシステム側からのガイダンスの出力は停止される。すなわち、この図７の例では、ガイダンスＧ１の途中までは、システム側から「印刷種類を指定・・・」といったガイダンスが出力されるが、ユーザの音声コマンド入力時刻Ｔｕ以降は、ガイダンスの出力は停止される。したがって、ガイダンスＧ２，Ｇ３はともに出力されない。
【００９０】
この図７の場合、時刻Ｔｕで入力されたユーザからの音声コマンド、すなわち、「インデックスでお願い」が音声認識部４で認識処理され、正しく認識されれば、対話制御部５では、印刷種類設定の次のガイダンスとして、たとえば、用紙種類の設定を行うためのガイダンスを出力するための準備を行う。
【００９１】
なお、以上のそれぞれの例では、ガイダンスＧ１の出力開始時点においては、印刷種類を設定するための認識対象語彙Ｗ１，Ｗ２，Ｗ３，Ｗ４である「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」は、それらすべてが認識可能な語彙（有効認識対象語彙）となっていて、たとえば、図４、図５、図６の例のように、ユーザがこれら認識対象語彙のうちのいずれかを音声コマンド入力として与えたときに、その音声コマンド入力のタイミングに応じて、その時点での認識に不必要な認識対象語彙を有効認識対象語彙から外すような処理を行っているが、それぞれの認識対象語彙の持つ有効時間（各認識対象語彙における出力開始時刻時間から出力終了時刻まで）が経過するごとに、その時点での認識に必要な語彙（有効認識対象語彙）を設定する制御を行うこともできる。これについて図８により説明する。
【００９２】
図８はガイダンスＧ３の有効時間を示すもので、これまでの説明と同様、印刷種類を設定するための認識対象語彙である「インデックス」、「１コマ印刷」、「全コマ印刷」、「アルバム印刷」は、これらそれぞれの認識対象語彙ごとに時刻情報を持っている。たとえば、「インデックス」の出力開始時刻は時刻Ｔｗｓ１でその出力終了時刻は時刻Ｔｗｅ１であり、「１コマ印刷」の出力開始時刻は時刻Ｔｗｓ２でその出力終了時刻は時刻Ｔｗｅ２である。
【００９３】
ここで、たとえば、ガイダンスＧ３の出力が開始され、時刻Ｔｗｓ１となると、「インデックス」のみが有効認識対象語彙となり、次の認識対象語彙である「１コマ印刷」の出力開始時刻Ｔｗｓ２までの間は、この「インデックス」のみが有効認識対象語彙となる。そして、時刻Ｔｗｓ２となると、「インデックス」に加えて「１コマ印刷」が有効認識対象語彙となり、次の「全コマ印刷」の出力開始時刻Ｔｗｓ３までの間は、これらの「インデックス」と「１コマ印刷」の２つの認識対象語彙が有効認識対象語彙能となる。
【００９４】
以下同様に、時刻Ｔｗｓ３となると、「インデックス」、「１コマ印刷」に加えて「全コマ印刷」の３つの認識対象語彙が有効認識対象語彙となり、次の「アルバム印刷」の出力開始時刻Ｔｗｓ４までの間は、これら「インデックス」、「１コマ印刷」、「全コマ印刷」が有効認識対象語彙となる。そして、時刻Ｔｗｓ４となると、「インデックス」、「１コマ印刷」、「全コマ印刷」に加えて「アルバム印刷」の４つの認識対象語彙が有効認識対象語彙となるというように、それぞれの認識対象語彙の出力とともに有効認識対象語彙を増やしてて行くような制御を行う。
【００９５】
このように、認識対象語彙の出力とともに有効認識対象語彙を増やして行くような制御を行うことで、音声コマンド入力時点での有効認識対象語彙をより一層効率よく絞り込むことができ、認識処理の高速化や認識率の向上をより一層図ることができる。
【００９６】
〔第２の実施の形態〕
この第２の実施の形態では、音声コマンドの入力時点におけるその音声コマンド内容とシステム側から出力されたガイダンス内容に基づいて認識対象語彙を制御する方法について説明する。ここでは、システム側からのガイダンスに基づいてユーザが印刷用紙の種類（以下では用紙種類という）の設定を行う例について説明する。
【００９７】
ユーザが用紙種類の設定を行う際にシステム側から出力されるガイダンスとしては、ここでは、ガイダンスＧ１として「用紙の種類はどうしますか」に続いて、ガイダンスＧ２として「ＰＭ写真紙ですか」、ガイダンスＧ３として「フォトプリントですか」、ガイダンスＧ４として「ＰＭマット紙ですか」、ガイダンスＧ５として「普通紙ですか」といった内容であるとする。
【００９８】
なお、これらのガイダンスＧ１，Ｇ２，・・・，Ｇ５の内容のうち、ガイダンスＧ２〜Ｇ５には、それぞれ認識対象語彙が設定されていて、ここでもその認識対象語彙は、それぞれのガイダンスに含まれる語彙とし、この場合、ガイダンスＧ２である「ＰＭ写真紙ですか」の認識対象語彙は「ＰＭ写真紙」、ガイダンスＧ３である「フォトプリントですか」の認識対象語彙は「フォトプリント」、ガイダンスＧ４である「ＰＭマット紙ですか」の認識対象語彙は「ＰＭマット紙」、ガイダンスＧ５である「普通紙ですか」の認識対象語彙は「普通紙」としている。
【００９９】
図９（ａ）はこの第２の実施の形態で用いられるガイダンス情報を示すもので、ガイダンスＧ１，Ｇ２，・・・，Ｇ５に対応するテキストと、これら各ガイダンスＧ１，Ｇ２，・・・，Ｇ５の出力開始時刻および出力終了時刻とを対応付けて示す図であり、同図（ｂ）はこの第２の実施の形態で用いられる認識対象語彙情報を示すもので、ガイダンスＧ２，Ｇ３，・・・，Ｇ５に対して設定された認識対象語彙Ｗ１，Ｗ２，・・・，Ｗ５に対応するテキスト（語彙テキスト）とその音節表記列（音素表記列でもよい）と、これら各認識対象語彙の出力開始時刻および出力終了時刻とを対応付けて示す図である。なお、この図９（ａ）、（ｂ）においても、出力開始時刻はＳｔａｒｔ、出力終了時刻はＥｎｄとして示されている。
【０１００】
また、この第２の実施の形態では、上述の認識対象語彙Ｗ１，Ｗ２，・・・，Ｗ５、すなわち、「ＰＭ写真紙」、「フォトプリント」、「ＰＭマット紙」、「普通紙」に加えて、ガイダンスＧ２，Ｇ３，・・・，Ｇ５に対する肯定語として、たとえば、「はい」や「それ」とガイダンスＧ２，Ｇ３，・・・，Ｇ５に対する否定語として、たとえば、「いいえ」をそれぞれ認識対象語彙とする。
【０１０１】
なお、これら「はい」、「いいえ」、「それ」は、先に述べた認識対象語彙である「ＰＭ写真紙」、「フォトプリント」、「ＰＭマット紙」、「普通紙」と区別するために特別認識対象語彙と呼び、「はい」を特別認識対象語彙Ｗ１１、「いいえ」を特別認識対象語彙Ｗ１２、「それ」を特別認識対象語彙Ｗ１３とする。また、肯定語としてはこの実施の形態では「はい」や「それ」を用いて説明するが、肯定を示すそのほかの語彙であってもシステム側ではそれを肯定として判断できるようにしておく。また、否定語も同様で、他の否定を表す語彙であってもよく、システム側ではそれを否定として判断できるようにしておく。
【０１０２】
図９（ｃ）は、特別認識対象語彙情報を示すもので、特別認識対象語彙Ｗ１１，Ｗ１２，Ｗ１３に対応するテキストとその音節表記列とを対応付けて示す図である。なお、これら、特別認識対象語彙Ｗ１１，Ｗ１２，Ｗ１３は、「ＰＭ写真紙」、「フォトプリント」、「ＰＭマット紙」、「普通紙」などの認識対象語彙の出力されている間、どの時刻においても有効であるので時刻情報は持たない。
【０１０３】
ここで、システム側からガイダンスＧ１として「用紙の種類はどうしますか」が出力されたあと、ガイダンスＧ２、Ｇ３，・・・が出力され、それに対してユーザから音声コマンド入力がなされた場合の具体例について図１０を参照しながら説明する。図１０はガイダンスＧ２以降のタイムチャートを示すものである。
【０１０４】
まず、システム側から出力されたガイダンスＧ２の「ＰＭ写真紙ですか」という問いに対し、その「ＰＭ写真ですか」の出力終了と同時にユーザが「いいえ」の音声コマンドを入力したとする。このユーザの発した音声コマンドは、音声入力監視部２で音声コマンドの入力があったとの判定がなされるとともに、音声認識部４に送られる。
【０１０５】
音声認識部４ではユーザの発話した「いいえ」を認識処理し、否定語が認識されたことを音声出力部７に通知するとともに対話制御部５に通知する。音声出力部７では、音声入力監視部２からユーザからの音声コマンド入力があったことの通知を受けるが、この場合、音声認識部４からの否定語が認識されたことの通知を受けるので、以降のガイダンス出力の停止は行わず、ガイダンスの出力状態は保持される。
【０１０６】
一方、対話制御部５では音声認識部４からの否定語を認識したとの通知を受けると、次のガイダンスの出力処理に取り掛かるとともに、認識対象語彙制御部３に対し音声認識部４が否定語を認識した旨を通知する。
【０１０７】
これによって、システム側からは次のガイダンスＧ３である「フォトプリントですか」を出力するとともに、認識対象語彙制御部３によって、「ＰＭ写真紙」を認識対象語彙から削除する。したがって、この時点での認識に必要な語彙、すなわち、有効認識対象語彙は「フォトプリント」、「ＰＭマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」である。
【０１０８】
そして、時刻Ｔｇｓ３において、システム側からガイダンスＧ３である「フォトプリントですか」が出力されるが、このとき、システム側からの「フォトプリントですか」の途中で、ユーザから再び「いいえ」の音声コマンドが入力されたとする。
【０１０９】
この場合は、「フォトプリントですか」の途中、つまり、この図１０の例では、「フォトプリントですか」の「で」においてユーザからの音声コマンドが入力されたので、「フォトプリントですか」の「すか」の部分の音声出力が停止される（停止された部分が破線で示されている）。なお、この音声出力の停止は、ユーザの発話開始時点から多少の時間遅れＴｄを有して行われることは前述したとおりである。
【０１１０】
この場合も、音声認識部４では、ユーザの「いいえ」が否定語であると認識されるので、否定語が認識されたことを音声出力部７に通知するとともに対話制御部４にも通知する。このとき、音声出力部７は、音声入力監視部２からユーザからの音声コマンド入力があったことの通知を受けているが、この場合、音声認識部４からの否定語が認識されたことの通知を受けるので、以降のガイダンスの出力停止は行わず、ガイダンスの出力状態は保持される。
【０１１１】
一方、対話制御部５では音声認識部４からの否定語を認識したとの通知を受けると、次のガイダンスの出力処理に取り掛かるとともに、認識対象語彙制御部３に対し音声認識部４が否定語を認識した旨を通知する。これによって、システム側からは次のガイダンスＧ４である「ＰＭマット紙ですか」を出力するとともに、認識対象語彙制御部３によって、「フォトプリント」を認識対象語彙から外す。
【０１１２】
したがって、この時点での認識に必要な語彙、すなわち、有効認識対象語彙は、「ＰＭマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」である。
【０１１３】
続けて、時刻Ｔｇｓ４において、システム側からガイダンスＧ４として「ＰＭマット紙ですか」が出力されるが、このシステム側からの問いに対し、あらかじめ定めた一定時間内にユーザから応答がないとする。このような場合は、システム側からは時刻Ｔｇｓ５において、次のガイダンスＧ５として「普通紙ですか」が出力される。
【０１１４】
なお、システム側からの問いに対し、あらかじめ定めた一定時間内にユーザから応答がない場合あるいは認識対象語彙以外の語彙（たとえば、「えーと」などが発話された場合、システム側からの問いに対してユーザは肯定も否定もしない（思案中など）として、現時点における有効認識対象語彙の更新は行わない。したがって、時刻Ｔｇｓ５の時点での有効認識対象語彙は「ＰＭマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」のままである。
【０１１５】
そして、システム側から出力された「普通紙ですか」の途中で、ユーザが「それ」という音声コマンドを入力したとする。この例では、システム側からの「普通紙ですか」の「普通紙」までを出力し終わって、「で」の直前でユーザが「それ」という音声コマンドを入力した場合であるので、ユーザが音声コマンド入力した時点以降のシステムからの出力、つまり、「普通紙ですか」の「ですか」を出力停止するとともに、ユーザの音声コマンド入力である「それ」に対する音声認識処理を行う。
【０１１６】
この音声認識の結果、肯定語であると判定されると、有効認識対象語彙の削除や変更を行わず、この場合、それまでの有効認識対象語彙である「ＰＭマット紙」、「普通紙」と特別認識対象語彙である「はい」、「いいえ」、「それ」をそのまま有効認識対象語彙とする。
【０１１７】
このように、肯定語であるとの認識がなされると、システム側では、ユーザがその肯定語（この場合「それ」）を発話した時刻に最も近い出力開始時刻または出力終了時刻を持つガイダンスを指定したと判断する。
【０１１８】
ここで、ユーザの発話開始（音声コマンド入力）時刻をＴｕとすれば、この時刻Ｔｕにもっとも近い出力開始時刻または出力終了時刻を持つガイダンス（時刻Ｔｕ以前に出力済みのガイダンス）は、ガイダンスＧ５の「普通紙ですか」であり、このガイダンスＧ５に対して設定された認識対象語彙、つまり、ガイダンスＧ５の出力開始時刻Ｔｇｓ５から出力終了時刻Ｔｇｅ５までの間の時間内で有効となっている認識対象語彙は、Ｔｇｓ５＜Ｔｗｓ４＜Ｔｗｅ４＜Ｔｇｅ５から「普通紙」であると判定され、この場合、ユーザの「それ」という発話に対して「普通紙」が認識結果として出力されることになる。
【０１１９】
なお、ここではユーザの発話した肯定語としては「それ」としたが、ユーザが「はい」と発話した場合も、システム側の音声認識部４ではそれを肯定語と判断し、上述同様、「普通紙」を認識結果として出力する。さらに、システム側からの「普通紙ですか」の問いに対しユーザが「普通紙」と答えた場合も、そのユーザの発話した「普通紙」が音声認識され、肯定語を発話した場合と同様の処理がなされる。
【０１２０】
上述した図１０の例では、用紙種類の設定を行うために、システム側から時系列で出力される幾つかのガイダンス（ガイダンスＧ２，Ｇ２，・・・，Ｇ５）に対して、ユーザが否定語を発話すると、その否定語の音声コマンド入力時刻Ｔｕに最も近い出力開始時刻または出力終了時刻を持つガイダンスに対して設定された認識対象語彙（当該ガイダンスの有効時間内で有効となっている認識対象語彙）を有効認識対象語彙から外し、次のガイダンスの出力を行う。
【０１２１】
また、ガイダンスに対してユーザがシステム側で認識可能な語彙以外の語彙の発話（たとえば「えーと」など）をしたり無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、次のガイダンスを出力する。
【０１２２】
また、システム側から出力されるガイダンスに対してユーザが肯定語を発話すると、その肯定語の音声コマンド入力時刻Ｔｕに最も近い出力開始時刻または出力終了時刻を持つガイダンスに対して設定された認識対象語彙（当該ガイダンスの有効時間内で有効となっている認識対象語彙）を認識対象語彙を認識結果として出力する。
【０１２３】
以上のようにこの第２の実施の形態では、ユーザの音声コマンドの入力時点におけるその音声コマンド内容とシステム側から出力されたガイダンス内容に基づいて認識対象語彙を制御している。
【０１２４】
以上で本発明の第１の実施の形態と第２の実施の形態についての説明を終了する。ところで、この第２の実施の形態で用いた用紙種類の設定を、前述の第１の実施の形態による認識対象語彙制御を行う例について説明する。すなわち、第１の実施の形態は、ユーザからの音声コマンドの入力があったとき、音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とするというような制御を行うものであり、この制御を用紙種類の設定に適用した場合について図１１を参照しながら説明する。
【０１２５】
図１１は第１の実施の形態で説明した図１から図８のうちのたとえば図４に対応する図であり、ユーザからの音声コマンド入力開始前の段階では、システム側からのガイダンスの出力時間（この図１１ではガイダンスＧ２の出力開始時刻Ｔｇｓ２からガイダンスＧ５の出力終了時刻Ｔｇｅ５までの間）において、「ＰＭ写真紙」、「フォトプリント」、「ＰＭマット紙」、「普通紙」を有効認識対象語彙としている。
【０１２６】
そして、ユーザが時刻Ｔｕにて「フォトプリント」と発話したとすると、この時刻Ｔｕまでのガイダンス、すなわち、「ＰＭ写真紙」、「フォトプリント」、「ＰＭマット紙」までを有効認識対象語彙とし、「普通紙」を有効認識対象語彙から外す。なお、このように、ユーザが時刻Ｔｕで音声コマンド入力した場合には、それ以降のガイダンスの出力を停止することは前述の通りである。この図１１の例では、システム側から「ＰＭマット」と出力された時点でユーザが音声コマンド入力した例であるので、「ＰＭマット」よりもあとのガイダンス出力は停止される。
【０１２７】
また、図１２は第１の実施の形態で説明した時間の経過とともに有効認識対象語彙が増えて行く例である。
【０１２８】
この場合、時刻Ｔｇｓ２にてガイダンスＧ２である「ＰＭ写真紙ですか」が出力開始されると、次のガイダンスＧ３である「フォトプリントですか」の出力開始時刻Ｔｇｓ３までの間は、「ＰＭ写真紙」のみが有効認識対象語彙となり、その間にユーザからの音声コマンド入力がなければ、ガイダンスＧ３である「フォトプリントですか」が時刻Ｔｇｓ３で出力開始され、今度は、次のガイダンスＧ４である「ＰＭマット紙ですか」の出力開始時刻Ｔｇｓ４までの間は、「ＰＭ写真紙」と「フォトプリント」が有効認識対象語彙となる。
【０１２９】
そして、その間にユーザからの音声コマンド入力がなければ、ガイダンスＧ５である「普通紙ですか」が時刻Ｔｇｓ５で出力開始されるが、この図１２の例では、システム側から「ＰＭマット紙」の「ＰＭマット」までが出力された時点（時刻Ｔｕ）で、ユーザが「フォトプリント」と発話した例であるので、Ｔｇｓ４＜Ｔｕ＜Ｔｇｅ４の関係から、「ＰＭ写真紙」「フォトプリント」、「ＰＭマット紙」が有効認識対象語彙となる。
【０１３０】
この図１２の例において、ユーザが第２の実施の形態で用いた特別認識対象語彙（「はい」、「いいえ」、「それ」など）を併用して印刷用紙設定を行う例について図１３により説明する。
【０１３１】
まず、システム側から出力された「ＰＭ写真紙ですか」というガイダンスＧ２の途中の時刻Ｔｕ１でユーザが「いいえ」を発話したとする。この段階における有効認識対象語彙は「ＰＭ写真紙」のみであるが、次のガイダンスＧ３の出力開始時刻Ｔｇｓ３までにユーザから「いいえ」の否定語が出力されたので、「ＰＭ写真紙」を有効認識対象語彙から削除するとともに、システム側では、次のガイダンスＧ３である「フォトプリントですか」の出力を行うとともに、「フォトプリント」を有効認識対象語彙とする。ちなみに、時刻Ｔｇｓ３までにユーザから「いいえ」の否定語が出力されなければ、「フォトプリントですか」が出力された時点における有効認識対象語彙は「ＰＭ写真紙」と「フォトプリント」の２つとなる。
【０１３２】
このガイダンスＧ３の「フォトプリントですか」に対してはユーザからは応答がないとすると、システム側からガイダンスＧ４として「ＰＭマット紙」が出力され、その途中の時刻Ｔｕ２（「ＰＭマット紙」の「ＰＭマット」まで出力された時点）で、ユーザから「フォトプリント」と発話されたとする。システム側ではユーザの発話した「フォトプリント」が否定語でないと判断し、時刻Ｔｕ２以降の出力を停止する。
【０１３３】
そして、この時刻Ｔｕ２にもっとも近い出力開始時刻または出力終了時刻を持つガイダンスに対して設定された認識対象語彙、すなわち、この場合、「ＰＭマット紙ですか」の出力開始時刻Ｔｇｓ４から出力終了時刻Ｔｇｅ４の間で有効となっている認識対象語彙（「ＰＭマット紙」）を有効認識対象語彙に加える。したがって、この時刻Ｔｕ２においては、「フォトプリント」と「ＰＭマット紙」の２つが有効認識対象語彙となり、これらの有効認識対象語彙を用いてユーザの発話した「フォトプリント」に対して認識処理する。
【０１３４】
図１４は図１３の変形例であり、ガイダンスＧ２、Ｇ３、Ｇ４、Ｇ５の内容やこれらガイダンスＧ２、Ｇ３、Ｇ４、Ｇ５のそれぞれの出力開始時刻と出力終了時刻などは図１３と同じである。この図１４について簡単に説明する。
【０１３５】
まず、システムからの「ＰＭ写真紙ですか」という出力に対してはユーザが応答せず、次の「フォトプリントですか」という出力に対し、その途中の時刻Ｔｕ１でユーザが「いいえ」と発話したとする。したがって、「ＰＭ写真紙ですか」の出力開始時刻Ｔｇｓ２から「フォトプリントですか」の出力開始時刻Ｔｇｓ３までの間における有効認識対象語彙は「ＰＭ写真紙」であり、「フォトプリントですか」の出力開始時刻Ｔｇｓ３から「ＰＭマット紙ですか」の出力開始時刻Ｔｇｓ４までの間における有効認識対象語彙も「いいえ」の否定語が入力されたことによって「ＰＭ写真紙」のみとなる。なお、この「いいえ」の出力があるとシステム側からのガイダンスの出力が停止された状態で、「いいえ」を認識処理して、この場合、否定であると判定されるので、その次のガイダンスの出力は停止されないことは前述したとおりである。
【０１３６】
そして、次のガイダンスＧ４である「ＰＭマット紙ですか」が出力され、その途中の時刻Ｔｕ２にてユーザが「ＰＭ写真紙」と発話したとする。システム側ではユーザの発話した「ＰＭ写真紙」が否定語でないと判断し、時刻Ｔｕ２以降の出力を停止する。そして、この時刻Ｔｕ２にもっとも近い出力開始時刻または出力終了時刻を持つガイダンス（この場合「ＰＭマット紙ですか」の有効時間内で有効となっている認識対象語彙（「ＰＭマット紙」）を有効認識対象語彙に加える。したがって、この時刻Ｔｕ２においては、「ＰＭ写真紙」と「ＰＭマット紙」の２つが有効認識対象語彙となり、これらの有効認識対象語彙を用いてユーザの発話した「ＰＭ写真紙」に対して認識処理する。
【０１３７】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、上述の各実施の形態では、プリンタにおける印刷種類や印刷用紙の設定を行う例について説明したが、これらは一例にすぎず、本発明はこれに限られるものではなく、ユーザからの音声コマンドを対話形式で入力する音声対話インタフェースを有するシステムに広く適用することができる。
【０１３８】
また、前述の各実施の形態では、それぞれのガイダンスに対して設定された認識対象語彙は、個々のガイダンスに含まれる語彙としたが、これに限られるものではなく、類似した語彙や意味が同じである語彙などを用いることもできる。
【０１３９】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフレキシブルディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【０１４０】
【発明の効果】
以上説明したように本発明によれば、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うようにしているので、認識候補としての認識対象語彙をユーザの音声コマンド入力時点での認識に必要な語彙だけに絞り込むことができる。これによって、場合によっては、認識候補が大幅に削減されることになり、高い認識性能を得ることができるとともに、認識処理に要する時間を短縮することもできる。さらに、本発明では、ガイダンスの出力の途中でユーザの音声コマンド入力の割り込みを可能としているので、システム側からのガイダンスを聞き終わるのを待つ必要がなくなり、効率的な音声コマンド入力が可能となり、対話の自然性も得られる。
【図面の簡単な説明】
【図１】本発明の音声対話制御装置の実施の形態（第１および第２の実施の形態）を説明する構成図である。
【図２】第１の実施の形態で用いられるガイダンス情報と認識対象語彙情報の一例を示す図である。
【図３】第１の実施の形態におけるガイダンスＧ１，Ｇ２，Ｇ３の出力状況を説明するタイムチャートである。
【図４】第３のガイダンスＧ３の出力途中のあるタイミング（「全コマ印刷」の出力途中）でユーザの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図５】第３のガイダンスＧ３の出力途中のあるタイミング（「全コマ印刷」と「アルバム印刷」の間）でユーザの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図６】第３のガイダンスＧ３の出力途中のあるタイミング（「アルバム印刷」の出力途中）でユーザの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図７】ガイダンスＧ３が出力される前の段階でユーザからの音声コマンドが入力された場合の動作を説明するタイムチャートである。
【図８】第１の実施の形態において、ガイダンスＧ３に含まれる各ガイダンスが出力されるごとに有効認識対象語彙を増やして行く例を説明するタイムチャートである。
【図９】第２の実施の形態で用いられるガイダンス情報と認識対象語彙情報と特別認識対象語彙情報の一例を説明する図であり、（ａ）は各ガイダンスＧ１，Ｇ２，Ｇ３，Ｇ４，Ｇ５に対応するガイダンス情報例を示す図、（ｂ）はガイダンスＧ１〜Ｇ５に含まれる認識対象語彙に対応する認識対象語彙情報例、（ｃ）は特別認識対象語彙に対応する特別認識対象語彙情報例を示す図である。
【図１０】第２の実施の形態における認識対象語彙制御動作を説明するタイムチャートであり、ガイダンスＧ２〜Ｇ５の出力途中でユーザの音声コマンド（肯定語または否定）が入力された場合の動作を説明するタイムチャートである。
【図１１】第２の実施の形態で用いたガイダンスＧ２，Ｇ３，Ｇ４，Ｇ５に対し、第１の実施の形態の説明に用いた図４と同様の認識対象語彙制御を行った例を説明するタイムチャートである。
【図１２】第２の実施の形態で用いたガイダンスＧ２，Ｇ３，Ｇ４，Ｇ５に対し、第１の実施の形態の説明に用いた図８と同様の認識対象語彙制御を行った例を説明するタイムチャートである。
【図１３】図１２で説明した動作において図１０で説明した動作を併用した場合の認識対象語彙制御を行った例を説明するタイムチャートである。
【図１４】図１３の変形例を説明するタイムチャートである。
【符号の説明図】
１…音声入力部
２…音声入力監視部
３…認識対象語彙制御部
４…音声認識部
５…対話制御部
６…ガイダンス内容生成部
７…音声出力部
ＧＩ，Ｇ２，Ｇ３，・・・…ガイダンス
Ｗ１，Ｗ２，Ｗ３，・・・…認識対象語彙
Ｔｇｓ１，Ｔｇｓ２，Ｔｇｓ３，・・・…ガイダンスの出力開始時刻
Ｔｇｅ１，Ｔｇｅ２，Ｔｇｅ３，・・・…ガイダンスの出力終了時刻
Ｔｗｓ１，Ｔｗｓ２，Ｔｗｓ３，・・・…認識対象語彙の出力開始時刻
Ｔｗｅ１，Ｔｗｅ２，Ｔｗｅ３，・・・…認識対象語彙の出力終了時刻
Ｔｕ，Ｔｕ１，Ｔｕ２…音声コマンド入力時刻

Claims

個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御方法であって、ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定し、この有効認識対象語彙を用いて前記音声コマンドの認識を行うことを特徴とする音声対話制御方法。
前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、
前記音声コマンド入力前の段階においては、前記すべての認識対象語彙が有効認識対象語彙として設定されており、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とすることを特徴とする請求項１記載の音声対話制御方法。
前記ユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、
前記それぞれのガイダンスが出力されるごとにそのガイダンスごとに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うことを特徴とする請求項１記載の音声対話制御方法。
前記ユーザからの音声コマンド入力のタイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する処理は、
あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定することを特徴とする請求項１記載の音声対話制御方法。
前記あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答であることを特徴とする請求４記載の音声対話制御方法。
前記ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果とすることを特徴とする請求項５記載の音声対話制御方法。
前記それぞれのガイダンスに設定された認識対象語彙は、個々のガイダンスに含まれる語彙であることを特徴とする請求項１から６のいずれかに記載の音声対話制御方法。
個々のガイダンスごとに認識対象語彙が設定されていて、時系列で出力されるガイダンスの出力中またはそのガイダンスの出力前の段階でユーザからの音声コマンドを取得すると、その音声コマンドを前記認識対象語彙を用いて認識し、その認識結果に基づいた動作をなす音声対話制御装置において、音声入力手段に入力された音声コマンドの入力タイミングを監視する音声入力監視手段と、
個々のガイダンスに対応したガイダンス情報とその個々のガイダンスに設定された認識対象語彙に対応した認識対象語彙情報を持ち、ユーザとの対話の進行に応じたガイダンス情報と認識語彙情報を出力する対話制御手段と、
この対話制御手段からの認識語彙情報を受け取り、前記音声入力監視部で監視されたユーザからの音声コマンドの入力タイミングに応じて、その時点での認識に必要な認識対象語彙を有効認識対象語彙として設定する認識対象語彙制御手段と、
この認識対象語彙制御手段で設定された有効認識対象語彙を用いてユーザの音声コマンドに対する認識結果を出力する音声認識手段と、
前記対話制御部からのガイダンス情報を受け取って音声合成に必要なガイダンス内容を生成するガイダンス内容生成手段と、
このガイダンス内容生成部からのガイダンス内容を音声合成処理して出力する音声出力手段と、
を有することを特徴とする音声対話制御装置。
前記認識対象語彙制御手段は、前記音声コマンドが入力される前の段階においては、すべての認識対象語彙を有効認識対象語彙として設定し、前記音声コマンドの入力タイミングにおいて既に出力の終了または出力途中のガイダンスが存在する場合には、その出力の終了したガイダンスまたは出力途中のガイダンスまでの個々のガイダンスに設定された認識対象語彙を有効認識対象語彙とすることを特徴とする請求項８記載の音声対話制御装置。
前記認識対象語彙制御手段は、前記それぞれのガイダンスが出力されるごとにそのガイダンスに設定された認識対象語彙を有効認識対象語彙として蓄積して行き、それをユーザからの音声コマンドが入力されるまで行うことを特徴とする請求項８記載の音声対話制御装置。
前記認識対象語彙制御手段は、あるガイダンスに対するユーザの反応によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定することを特徴とする請求項８記載の音声対話制御装置。
前記あるガイダンスに対するユーザの発話内容によって当該ガイダンスに設定された認識対象語彙を有効認識対象語彙とするか否かを決定する際の前記ユーザの反応とは、当該ガイダンスを肯定しかつシステム側で認識可能な語彙の発話、当該ガイダンスを否定しかつシステム側で認識可能な語彙の発話、これら認識可能な語彙以外の語彙の発話または無応答であることを特徴とする請求項１１記載の音声対話制御装置。
前記ガイダンスに対するユーザの反応が否定語の発話である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙から外して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
前記ガイダンスに対するユーザの反応が前記システム側で認識可能な語彙以外の語彙の発話または無応答である場合は、そのガイダンスに設定された認識対象語彙を有効認識対象語彙として保持して、以降に出力すべきガイダンスがあればそのガイダンスを出力し、
前記システム側からのガイダンスに対するユーザの音声コマンドが肯定語の発話である場合は、その肯定語の入力タイミングが個々のガイダンスに設定された有効時間のどの有効時間に入っているかを判断し、出力済みのガイダンスの中でその肯定語の入力タイミングに最も時間的に近いガイダンスに設定された認識対象語彙を認識結果とすることを特徴とする請求項１２記載の音声対話制御装置。
前記ガイダンスに設定された認識対象語彙は、前記個々のガイダンスの内容に含まれる語彙であることを特徴とする請求項８から１３のいずれかに記載の音声対話制御装置。