JP2004029457A

JP2004029457A - 音声対話装置、および音声対話プログラム

Info

Publication number: JP2004029457A
Application number: JP2002186650A
Authority: JP
Inventors: Noriyoshi Ichise; 市瀬　規善; Atsushi Noguchi; 野口　淳
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-06-26
Filing date: 2002-06-26
Publication date: 2004-01-29

Abstract

【課題】表示用言語によって作成された処理用データにもとづいて音声対話処理を行うことができるようにする。
【解決手段】音声対話処理において、音声対話処理部は、表示用言語で作成されている処理用データを読み出し、「ｆｏｒｍ」タグのあとに記載されている文字に従って、“会員番号を入力して下さい”と発声する処理を実行する。次いで、「ｉｎｐｕｔ」タグに従って、ユーザからの音声入力の待ち状態となる。音声データの入力があると、音声認識部は、音声認識処理を実行して文字データを取得する。音声対話処理部は、「ｍｅｍｂｅｒｓ＿ｎｕｍｂｅｒ」に、音声認識部１２から受信した文字データを保持する。このように、表示用言語で作成された処理用データにもとづいて音声対話処理が実行される。よって、広く利用されている表示用言語を用いて音声対話処理を行う処理用データを作成することができるようになる。
【選択図】　図３

Description

【０００１】
【発明の属する技術分野】
本発明は、文字などを画面表示させるために用いられる表示用データの作成に使用される表示用言語で作成された処理用データにもとづいて音声対話処理を実行する音声対話装置、および処理用データにもとづく音声対話処理をコンピュータに実行させるためのプログラムに関する。
【０００２】
【従来の技術】
従来から、顧客との間で音声対話を行うことによって各種のサービスを行う音声対話装置が活用されている。音声対話装置では、音声対話処理用言語で作成された音声対話処理用データにもとづいて、音声を発声する処理や音声を入力する処理が行われる。
【０００３】
この音声対話装置には、例えば、音声対話に加えて画面表示を行うための処理を実行するものがある。このような音声対話装置では、表示用言語で作成された文字などを画面表示させるための表示用データを用いて画面表示処理が実行されるとともに、表示用データに対応して作成された音声対話処理用データを用いて、画面表示されている内容に関連した音声を発生する音声対話処理が実行される。
【０００４】
また、音声対話装置には、音声入力することが想定される音声から文字データを抽出するための辞書データを備えているものがある。このような音声対話装置では、音声対話処理用データにもとづく音声対話処理の実行中に、音声入力に応じて辞書データを読み出し、読み出した辞書データを用いて入力した音声を音声認識する処理が行われている。
【０００５】
【発明が解決しようとする課題】
表示用データの作成に用いられる表示用言語は広く利用されているのに対し、音声対話処理用データの作成に用いられる音声対話処理用言語はあまり広く利用されていない。このため、表示用データの作成などの表示用言語を取り扱うことができる技術者が多数存在しているのに対して、音声対話処理用データの作成などの音声対話処理用言語を取り扱うことができる技術者は限られている。よって、今後、様々な分野で音声対話によって処理を進めていくようなシステムが望まれるようになっても、音声対話処理を実現する多種多様な音声対話処理用データを作成することができる技術者が不足し、様々なニーズに対応した音声対話処理用データを提供することができなくなる可能性があるという問題があった。
【０００６】
なお、近年、表示用言語であるＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）で作成された表示用データに記述されている文字を音声で読み上げ、音声入力によって情報入力や情報選択などを行わせるようにしているシステムが用いられるようになってきているが、音声に関する処理を実現するためのデータとして、音声対話処理用言語によって作成されたものでなく、表示用言語で作成された表示処理用データが用いられているため、必要十分な処理を実行するためのタグやコマンドが定義されていない。よって、音声対話処理において必要十分な処理を実行することができず、音声対話処理を円滑に行うことができないという問題がある。
【０００７】
また、ＨＴＭＬで作成された表示用データにもとづく表示処理と、音声対話処理用言語である例えばｖｏｉｃｅＸＭＬ（ｅＸｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）によって作成された音声対話処理用データにもとづく音声対話処理とを連動させて、表示用データにもとづいて表示されている表示画面に音声対話処理の結果を反映させるシステムが用いられている。しかし、上記のシステムでは、音声対話処理用データにもとづいて音声対話処理を行うことに変わりないので、音声対話処理を実現するためには音声対話処理用言語によって作成された音声対話処理用データが必要とされる。このため、音声対話処理用言語を取り扱うことができる技術者が必要となり、上記の問題は解消されていない。
【０００８】
また、音声対話処理用言語で作成された音声対話処理用データにもとづく音声入力処理は、音声の入力を行うだけである。このため、音声が入力したときに、音声の入力処理だけでなく、音声認識が正しくなされているかを確認するための処理を行うようにする場合には、音声入力処理を行う音声対話処理用データを作成する際に、音声の入力処理を行うためのデータを作成するだけでなく正しく音声認識がなされているかを確認する処理を実行するためのデータを作成する必要がある。このように、音声対話処理を実行するためのデータを作成する処理負担が大きいという問題があった。
【０００９】
さらに、音声対話処理用言語では、入力することが想定される音声を音声認識するための辞書データを作成するためのデータを作成することができない。このため、音声認識処理を行うことができるようにするためには、音声認識処理を実行するための音声対話処理用データを作成するのみならず、音声認識処理で用いられる辞書データをあらかじめ作成しておく必要があるという問題があった。
【００１０】
本発明は上述した問題を解消し、表示用言語によって作成された処理用データにもとづいて音声対話処理を円滑に行うことができるようにすることを目的とする。
【００１１】
【課題を解決するための手段】
上記の問題を解決するために、本発明の音声対話装置は、音（例えばＤＴＭＦ信号にもとづく音）もしくは音声（例えば人間が発声する音）を発する処理を行う音声出力処理部（例えば音声対話処理部１１）と、入力した音もしくは音声を取得する処理を行う音声入力処理部（例えば音声対話処理部１１）とを含み、処理を記述した処理用データ（例えば図２に示すデータ）にもとづいて、音もしくは音声による情報の入出力を実行する音声対話処理（例えば図３に示す処理）を行うことを特徴とする。なお、処理用データは、音声対話処理用言語で作成されていなくてもよく、少なくとも音もしくは音声の入出力に関する処理を実行させるための音声対話処理用データとして用いられるものであればよい。
【００１２】
上記の構成としたことで、処理を記述した処理用データにもとづいて、音声対話処理を行うことができるようになる。
【００１３】
音声入力処理部が、入力した音もしくは音声に対応する文字データを取得する音声認識処理部（例えば音声認識部１２）を含む構成とされていてもよい。
【００１４】
上記の構成としたことで、音声認識処理において入力した音もしくは音声を示す文字データを取得することができる。
【００１５】
音声認識処理部が、入力した音声を認識し、認識結果に応じて音声に対応する文字データを取得する構成とされていてもよい。
【００１６】
上記の構成としたことで、音声認識処理において入力した音声を示す文字データを取得することができる。
【００１７】
音声認識処理部が、入力した音をＤＴＭＦ（Ｄｕａｌ　Ｔｏｎｅ　Ｍｕｌｔｉ　Ｆｒｅｑｕｅｎｃｙ）信号とし、対応するキーに対応する文字データを取得する構成とされていてもよい。
【００１８】
上記の構成としたことで、音声認識処理において入力した音を示す文字データを取得することができる。
【００１９】
音声入力処理部が、音声認識処理部によって取得された文字データを、処理用データによって特定される保存領域に保存する（例えば、ステップＳ１０５）ように構成されていてもよい。
【００２０】
上記の構成としたことで、処理が記述された処理用データにもとづいて、音声対話処理における音声入力処理を行うことができるようになる。
【００２１】
処理用データに従って画面表示を行う表示装置（例えば、表示部１４、ユーザが使用する端末装置に設けられている表示装置）に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部（例えば、音声・表示連携部１５）を備えた構成とされていてもよい。
【００２２】
上記の構成としたことで、音声対話処理にて音声入力された情報（例えば会員番号を示す情報）を、表示画面の表示情報に反映させることができる。
【００２３】
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データが示す選択結果にもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた構成とされていてもよい。
【００２４】
上記の構成としたことで、音声対話処理によって音声入力された選択結果（例えばカテゴリを示す情報）を、表示画面の表示情報に反映させることができる。
【００２５】
処理用データが音声処理用言語で記述されていてもよい。この場合、音声処理用言語には、ｖｏｉｃｅＸＭＬが用いられる。
【００２６】
上記の構成としたことで、表示処理用言語に近い音声処理用言語で記述された処理用データにもとづいて、音声対話処理を行うことができる。よって、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。
【００２７】
処理用データは、表示される情報や表示形式、入力の促進（画面表示の内容や形式によってユーザに入力を依頼したり、入力が円滑にできるようにしたりすることを意味する）を指定するために用いられる表示用言語で記述されているように構成されていることが好ましい。
【００２８】
上記の構成としたことで、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。この場合、処理用データは、少なくとも音もしくは音声の入出力に関する処理を実行させるための音声対話処理用データとして用いられる。具体的は、処理用データは、表示用言語によって作成されてはいるが、表示処理用のデータとして用いられるとは限らず、音声対話処理を行うために用いられる。すなわち、プログラム構成上は表示処理用であるが、表示処理用として用いるかどうかは任意であり、少なくとも音声対話処理用として使用される音声対話処理用データである。
【００２９】
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語（例えば、音声対話処理用言語）が付加された言語によって記述されているように構成されていてもよい。
【００３０】
上記の構成としたことで、表示用言語だけでは設定することができない処理を指定して音声対話処理を実行させることができる。従って、表示用言語では定義されていないような処理を付属言語によって補うことができ、音声対話処理において必要十分な処理を実行することができるため、音声対話処理を円滑に行うことができるようになる。
【００３１】
付属言語が表示用言語に付加された言語で記述された処理用データが、表示用言語で記述された表示処理用データに従って画面表示を行う表示処理手段（例えば表示部１４が備えるブラウザ）によって、表示処理用データとして処理されるように構成されていてもよい。
【００３２】
上記の構成としたことで、処理用データが付属言語が表示用言語に付加された言語で記述されていても、表示処理用データとして正しく処理することができる。具体的には、例えば、表示処理手段が、付属言語で記述されているデータを無視し、表示用言語で記述されているデータにもとづいてのみ処理を実行するようにする。
【００３３】
付属情報が、音声入力処理部が使用する辞書情報（例えば「ｇｒａｍｍａｒ」属性によって指定される音声認識に用いられる辞書データを示す情報）、音声入力処理部もしくは音声出力処理部が使用するデータの読み情報（例えば「ｏｐｔｉｏｎ」タグなどの「ｐｒｏｍｐｔ」属性を用いて指定される情報であって、音声対話処理にて音声出力する音声の「読み方」を示す情報）、音声出力処理部が発するガイダンス（例えば「ｉｎｐｕｔ」タグの「ｐｒｏｍｐｔ」属性を用いて指定される情報であって、例えば入力依頼を行うためのガイダンスを示す情報）、音声出力処理部が音声を発する際に用いる音声情報を格納した出力音声格納ファイル（例えば「ｏｐｔｉｏｎ」タグの「ａｕｄｉｏ」属性を用いて指定される情報であって、音声対話処理にて音声出力する音声の音声データが格納されたファイルを示す情報）、音声入力処理部が使用する入力待ち時間指定情報（例えば、「ｔｉｍｅｏｕｔ」属性によって指定されるユーザからの音声入力の待機時間を指定する情報）のうち、少なくとも１つを含むように構成されていてもよい。
【００３４】
上記にように構成したことで、表示用言語では定義されていない様々な音声対話に関する処理を付属言語にもとづいて実行することができるようになる。従って、音声対話処理において必要十分な処理を実行することができ、音声対話処理を円滑に行うことができる。
【００３５】
表示用言語として、ＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、ＸＨＴＭＬの何れかが用いられることが好ましい。
【００３６】
上記の構成としたことで、広く用いられているＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、ＸＨＴＭＬの何れかを用いて、音声対話処理を実行させるための処理用データを作成することができる。
【００３７】
付属情報は、表示用言語として用いられるＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、またはＸＨＴＭＬの何れかの属性値として記述されていることが好ましい。
【００３８】
上記の構成としたことで、広く用いられているＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、ＸＨＴＭＬの何れかの属性値を用いて、処理用データにおける付属情報を作成することができる。
【００３９】
処理用データは、入力依頼を示す記述がなされている部分（例えば、「ｆｏｒｍ」タグのあとの「会員番号を入力して下さい。」と記述されている部分）を含み、入力依頼を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづく音もしくは音声（例えば、「〜でよろしいですか？」）を発し、得られた文字データが正しいか否かを確認する入力確認処理（例えばステップＳ３０３）を実行し、入力確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定（例えばステップＳ３０５）する判定部（例えば音声対話処理部１１）を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存する（例えば図１０に示すステップＳ２０２）ように構成されていてもよい。
【００４０】
上記の構成としたことで、入力依頼を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【００４１】
処理用データに含まれている入力依頼を示す記述に従って、音声入力処理部が取得する音声が入力される前（例えば、ステップＳ１０３の入力待ちとなる前）に、音声出力処理部が入力依頼を示す音声（例えば、ステップＳ１０２での「会員番号を入力して下さい。」なる音声）を発するように構成されていてもよい。
【００４２】
上記の構成としたことで、入力依頼を行ったあとに音声の入力を待つことができるようになる。
【００４３】
処理用データは、選択依頼および複数の選択候補を示す記述がなされている部分（例えば、選択依頼は、「ｓｅｌｅｃｔ」タグを用いて記述されている部分。また、選択候補は、「ｏｐｔｉｏｎ」属性を用いて記述されている部分）を含み、選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データ（例えばステップＳ３０７にて抽出される文字データ）にもとづく音もしくは音声を発し、得られた文字データが正しいか否かを確認する選択確認処理（例えばステップＳ３０８）を実行し、選択確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定（例えばステップＳ３１０）する判定部（例えば音声対話処理部１１）を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存する（例えば図１１に示すステップＳ１１０）構成とされていてもよい。
【００４４】
上記の構成としたことで、選択依頼および複数の選択候補を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【００４５】
処理用データに含まれている選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が取得する音声が入力される前（例えば、ステップＳ１０７の入力待ちとなる前）に、音声出力処理部が選択依頼を示す音声を発する（例えば、ステップＳ１０６）ように構成されていてもよい。
【００４６】
上記の構成としたことで、選択依頼を行ったあとに音声の入力を待つことができるようになる。
【００４７】
音声出力処理部は、選択依頼を示す音声を発する際に、選択候補を示す音声を発する（ステップＳ３０６）ように構成されていてもよい。
【００４８】
上記の構成としたことで、選択候補の通知を行ったあとに音声の入力を待つことができるようになる。
【００４９】
処理用データは、表示用言語によって選択依頼および複数の選択候補を示す記述がなされている部分（例えば、選択依頼は、「ｓｅｌｅｃｔ」タグを用いて記述されている部分。また、選択候補は、「ｏｐｔｉｏｎ」属性を用いて記述されている部分）を含み、複数の選択候補をそれぞれ示す文字データと、音もしくは音声とを対応させた辞書を作成する辞書作成部（例えば辞書データ作成部１６）を備え、音声出力処理部は、選択依頼を示す音声もしくは音を発する処理（例えば、図１１のステップＳ１０６、ステップＳ３０６）を実行し、音声入力処理部は、音声出力処理部による選択依頼に応じて発せられた音もしくは音声が入力した場合（例えば、図１１のステップＳ１０７の入力待ち状態であるときに入力があった場合）に、辞書作成部によって作成された辞書を用いて、当該入力した音もしくは音声に対応する文字データを取得する（例えば、ステップＳ３０７）構成とされていてもよい。
【００５０】
上記の構成としたことで、複数の選択候補を示す文字データと音声とが対応付けされている辞書データをあらかじめ用意しておく必要をなくすことができる。
【００５１】
発した音もしくは音声を通信ネットワークに接続された端末装置（例えばユーザが使用する携帯電話端末装置、固定電話端末装置）に向けて出力し、発せられた音もしくは音声を当該端末装置および通信ネットワークを介して入力することで、音声対話処理を実行するように構成されていてもよい。なお、言うまでもないが、アナログ通信であるかディジタル通信であるかを問わず、通信ネットワークによって実際に伝送されるのは、音声そのものではなく、音声を示す音声データである。
【００５２】
上記の構成としたことで、遠隔地のユーザとの間で音声対話処理を行うことができるようになる。
【００５３】
また、本発明の音声対話プログラムは、音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、コンピュータに、処理を記述した処理用データにもとづいて音もしくは音声を発する処理と、処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させることを特徴とする。なお、例えば、処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されているデータとされる。また、例えば、処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているデータとされる。
【００５４】
上記の構成としたことで、音声対話処理にて音声を発生する処理を行うための音声対話プログラムを表示用言語を用いて作成することができる、多くの技術者が音声対話プログラムを作成することができるようになる。
【００５５】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。なお、以下の説明において、「音声」というときには、音声そのものだけでなく、音声を示す音声データをも差している場合がある。
図１は、本発明の第１の実施の形態における音声対話装置の構成例を示すブロック図である。音声対話装置１０は、音声対話処理部１１と、音声認識部１２とを含む。また、音声対話装置１０は、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース１３を備えている。
【００５６】
音声対話処理部１１は、処理用データ管理データベース１３に格納されている処理用データにもとづいて、音声合成して音声を発生する処理などの音声対話を行うための各種の処理を実行する。
【００５７】
音声認識部１２は、音声入力があった場合に、入力した音声に対応する文字データを探索して抽出する音声認識処理を実行し、その認識結果を音声対話処理部１１に送信する処理を実行する。音声認識部１２は、この例では、音声入力が想定される音声を示す音声データと、その音声が示す文字を特定するための文字データとが関連付けされた音声認識用の辞書データが格納された図示しないデータベースを有している。
【００５８】
処理用データ管理データベース１３に格納されている処理用データは、例えばＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）などの表示装置に文字や画像などを表示させるための表示用言語によって作成される。この例では、表示用言語として、ＨＴＭＬが用いられるものとする。
【００５９】
図２は、処理用データの内容の例を示すデータ説明図である。処理用データは、図２に示すように、ＨＴＭＬによって作成されている。すなわち、ＨＴＭＬによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。
【００６０】
この例では、発生する音声を指定する場合に、本来はフォーム（ブラウザ上でのアンケートやコメントの収集のために用いられる書き込み可能なセクション）をブラウザに表示させるために用いられる「ｆｏｒｍ」タグを利用している。具体的には、図２に示すように、＜ｆｏｒｍ＞〜＜／ｆｏｒｍ＞の間に、発生する音声を示す文字を指定する。
【００６１】
また、この例では、音声入力待ちや音声入力があったときの処理を指定する場合に、本来はフォーム内に入力領域を表示したり入力された文字情報を表示するためなどに用いられる「ｉｎｐｕｔ」タグや、本来はフォーム内に選択領域を表示したり選択された選択結果情報を表示するためなどに用いられる「ｓｅｌｅｃｔ」タグを利用している。
【００６２】
次に、本例の音声対話装置１０による音声対話処理について説明する。図３は、音声対話処理の例を示すフローチャートである。ここでは、ユーザＹと音声対話を行う場合の処理について説明する。なお、ユーザＹは、音声対話装置１０が提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、例えば、ユーザＹによって処理の開始を要求する何らかのアクション（例えばボタン操作）があったときや、ユーザＹが音声対話装置１０の前に立ったことを人感センサが感知したときに開始する。
【００６３】
音声対話処理において、音声対話装置１０の音声対話処理部１１は、先ず、処理用データ管理データベース１３から音声対話処理に用いる所定の処理用データを読み出す（ステップＳ１０１）。ここでは、図２に示した処理用データを読み出したものとする。
【００６４】
処理用データを読み出すと、音声対話処理部１１は、「ｆｏｒｍ」タグのあとに記載されている文字に従って、図示しないスピーカから　“会員番号を入力して下さい”と発声する処理を実行する（ステップＳ１０２）。この例では、音声対話処理部１１は、「ｆｏｒｍ」タグにて指定されている文字に従って音声出力する機能を有している。次いで、音声対話処理部１１は、その次に記載されている「ｉｎｐｕｔ」タグに従って、ユーザＹからの音声入力の待ち状態となる（ステップＳ１０３）。
【００６５】
ユーザＹは、音声対話装置１０が備えるスピーカから“会員番号を入力して下さい”という音声が発せられたことに応じて、音声対話装置１０が備える図示しないマイクロフォンに向けて自己の会員番号を発声する。発声された音声は、音声データとして音声対話装置１０に入力される。
【００６６】
なお、ここで「ｉｎｐｕｔ」タグの前に発せられるべき文字列が存在しない場合、もしくは明示的に「ｉｎｐｕｔ」タグに対応する入力を促すための文字列が指定されていない場合には、例えば“入力して下さい”などのように、「ｉｎｐｕｔ」タグに対応して入力を促すような音声を発するようにすることもできる。
【００６７】
音声入力の待ち状態であるときに音声データの入力があると、音声認識部１２は、入力した音声データにもとづく音声認識処理を実行し、音声データが示す音声に対応する文字を示す文字データを抽出して音声対話処理部１１に送信する（ステップＳ１０４）。
【００６８】
音声対話処理部１１は、受信した文字データを、処理用データにて「ｉｎｐｕｔ」タグの属性として記載されている「ｎａｍｅ」に示されている“ｍｅｍｂｅｒｓ＿ｎｕｍｂｅｒ”を示すデータであるとして処理する。すなわち、音声対話処理部１１は、会員番号を示すデータを保存する保存領域として予め設けられている「ｍｅｍｂｅｒｓ＿ｎｕｍｂｅｒ」に、音声認識部１２から受信した文字データを保持する（ステップＳ１０５）。
【００６９】
会員番号を示すデータを取得すると、音声対話処理部１１は、「ｆｏｒｍ」タグ内で次に記載されている文字に従って、スピーカから“カテゴリを入力して下さい”と発声する処理を実行する（ステップＳ１０６）。次いで、音声対話処理部１１は、その次に記載されている「ｓｅｌｅｃｔ」タグに従って、ユーザＹからの音声入力の待ち状態となる（ステップＳ１０７）。
【００７０】
ユーザＹは、音声対話装置１０のスピーカから“カテゴリを入力して下さい”なる音声が発せられたことに応じて、音声対話装置１０に設けられているマイクロフォンに向けて自己のカテゴリを発声する。発声された音声は、音声データとして音声対話装置１０に入力される。
【００７１】
なお、ここで「ｓｅｌｅｃｔ」タグの前に発せられるべき文字列が存在しない場合、もしくは明示的に「ｓｅｌｅｃｔ」タグに対応する入力を促すための文字列が指定されていない場合には、例えば“入力して下さい”などのように、「ｓｅｌｅｃｔ」タグに対応して入力を促すような音声を発するようにすることもできる。
【００７２】
音声入力の待ち状態であるときに音声データの入力があると、音声認識部１２は、入力した音声データにもとづく音声認識処理を実行し、音声データが示す音声に対応する文字を示す文字データを抽出して音声対話処理部１１に送信する（ステップＳ１０８）。
【００７３】
音声対話処理部１１は、受信した文字データが、「ｓｅｌｅｃｔ」〜「／ｓｅｌｅｃｔ」の間に記載されている各「ｏｐｔｉｏｎ」タグに示されている選択肢の中の何れを示すデータであるかを判定し（ステップＳ１０９）、判定された結果を「ｓｅｌｅｃｔ」タグの属性として記載されている「ｎａｍｅ」に示されている“カテゴリ”を示すデータであるとして処理する。すなわち、カテゴリを示すデータを保存する保存領域として予め設けられている「カテゴリ」に、音声認識部１２によって抽出された選択肢の何れかを示す文字データを保存する（ステップＳ１１０）。具体的には、ユーザＹが「個人」と発声した場合には、音声認識部１２によって入力した音声が「法人」、「個人」、「その他」の何れであるかが判定され、「個人」を示す文字データが抽出される。その後、音声対話処理部１１によって、「個人」を示す文字データが保存領域「カテゴリ」に保存される。
【００７４】
この例では、「その他」の選択肢において「ｒｅｃｏｇｎｉｚｅ＝”そのほか”」というデータが設定されているので、ステップＳ１０９にて、入力した音声が「その他」であるか否かの確認が優先的に実行される。すなわち、「ｒｅｃｏｇｎｉｚｅ」属性によって音声認識時に認識すべき文字列が指定されている場合には、指定された文字列を用いた確認処理を優先的に行う。また、同様にして、「ｐｒｏｎｏｕｎｃｅ＝”そのほか”」と設定されている場合には、発声時に”そのほか”と発声し、また、「ｖｏｉｃｅｆｉｌｅ＝”ｓｏｎｏｔａ．ｗａｖ”」と設定されている場合には、発声時に指定されたファイル”ｓｏｎｏｔａ．ｗａｖ”を音声ファイルとして再生するようにすることもできる。
【００７５】
そして、音声対話装置１０は、受信した会員番号とカテゴリにもとづいてユーザ認証を行ったあと、ユーザＹを認証した場合には、他の処理用データを用いて例えばチケットの予約や販売などのための音声対話による各種の処理を実行する。
【００７６】
上述したように、属性情報を示す付属言語（例えば「ｒｅｃｏｇｎｉｚｅ」属性などの属性によって記述する言語）が表示用言語に加えられた処理用言語によって作成された処理用データにもとづいて、音声を用いた音声対話処理を実行する構成としたので、音声対話処理を行うための音声処理用言語を用いて処理用データを作成する必要がなくなる。従って、表示用言語によるプログラムの作成方法を習得するだけで、音声対話処理を行うためのプログラムの作成方法も同時に習得したことになる。表示用言語を用いてプログラムを作成することができる技術者は、音声処理用言語を用いてプログラムを作成することができる技術者に比べて多く存在しているため、音声対話処理を実行するためのプログラムを多くの技術者が作成することができるようになる。よって、音声対話処理を実現する多種多様な処理用データを作成することができる技術者を増加させ、様々なニーズに対応した音声対話処理を行うための処理用データを提供することができるようになる。また、付属言語を含む処理用言語によって処理用データが作成されているので、表示用言語だけでは実現できない処理を含めて音声対話処理を行うことができるようになる。具体的には、音声対話処理を円滑に行うために利用されている音声対話処理用言語のタグ（コマンドであってもよい）に対応するタグが表示用言語で定義されていない場合に、タグによる指令の属性や要素を示す属性情報を付属言語によって定義し、その属性情報を用いて音声対話処理を行うようにしているので、必要十分な処理内容の音声対話処理を実現することができ、音声対話処理を円滑に行うことができるようになる。
【００７７】
なお、上述した第１の実施の形態では、音声対話装置１０の設置場所までユーザが出向いて音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置１０にアクセスし、音声対話装置１０との間で音声対話を行うようにしてもよい。この場合、音声対話装置１０は、通信ネットワークに接続され、通信ネットワークを介して、音声対話によって端末装置に対して各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置にＷＷＷ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）サーバとしての機能を備えるようにすればよい。
【００７８】
次に、本発明の第２の実施の形態について図面を参照して説明する。なお、上述した第１の実施の形態と同一に構成され同一の処理を実行する部分については、同一の符号を付与してその詳細な説明は省略する。
図４は、本発明の第２の実施の形態における音声対話装置１０ａの構成例を示すブロック図である。音声対話装置１０ａは、音声対話処理部１１と、音声認識部１２と、表示部１４と、音声・表示連携部１５とを含む。また、音声対話装置１０ａは、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース１３を備えている。
【００７９】
表示部１４は、例えばＬＣＤなどの表示装置によって構成される。音声・表示連携部１５は、音声認識部１２による音声認識処理によって取得された文字データにもとづいて、表示部１４に対して画面表示されているフォーム内の表示入力を指示する処理など、表示処理と音声対話処理とを連携させる処理を行う機能を有する。
【００８０】
図５は、この例で用いられる処理用データの内容の例を示すデータ説明図である。処理用データは、図５に示すように、ＨＴＭＬによって作成されている。すなわち、ＨＴＭＬによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。図５に示す処理用データは、図２に示した処理用データとほぼ同一であるが、会員番号を保存する保存領域に「ｍｅｍｂｅｒｓ＿ｎｕｍ」が指定されている点と、音声対話処理だけでなく表示処理をも実行することが指示されている点（ｍｍｘｍｌ：ｐｒｏｃｅｓｓ＝”ｔｒｕｅ”が記載されている点）で異なっている。従って、表示部１４は、この例では、「ｍｍｘｍｌ：ｐｒｏｃｅｓｓ＝”ｔｒｕｅ”」なる属性が記述されている場合に処理用データにもとづく表示処理を実行し、記述されていなければ（図２参照）処理用データを取得しても表示処理を実行しない。なお、「ｍｍｘｍｌ：ｐｒｏｃｅｓｓ＝”ｔｒｕｅ”」なる属性が記述されているか否かにかかわらず、音声対話処理部１１などによる音声対話処理は実行される。
【００８１】
次に、本例の音声対話装置１０ａによる音声対話処理について説明する。図６は、音声対話処理の例を示すフローチャートである。ここでは、ユーザＹと音声対話を行う場合の処理について説明する。なお、ユーザＹは、音声対話装置１０ａが提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、ユーザＹによって処理の開始を要求する何らかのアクションがあったときや、ユーザＹが音声対話装置１０ａの前に立ったことを人感センサが感知したときに開始する。
【００８２】
音声対話処理において、音声対話装置１０ａは、先ず、処理用データ管理データベース１３から音声対話処理に用いる所定の処理用データを読み出す（ステップＳ１０１）。ここでは、音声対話処理部１１と、表示部１４とが、それぞれ図５に示した処理用データを読み出したものとする。
【００８３】
処理用データを読み出すと、表示部１４は、処理用データにもとづいて表示画面にフォームを表示する。具体的には、図７（Ａ）に示すように、ブラウザ上に、「ｆｏｒｍ」タグ内に記載されている「会員番号」および「カテゴリ」の文字の表示や、会員番号の入力領域、カテゴリの選択結果入力領域などが表示される。なお、図５で例示した処理用データには示されていないが、処理用データには、会員番号の入力領域のサイズを指定するデータが設定されているものとする。
【００８４】
また、音声対話処理部１１は、読み出した処理用データにもとづいて、上述したステップＳ１０２〜ステップＳ１０４と同様にして音声対話処理を実行したあと、音声認識部１２から受信した文字データを、処理用データにて「ｉｎｐｕｔ」タグの属性として記載されている「ｎａｍｅ」に示されている“ｍｅｍｂｅｒｓ＿ｎｕｍ”を示すデータであるとして処理する。すなわち、会員番号を示すデータを保存する保存領域として予め設けられている「ｍｅｍｂｅｒｓ＿ｎｕｍ」に、音声認識部１２が抽出した文字データを保存する（ステップＳ２０２）。また、音声対話処理部１１は、音声認識部１２から受信した文字データを音声・表示連携部１５に送信する。音声・表示連携部１５は、表示部１４に受信した文字データを送信するとともに、表示部１４に対して、受信した文字データを表示部１４が取得している処理用データにおける「ｍｅｍｂｅｒｓ＿ｎｕｍ」として保存するように指示する。すると、表示部１４は、音声・表示連携部１５から受けた文字データを「ｍｅｍｂｅｒｓ＿ｎｕｍ」として保存し、図７（Ｂ）に示すように、受信した文字データにもとづいてユーザＹが発声した会員番号を示す情報を会員番号の入力領域に表示する処理を行う（ステップＳ２０３）。なお、ここでは、ユーザＹが自己の会員番号として「０１２３４」と発声したものとする。
【００８５】
次いで、音声対話処理部１１は、上述したステップＳ１０６〜ステップＳ１１０と同様にして音声対話処理を実行する。なお、この例においても、「その他」の選択肢において「ｒｅｃｏｇｎｉｚｅ＝”そのほか”」というデータが設定されているので、ステップＳ１０９にて、入力した音声が「その他」であるか否かの確認が優先的に実行される。すなわち、「ｒｅｃｏｇｎｉｚｅ」属性によって音声認識時に認識すべき文字列が指定されている場合には、指定された文字列を用いた確認処理を優先的に行う。また、同様にして、「ｐｒｏｎｏｕｎｃｅ＝”そのほか”」と設定されている場合には、発声時に”そのほか”と発声し、また、「ｖｏｉｃｅｆｉｌｅ＝”ｓｏｎｏｔａ．ｗａｖ”」と設定されている場合には、発声時に指定されたファイル”ｓｏｎｏｔａ．ｗａｖ”を音声ファイルとして再生するようにすることもできる。
【００８６】
そして、ステップＳ１０９で選択されたカテゴリを示す文字データを音声・表示連携部１５に送信する。音声・表示連携部１５は、表示部１４に受信した文字データを送信するとともに、表示部１４に対して、受信した文字データを表示部１４が取得している処理用データにおける「カテゴリ」として保存するように指示する。すると、表示部１４は、音声・表示連携部１５から受けた文字データを「カテゴリ」として保存し、図７（Ｃ）に示すように、受信した文字データにもとづいてユーザＹが発声したカテゴリを示す情報をカテゴリの選択結果入力領域に選択結果として表示する処理を行う（ステップＳ２０４）。なお、ここでは、ユーザＹが自己のカテゴリとして「個人」と発声したものとする。
【００８７】
上記のように音声・表示連携部１５を設ける構成としたことで、ユーザＹが発声した音声の内容が表示部１４の画面表示に反映されるようにすることができる。従って、ユーザＹは、自己が発声した音声を音声対話装置１０ａが正確に認識しているかを、表示部１４の表示画面を見ることで確認することができる。
【００８８】
そして、音声対話装置１０ａは、入力された会員番号とカテゴリにもとづいてユーザ認証を行ったあと、ユーザＹを認証した場合には、他の処理用データを用いて例えばチケットの予約や販売などのための各種の処理を実行する。
【００８９】
上述したように、音声・表示連携部１５が、音声対話処理によってユーザから得た音声情報にもとづいて、表示部１４に表示指示を行う構成としたので、音声対話処理にて入力された音声の内容を表示画面に容易に反映させることができる。すなわち、音声対話装置１０ａは、入力した音声の認識結果を表示画面に表示することができる。従って、ユーザは、自己が発声した音声が正確に認識されているかどうかを確認することができる。また、表示用データと音声認識処理用データとを兼用する処理用データを使用しているので、１つの処理用データを用いて、音声対話処理と画面表示処理とを行うことができる。
【００９０】
なお、上述した第２の実施の形態では、音声対話装置１０ａの設置場所までユーザが出向いて音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置１０ａにアクセスし、音声対話装置１０ａと音声対話を行うようにしてもよい。この場合、音声対話装置１０ａは、通信ネットワークに接続され、通信ネットワークを介して端末装置に対して音声対話によって各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置はＷＷＷサーバとしての機能を有するようにすればよい。なお、上記の構成とする場合には、表示部１４を、ユーザ側の端末装置に設けるようにすればよい。
【００９１】
また、上述した第２の実施の形態では、処理用データ内の“会員番号を入力してください”、“カテゴリを入力してください”は、表示も発声も行われることとなるが、これを音声処理用の属性情報として「ｐｒｏｍｐｔ」タグの要素もしくは「ｉｎｐｕｔ」タグおよび「ｓｅｌｅｃｔ」タグのｐｒｏｍｐｔ属性値として記述した場合には、これらはそれぞれ「ｉｎｐｕｔ」タグおよび「ｓｅｌｅｃｔ」タグの入力依頼として発声されるが、表示は行われないようにすることができる。すなわち、この例では、処理用データにもとづく画面表示を行う場合には、表示制御を行うブラウザは、正しく表示制御を行うために、処理用データ中の付属言語によって記述されているデータを無視して処理を行う。従って、属性情報として入力依頼を行うようにすれば、表示が行われないようにすることができる。
【００９２】
次に、本発明の第３の実施の形態について図面を参照して説明する。なお、上述した第１および第２の実施の形態と同一に構成され同一の処理を実行する部分については、同一の符号を付与してその詳細な説明は省略する。
図８は、本発明の第３の実施の形態における音声対話装置１０ｂの構成例を示すブロック図である。音声対話装置１０ｂは、音声対話処理部１１と、音声認識部１２と、辞書データ作成部１６と、辞書データ管理部１７とを含む。また、音声対話装置１０ｂは、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース１３を備えている。
【００９３】
辞書データ作成部１６は、処理用データにおける「ｓｅｌｅｃｔ」タグにもとづく音声入力待ち状態であるときの音声入力による音声認識処理で用いる辞書データを、その「ｓｅｌｅｃｔ」タグにて指定されている選択情報にもとづいて作成する機能を有している。辞書データとは、音声データが示す音声に対応する文字データを探索するために用いられるデータであって、音声データと対応する文字データとが関連付けされているデータを意味する。
【００９４】
辞書データ管理部１７は、例えばＲＡＭなどの記憶媒体を含む構成とされ、辞書データ作成部１６によって作成された辞書データや、予め作成されている辞書データを保存して管理する機能を有する。
【００９５】
図９は、この例で用いられる処理用データの内容の例を示すデータ説明図である。処理用データは、図９に示すように、ＨＴＭＬによって作成されている。すなわち、ＨＴＭＬによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。図９に示す処理用データは、図２に示した処理用データとほぼ同一であるが、会員番号を保存する保存領域に「ｍｅｍｂｅｒｓ＿ｎｕｍ」が指定されている点と、「ｉｎｐｕｔ」タグにもとづく音声認識処理が行われる際の認識対象を示す情報もしくは認識処理用の辞書を示す情報（ｍｍｘｍｌ：ｇｒａｍｍａｒ＝”ｄｉｇｉｔｓ”）が付加されている点で異なっている。また、同じく、属性「ｔｉｍｅｏｕｔ」を用いて、入力待ち時間を指定する情報（例えば、１０秒であれば、ｔｉｍｅｏｕｔ＝”１０”）を付加するようにすることもできる。
【００９６】
次に、本例の音声対話装置１０ｂによる音声対話処理について説明する。図１０および図１１は、音声対話処理の例を示すフローチャートである。ここでは、ユーザＹと音声対話を行う場合の処理について説明する。なお、ユーザＹは、音声対話装置１０ｂが提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、ユーザＹによって処理の開始を要求する何らかのアクションがあったときや、ユーザＹが音声対話装置１０ｂの前に立ったことを人感センサが感知したときに開始する。
【００９７】
音声対話装置１０ｂは、音声対話処理において、先ず、処理用データ管理データベース１３から音声対話処理に用いる所定の処理用データを読み出す（ステップＳ１０１）。ここでは、音声対話処理部１１および辞書データ作成部１６が、それぞれ図９に示した処理用データを読み出したものとする。
【００９８】
処理用データを読み出すと、音声対話処理部１１は、処理用データにもとづいて、上述したステップＳ１０２〜ステップＳ１０３と同様の処理を実行する。そして、音声入力があった場合には、音声対話処理部１１は、「ｉｎｐｕｔ」タグにて指定されている辞書データを辞書データ管理部１７から読み出し、読み出した辞書データと入力した音声データを音声認識部１２に送信する（ステップＳ３０１）。なお、この例では、「ｍｍｘｍｌ：ｇｒａｍｍａｒ＝”ｄｉｇｉｔｓ”」（認識対象が会員番号であることから、認識対象となる音声が数字であることを指定している。）なる付加情報にもとづいて、数字を音声認識するための辞書データが読み出される。
【００９９】
音声認識部１２は、受信した辞書データを用いて、受信した音声データに対応する文字データを抽出する音声認識処理を実行し、抽出した文字データを音声対話処理部１１に送信する（ステップＳ３０２）。
【０１００】
次いで、音声対話処理部１１は、ユーザＹに対して音声認識結果の確認要求を行うために、音声認識部１２から受信した文字データにもとづいて音声を発生する処理を行う（ステップＳ３０３）。例えば音声認識部１２から受信した文字データが「０１２３４」であれば、「０１２３４でよろしいですか？」と発声する。このように、本例では、音声対話処理部１１は、音声認識部１２による音声認識結果にもとづいて音声を発生する処理を実行する。音声認識部１２による音声認識結果にもとづく音声を発生すると、音声対話処理部１１は、ユーザＹによる回答を示す音声の入力待ち状態となる（ステップＳ３０４）。
【０１０１】
ユーザＹは、「０１２３４でよろしいですか？」と発声されたことに応じて、音声認識結果が正しければその旨を示す音声（例えば「はい」、「Ｙｅｓ」など）を発声し、音声認識結果が誤っていればその旨を示す音声（例えば「いいえ」、「Ｎｏ」など）を発声する。
【０１０２】
ユーザＹからの音声入力があると、音声対話処理部１１は、入力した音声を音声認識部１２によって音声認識した結果にもとづいて結果判定を行い（ステップＳ３０５）、「はい」や「ＹＥＳ」などの回答が得られた場合には、音声認識結果が正しかったもの判定し、音声認識部１２から受信した文字データを、処理用データにて「ｉｎｐｕｔ」タグの属性として記載されている「ｎａｍｅ」に示されている“ｍｅｍｂｅｒｓ＿ｎｕｍ”を示すデータであるとして処理する。すなわち、会員番号を示すデータを保存する保存領域として予め設けられている「ｍｅｍｂｅｒｓ＿ｎｕｍ」に、受信した文字データを保持する（ステップＳ２０２）。一方、「いいえ」「ＮＯ」などの回答が得られた場合には、音声認識結果が誤っていたものと判定し、ステップＳ１０２以降の処理を再度実行する。なお、「いいえ」「ＮＯ」などの回答が所定回数連続して得られたような場合には、エラー報知をしたあと、音声対話処理を終了するようにしてもよい。
【０１０３】
会員番号を示すデータを保存すると、音声対話処理部１１は、上述したステップＳ１０６と同様にして「カテゴリを入力して下さい」と発声したあと、この例では、「ｓｅｌｅｃｔ」タグに従って、「選択肢は、法人、個人、その他です。」と発声する処理を実行し（ステップＳ３０６）、その後にユーザＹからの音声入力の待ち状態となる（ステップＳ１０７）。すなわち、この例では、音声対話処理部１１が、「ｓｅｌｅｃｔ」タグに従って入力待ち状態となる前に、「ｓｅｌｅｃｔ」タグにて指定されている各選択肢を読み上げる処理を実行する。
【０１０４】
ユーザＹは、音声対話装置１０ｂのスピーカから「カテゴリを入力して下さい」なる音声が発せられ、「選択肢は、法人、個人、その他です」なる音声が発せられたことに応じて、音声対話装置１０に設けられているマイクロフォンに向けて自己のカテゴリを発声する。発声された音声は、音声データとして音声対話装置１０ｂに入力される。
【０１０５】
音声入力の待ち状態であるときに音声データの入力があると、音声認識部１２は、処理用データにもとづいて辞書データ作成部１６によって作成されている辞書データを用いて、入力した音声データについて音声認識処理を実行し、音声データが示す音声に対応する文字を示す文字データを選択して音声対話処理部１１に送信する（ステップＳ３０７）。この例では、辞書データ作成部１６は、音声対話処理が開始すると、ステップＳ１０１にて読み出した処理用データの「ｏｐｔｉｏｎ」タグに示されている各選択肢について、選択肢にあげられている文字データと音声データとを関連付けした辞書データを作成する処理を実行する。この例では、辞書作成部１６は、「ｏｐｔｉｏｎ」タグに示されている「法人」、「個人」、「その他」を示す音声データを生成し、それぞれの文字データに対応付けした辞書データを作成する。この辞書データの作成の際には、例えば、すべての平仮名についてそれぞれ音声データが対応付けされている基本辞書データが用いられる。
【０１０６】
次いで、音声対話処理部１１は、ユーザＹに対して音声認識結果の確認要求を行うために、音声認識部１２から受信した文字データにもとづいて音声を発生する処理を行う（ステップＳ３０８）。例えば音声認識部１２から受信した文字データが「個人」であれば、「個人でよろしいですか？」と発声する。このように、本例では、音声対話処理部１１は、音声認識部１２による音声認識結果にもとづいて音声を発生する処理を実行する。音声認識部１２による音声認識結果にもとづく音声を発生すると、音声対話処理部１１は、ユーザＹによる回答を示す音声の入力待ち状態となる（ステップＳ３０９）。
【０１０７】
ユーザＹは、「個人でよろしいですか？」と発声されたことに応じて、音声認識結果が正しければその旨を示す音声（例えば「はい」、「Ｙｅｓ」など）を発声し、音声認識結果が誤っていればその旨を示す音声（例えば「いいえ」、「Ｎｏ」など）を発声する。
【０１０８】
ユーザＹからの音声入力があると、入力した音声を音声認識部１２によって音声認識した結果にもとづいて結果判定を行い（ステップＳ３１０）、「はい」や「ＹＥＳ」などの回答が得られた場合には、音声認識結果が正しかったものとして、音声認識部１２から受信した文字データを、処理用データにて「ｓｅｌｅｃｔ」タグの属性として記載されている「ｎａｍｅ」に示されている“カテゴリ”として処理する。すなわち、カテゴリを示すデータを保存する保存領域として予め設けられている「カテゴリ」に、音声認識部１２によって抽出されたカテゴリを示す文字データを保存する（ステップＳ１１０）。一方、「いいえ」「ＮＯ」などの回答が得られた場合には、音声認識結果が誤っていたものとして、ステップＳ１０６以降の処理を再度実行する。なお、「いいえ」「ＮＯ」などの回答が所定回数連続して得られたような場合には、エラー報知をしたあと、音声対話処理を終了するようにしてもよい。
【０１０９】
そして、音声対話装置１０ｂは、受信した会員番号とカテゴリにもとづいてユーザ認証を行ったあと、ユーザＹを認証した場合には、他の処理用データを用いて例えばチケットの予約や販売などのための音声対話による各種の処理を実行する。
【０１１０】
上述したように、辞書データ作成部１６が、処理用データにおける「ｓｅｌｅｃｔ」タグ内の「ｏｐｔｉｏｎ」タグに示されている各選択肢について、対応する音声データを生成して辞書データを作成する構成としたので、複数の選択肢の中からユーザに選択させる際に入力される音声を音声認識するための辞書データを予め作成しておく必要がない。すなわち、処理用データにもとづいて、上記のような辞書データを作成する構成としたので、処理用データとは別に上記のような辞書データを設けておく必要がなくなる。
【０１１１】
また、上述したように、音声認識結果が正しいかどうかを音声による確認する構成としたことで、音声対話装置１０ｂが発する音声によってユーザが音声認識の正否を確認することができ、誤った音声認識結果にもとづいて処理が続行してしまうことを回避することができる。また、音声認識結果が誤っている場合には、再度音声入力を促す構成としたので、正しい音声認識結果が得られるまで処理をやり直すことができる。
【０１１２】
また、上述したように、処理用データ中に、表示用データだけでなく、音声対話処理を行う際に用いられる付属情報（本例では、音声認識の対象となる音声が数字であることを指定する情報）を、音声対話処理用言語によって表示したデータ（本例では、「ｍｍｘｍｌ：ｇｒａｍｍａｒ＝”ｄｉｇｉｔｓ”」）を含めるようにしたので、表示用言語だけでは設定することができない処理を指定して音声対話処理を実行させることができる。なお、音声対話処理用言語によって他の内容の付属情報を付加するようにしてもよい。上述した第２の実施の形態における「ｒｅｃｏｇｎｉｚｅ」属性も、付属情報である。
【０１１３】
なお、上述した第３の実施の形態では、音声対話装置１０ｂの設置場所まで出向いてユーザが音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置１０ｂにアクセスし、音声対話装置１０ｂとの間で音声対話を行うようにしてもよい。この場合、音声対話装置１０ｂは、通信ネットワークに接続され、通信ネットワークを介して端末装置に対して音声対話によって各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置はＷＷＷサーバとしての機能を有するようにすればよい。
【０１１４】
また、処理用データにもとづいて辞書データ作成部１６によって行われる辞書データの作成は、辞書を使用する以前であれば、辞書を使用する直前でも、処理用データの選択肢を処理する際でも、処理用データによる処理を解しする際でも、処理用データよりあらかじめ作成していてもよい。
【０１１５】
次に、本発明の第４の実施の形態について図面を参照して説明する。なお、上述した第１、第２および第３の実施の形態と同一に構成され同一の処理を実行する部分については、同一の符号を付与してその詳細な説明は省略する。
図１２は、本発明の第４の実施の形態における音声対話装置１０ｃの構成例を示すブロック図である。音声対話装置１０ｃは、音声対話処理部１１と、音声認識部１２とを含む。また、音声対話装置１０ｃは、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース１３を備えている。
【０１１６】
図１３は、この例で用いられる処理用データの内容の例を示すデータ説明図である。処理用データは、図１３に示すように、ＶｏｉｃｅＸＭＬによって作成されている。すなわち、ＶｏｉｃｅＸＭＬによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。
【０１１７】
この例では、発生する音声を指定する場合に、「ｐｒｏｍｐｔ」タグが用いられる。具体的には、図１３に示すように、＜ｖｘｍｌ：ｐｒｏｍｐｔ＞〜＜／ｖｘｍｌ：ｐｒｏｍｐｔ＞の間に、発生する音声を示す文字を指定する。
【０１１８】
また、この例では、音声入力待ちや音声入力があったときの処理を指定する場合に、「ｆｉｅｌｄ」タグが用いられる。具体的には、図１３に示すように、「ｆｉｅｌｄ」タグによって、＜ｖｘｍｌ：ｆｉｅｌｄ＞〜＜／ｖｘｍｌ：ｆｉｅｌｄ＞の間に記述されている「ｐｒｏｍｐｔ」タグにもとづく音声を発声したあと音声入力待ちとすること、この音声入力待ちであるときに音声が入力した場合、音声認識処理を実行するとともに認識結果を示す音声を発声して確認をとること、確認をとるための音声の発声を行ったあと音声入力待ちとすること、この音声入力待ちであるときに音声が入力した場合、音声認識処理を実行するとともに確認が得られたか否かを判定すること、確認が得られた場合には音声認識結果を保存することなどが音声対話装置１０ｃに対して指示される。
【０１１９】
次に、本例の音声対話装置１０ｃによる音声対話処理について説明する。図１４は、音声対話処理の例を示すフローチャートである。ここでは、ユーザＹと音声対話を行う場合の処理について説明する。なお、ユーザＹは、音声対話装置１０ｃが提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、ユーザＹによって処理の開始を要求する何らかのアクションがあったときや、ユーザＹが音声対話装置１０ｃの前に立ったことを人感センサが感知したときに開始する。
【０１２０】
音声対話装置１０ｃは、音声対話処理において、先ず、処理用データ管理データベース１３から音声対話処理に用いる所定の処理用データを読み出す（ステップＳ１０１）。ここでは、音声対話処理部１１が、図１３に示した処理用データを読み出したものとする。
【０１２１】
処理用データを読み出すと、音声対話処理部１１は、「ｆｉｅｌｄ」タグの要素である「ｐｒｏｍｐｔ」タグのあとに記載されている文字に従って、図示しないスピーカから　“住所をどうぞ”と発声する処理を実行する（ステップＳ４０１）。この例では、音声対話処理部１１は、「ｐｒｏｍｐｔ」タグにて指定されている文字に従って音声出力する機能を有している。次いで、音声対話処理部１１は、「ｆｉｅｌｄ」タグに従って、「ｐｒｏｍｐｔ」タグにて指定されている文字に従って音声出力すると、ユーザＹからの音声入力の待ち状態となる（ステップＳ４０２）。この例では、音声対話処理部１１は、「ｐｒｏｍｐｔ」タグにて指定されている文字に従って音声出力を行うと、音声入力の待ち状態となる機能を有している。
【０１２２】
ユーザＹは、音声対話装置１０ｃが備えるスピーカから“住所をどうぞ”という音声が発せられたことに応じて、音声対話装置１０ｃが備える図示しないマイクロフォンに向けて例えば自己の住所を発声する。発声された音声は、音声データとして音声対話装置１０ｃに入力される。
【０１２３】
「ｐｒｏｍｐｔ」タグに従って音声出力を行ったあとの音声入力の待ち状態となると、音声対話処理部１１は、「ｆｉｅｌｄ」タグの要素である「ｇｒａｍｍａｒ」タグにて指定されている辞書データを処理用データ管理データベース１３から読み出し、読み出した辞書データを音声認識部１２に送信する（ステップＳ４０３）。なお、この例では、処理用データ管理データベース１３が辞書データも管理する構成としている。なお、この例では、「ｖｘｍｌ：ｇｒａｍｍａｒ　ｓｒｃ＝”ａｄｄｒｅｓｓ．ｓｒｇｆ”」（認識対象が住所であることから、認識対象となる音声が都道府県名や市区町村名であることを指定している。）なる付加情報にもとづいて、都道府県名や市区町村名を音声認識するための辞書データが読み出される。また、「ｐｒｏｍｐｔ」タグに従って音声出力を行ったあとの音声入力の待ち状態であるときに音声データの入力があると、音声対話処理部１１は、入力した音声データを音声認識部１２に送信する。
【０１２４】
音声認識部１２は、受信した辞書データを用いて、受信した音声データに対応する文字データを抽出する音声認識処理を実行し、抽出した文字データを音声対話処理部１１に送信する（ステップＳ３０２）。
【０１２５】
次いで、音声対話処理部１１は、ユーザＹに対して音声認識結果の確認要求を行うために、音声認識部１２から受信した文字データにもとづいて音声を発生する処理を行う（ステップＳ４０４）。例えば音声認識部１２から受信した文字データが「東京都千代田区○○１−１−１」であれば、「東京都千代田区○○１−１−１でよろしいですか？」と発声する。音声認識部１２による音声認識結果にもとづく音声を発生すると、音声対話処理部１１は、ユーザＹによる回答を示す音声の入力待ち状態となる（ステップＳ３０４）。このように、本例では、音声対話処理部１１は、音声認識部１２による音声認識結果にもとづく音声を発声する処理を実行する機能と、音声認識部１２による音声認識結果にもとづく音声を発声したあと音声の入力待ち状態とする機能とを有している。
【０１２６】
ユーザＹは、「東京都千代田区○○１−１−１でよろしいですか？」と発声されたことに応じて、音声認識結果が正しければその旨を示す音声（例えば「はい」、「Ｙｅｓ」など）を発声し、音声認識結果が誤っていればその旨を示す音声（例えば「いいえ」、「Ｎｏ」など）を発声する。
【０１２７】
ユーザＹからの音声入力があると、音声対話処理部１１は、入力した音声を音声認識部１２によって音声認識した結果にもとづいて結果判定を行い（ステップＳ３０５）、「はい」や「ＹＥＳ」などの回答が得られた場合には、音声認識結果が正しかったもの判定し、音声認識部１２から受信した文字データを、処理用データにて「ｆｉｅｌｄ」タグの属性として記載されている「ｎａｍｅ」に示されている“ｆｉｅｌｄ＿ｊｕｕｓｈｏ”を示すデータであるとして処理する。すなわち、住所を示すデータを保存する保存領域として予め設けられている「ｆｉｅｌｄ＿ｊｕｕｓｈｏ」に、受信した文字データを保持する（ステップＳ４０５）。一方、「いいえ」「ＮＯ」などの回答が得られた場合には、音声認識結果が誤っていたものと判定し、ステップＳ４０１以降の処理を再度実行する。なお、「いいえ」「ＮＯ」などの回答が所定回数連続して得られたような場合には、エラー報知をしたあと、音声対話処理を終了するようにしてもよい。
【０１２８】
そして、音声対話装置１０ｃは、住所を示すデータを保存すると、音声対話によって住所を登録する処理を終了する。ここでは住所を登録する例について説明したが、続けて名前などを登録するための音声対話処理を実行するようにしてもよい。この場合、処理用データを、図１３に示した処理用データと同様にして、名前を登録するための音声対話処理が実行されるようなデータ構成とすればよい。
【０１２９】
上述したように、音声対話処理用言語によって作成された処理用データにもとづいて、１つのタグ（上記の例では「ｆｉｅｌｄ」タグ）によって一連の音声対話処理を実行する構成としたので、音声処理用言語を用いて簡単に処理用データを作成することができるようになる。また、処理数と比較して少ない数のタグを用いて簡単にＶｏｉｃｅＸＭＬによって処理用データを作成する構成としたので、ＨＴＭＬなどの表示処理用言語と同じような手順で音声対話処理用のデータを作成することができる。従って、表示用言語によるプログラムの作成方法を習得していれば、音声対話処理を行うためのプログラムの作成方法を簡単に習得することができるようになる。すなわち、音声対話処理用データにもとづいて音声対話処理を行うことに変わりないが、表示用言語によるプログラムの作成方法を習得している技術者であれは簡単に音声対話処理用データを作成することができるようになる。よって、音声対話処理用言語を取り扱う専門の技術者でなければ音声対話処理用データを作成することができないような事態は解消される。
【０１３０】
なお、上述した第４の実施の形態では、音声対話装置１０ｃの設置場所まで出向いてユーザが音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置１０ｃにアクセスし、音声対話装置１０ｃとの間で音声対話を行うようにしてもよい。この場合、音声対話装置１０ｃは、通信ネットワークに接続され、通信ネットワークを介して端末装置に対して音声対話によって各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置はＷＷＷサーバとしての機能を有するようにすればよい。
【０１３１】
なお、上述した各実施の形態では、表示用言語としてＨＴＭＬを例にしていたが、携帯電話端末のブラウザでＷｅｂページの表示などを行うために用いられるＣ−ＨＴＭＬ（Ｃｏｍｐａｃｔ　ＨＴＭＬ）、ｉモード用ＨＴＭＬ（ｉ−ＭＯＤＥ（登録商標）と呼ばれる携帯電話端末を含むシステムで用いられる言語）などの携帯電話端末用のマークアップ言語や、ＨＤＭＬ（Ｈａｎｄｈｅｌｄ　Ｄｅｖｉｃｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＷＭＬ（Ｗｉｒｅｌｅｓｓ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＨＴＭＬ（ｅＸｔｅｎｓｉｂｌｅ　ＨＴＭＬ）などの他のマークアップ言語を用いるようにしてもよい。
【０１３２】
また、上述した各実施の形態において、ＨＴＭＬを用いた処理用データの例を示したが、例示した処理用データに含まれていない他のタグや属性を音声対話処理における特定の処理に関連付けして、他のタグや属性にもとづく他の音声対話に関する処理を実行するようにしてもよい。
【０１３３】
また、上述した各実施の形態では、処理用データにおける音声認識に用いられる辞書データを示す情報やユーザからの音声入力の待機時間を指定する情報が、「ｇｒａｍｍａｒ」属性や「ｔｉｍｅｏｕｔ」属性を用いた付属言語による付属情報として記述されていたが、他の情報についても付属情報として記述するようにしてもよい。この場合、例えば、図１５に示すように、音声対話処理部１１に対して入力依頼などのガイダンスの内容を指定する際に、「ｉｎｐｕｔ」タグの「ｐｒｏｍｐｔ」属性を用いて「会員番号を入力してください」を発声することを指定するようにしたり、音声対話処理部１１が音声を発するときに用いる音声情報を格納したファイルを指定する際に、「ｏｐｔｉｏｎ」タグの「ａｕｄｉｏ」属性を用いて「ｋｏｊｉｎ．ｗａｖ」というファイルであることを指定するようにしたり、音声対話処理部１１が音声入力や音声合成を行うときに用いる音声の読み情報（音声の「読み方」を示す情報）を指定する際に、例えば「ｏｐｔｉｏｎ」タグの「ｐｒｏｍｐｔ」属性を用いて「その他」の読み方は「そのほか」であることを指定するようにすればよい。なお、図１５に示す処理用データは、付属言語を多く利用して、音声対話装置１０ａに上述した図５に示す処理用データと同様の音声対話処理を実行させるための処理用データである。例えば、音声対話装置１０ａは、図１５に示す処理用データに従い、「ｉｎｐｕｔ」タグの「ｐｒｏｍｐｔ」属性にもとづいて「会員番号を入力してください」と発声したあと入力待ち状態となり、会員番号の入力があると、「ｆｏｒｍ」タグにて指定されている「カテゴリを選択して下さい」と発声する。上記のように付属情報を多く利用すれば、細かい処理まで指定することができるようになるので１つのタグに多くの処理を関連付けする必要がなくなる。また、表示用言語では定義されていない様々な音声対話に関する処理を実行することができるようになるので、音声対話処理において必要十分な処理を実行することができ、音声対話処理を円滑に行うことができるようになる。
【０１３４】
また、上述した各実施の形態では、音声認識結果が正しいかどうかを確認するための音声出力の指示などに関しては、それらの指示のための専用のタグや属性は用いられていないが（「ｉｎｐｕｔ」タグや「ｓｅｌｅｃｔ」タグなどによって一連の処理が指示されるようになっていた）、そのような指示を行う特別のタグや属性（表示用言語で用いられているタグや属性が好ましいが、音声対話処理用言語などの他の言語で用いられているタグや属性であっても、新規のタグや属性を定義付けしたものであってもよい）を用いるようにしてもよい。
【０１３５】
さらに、上述した実施の形態では、処理用データを、表示用言語のみによって作成したり、表示用言語によるデータ内に音声認識用言語によるデータを付加して作成したりしていたが、他の言語によるデータや、新たに定義したデータを表示用言語に付加した構成とすることもできる。
【０１３６】
さらに、上述した実施の形態すべてにおいて、入力は音声となっているが、入力がＤＴＭＦ信号であり、音声認識処理部は取得したＤＴＭＦ信号に対応するキーを表す文字を返すものとしてもよい。
【０１３７】
さらに、上述した実施の形態すべてにおいて、処理用データは、入力より得た文字データをそのまま格納するように記述されているが、文字データに文字列処理等の演算を施した後に格納するように記述してもよい。
【０１３８】
なお、上述した各実施の形態では特に説明していないが、音声対話装置１０，１０ａ，１０ｂ，１０ｃは、上述した各処理を実行させるための制御プログラム（音声対話プログラム）に従って動作している。この制御プログラムは、音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、コンピュータ（音声対話装置１０，１０ａ，１０ｂ，１０ｃ）に、処理を記述した処理用データにもとづいて音もしくは音声を発する処理と、処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させるプログラムである。なお、処理用データは、例えば、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されているデータとされる。また、例えば、処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているデータとされる。
【０１３９】
【発明の効果】
以上のように、本発明の音声対話装置によれば、音もしくは音声を発する処理を行う音声出力処理部と、入力した音もしくは音声を取得する処理を行う音声入力処理部とを含み、処理を記述した処理用データにもとづいて、音もしくは音声による情報の入出力を実行する音声対話処理を行うことを特徴とするので、処理を記述した処理用データにもとづいて、音声対話処理を行うことができるようになる。
【０１４０】
音声入力処理部が、入力した音もしくは音声に対応する文字データを取得する音声認識処理部を含む構成とした場合には、音声認識処理において入力した音もしくは音声を示す文字データを取得することができる。
【０１４１】
音声認識処理部が、入力した音声を認識し、認識結果に応じて音声に対応する文字データを取得する構成とした場合には、音声認識処理において入力した音声を示す文字データを取得することができる。
【０１４２】
音声認識処理部が、入力した音をＤＴＭＦ信号とし、対応するキーに対応する文字データを取得する構成とした場合には、音声認識処理において入力した音を示す文字データを取得することができる。
【０１４３】
音声入力処理部が、音声認識処理部によって取得された文字データを、処理用データによって特定される保存領域に保存する構成とした場合には、処理が記述された処理用データにもとづいて、音声対話処理における音声入力処理を行うことができるようになる。
【０１４４】
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた構成とされているので、音声対話処理にて音声入力された情報を、表示画面の表示情報に反映させることができる。
【０１４５】
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データが示す選択結果にもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えているので、音声対話処理によって音声入力された選択結果を、表示画面の表示情報に反映させることができる。
【０１４６】
処理用データがｖｏｉｃｅＸＭＬなどの音声処理用言語で記述されている場合には、表示処理用言語に近い音声処理用言語で記述された処理用データにもとづいて、音声対話処理を行うことができる。よって、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。
【０１４７】
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されている構成と場合には、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。
【０１４８】
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているように構成されている場合には、表示用言語だけでは設定することができない処理を指定して音声対話処理を実行させることができる。従って、表示用言語では定義されていないような処理を付属言語によって補うことができ、音声対話処理において必要十分な処理を実行することができるため、音声対話処理を円滑に行うことができるようになる。
【０１４９】
付属言語が表示用言語に付加された言語で記述された処理用データが、表示用言語で記述された表示処理用データに従って画面表示を行う表示処理手段によって、表示処理用データとして処理されるように構成されている場合には、処理用データが付属言語が表示用言語に付加された言語で記述されていても、表示処理用データとして正しく処理することができる。
【０１５０】
付属情報が、音声入力処理部が使用する辞書情報、音声入力処理部もしくは音声出力処理部が使用するデータの読み情報、音声出力処理部が発するガイダンス、音声出力処理部が音声を発する際に用いる音声情報を格納した出力音声格納ファイル、音声入力処理部が使用する入力待ち時間指定情報のうち、少なくとも１つを含むように構成されている場合には、表示用言語では定義されていない様々な音声対話に関する処理を付属言語にもとづいて実行することができるようになる。従って、音声対話処理において必要十分な処理を実行することができ、音声対話処理を円滑に行うことができる。
【０１５１】
表示用言語として、ＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、ＸＨＴＭＬの何れかが用いられるようにした場合には、広く用いられているＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、ＸＨＴＭＬの何れかを用いて、音声対話処理を実行させるための処理用データを作成することができる。
【０１５２】
付属情報が、表示用言語として用いられるＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、またはＸＨＴＭＬの何れかの属性値として記述されているようにした場合には、広く用いられているＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬの何れかの属性値を用いて、処理用データにおける付属情報を作成することができる。
【０１５３】
処理用データは、入力依頼を示す記述がなされている部分を含み、入力依頼を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、得られた文字データが正しいか否かを確認する入力確認処理を実行し、入力確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定する判定部を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存するように構成されているので、入力依頼を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【０１５４】
処理用データに含まれている入力依頼を示す記述に従って、音声入力処理部が取得する音声が入力される前に、音声出力処理部が入力依頼を示す音声を発するように構成されているので、入力依頼を行ったあとに音声の入力を待つことができるようになる。
【０１５５】
処理用データは、選択依頼および複数の選択候補を示す記述がなされている部分を含み、選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、得られた文字データが正しいか否かを確認する選択確認処理を実行し、選択確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定する判定部を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存する構成とされているので、選択依頼および複数の選択候補を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【０１５６】
処理用データに含まれている選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が取得する音声が入力される前に、音声出力処理部が選択依頼を示す音声を発するように構成されているので、選択依頼を行ったあとに音声の入力を待つことができるようになる。
【０１５７】
音声出力処理部が、選択依頼を示す音声を発する際に、選択候補を示す音声を発する構成とされているので、選択候補の通知を行ったあとに音声の入力を待つことができるようになる。
【０１５８】
処理用データは、表示用言語によって選択依頼および複数の選択候補を示す記述がなされている部分を含み、複数の選択候補をそれぞれ示す文字データと、音もしくは音声とを対応させた辞書を作成する辞書作成部を備え、音声出力処理部は、選択依頼を示す音声もしくは音を発する処理を実行し、音声入力処理部は、音声出力処理部による選択依頼に応じて発せられた音もしくは音声が入力した場合に、辞書作成部によって作成された辞書を用いて、当該入力した音もしくは音声に対応する文字データを取得する構成とされているので、複数の選択候補を示す文字データと音声とが対応付けされている辞書データをあらかじめ用意しておく必要をなくすことができる。
【０１５９】
発した音もしくは音声を通信ネットワークに接続された端末装置に向けて出力し、発せられた音もしくは音声を当該端末装置および通信ネットワークを介して入力することで、音声対話処理を実行するように構成されているので、遠隔地のユーザとの間で音声対話処理を行うことができるようになる。
【０１６０】
また、本発明の音声対話プログラムによれば、音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、コンピュータに、処理を記述した処理用データ（例えば、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されているデータ。また、例えば、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているデータ。）にもとづいて音もしくは音声を発する処理と、処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させることを特徴とするので、音声対話処理にて音声を発生する処理を行うための音声対話プログラムを表示用言語を用いて作成することができる、多くの技術者が音声対話プログラムを作成することができるようになる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図２】本発明の第１の実施の形態にて用いられる処理用データの例を示す説明図である。
【図３】本発明の第１の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図４】本発明の第２の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図５】本発明の第２の実施の形態にて用いられる処理用データの例を示す説明図である。
【図６】本発明の第２の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図７】本発明の第２の実施の形態における表示部の表示状態の例を示す説明図である。
【図８】本発明の第３の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図９】本発明の第３の実施の形態にて用いられる処理用データの例を示す説明図である。
【図１０】本発明の第３の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図１１】本発明の第３の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図１２】本発明の第４の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図１３】本発明の第４の実施の形態にて用いられる処理用データの例を示す説明図である。
【図１４】本発明の第４の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図１５】処理用データの他の例を示す説明図である。
【符号の説明】
１０，１０ａ，１０ｂ，１０ｃ　音声対話装置
１１　　音声対話処理部
１２　　音声認識部
１３　　処理用データ管理データベース
１４　　表示部
１５　　音声・表示連携部
１６　　辞書データ作成部
１７　　辞書データ管理部

Claims

音もしくは音声を発する処理を行う音声出力処理部と、入力した音もしくは音声を取得する処理を行う音声入力処理部とを含み、
処理を記述した処理用データにもとづいて、音もしくは音声による情報の入出力を実行する音声対話処理を行う　ことを特徴とする音声対話装置。
音声入力処理部は、入力した音もしくは音声に対応する文字データを取得する音声認識処理部を含む
請求項１記載の音声対話装置。
音声認識処理部は、入力した音声を認識し、認識結果に応じて前記音声に対応する文字データを取得する
請求項２記載の音声対話装置。
音声認識処理部は、入力した音をＤＴＭＦ信号とし、対応するキーに対応する文字データを取得する
請求項２記載の音声対話装置。
音声入力処理部は、音声認識処理部によって取得された文字データを、処理用データによって特定される保存領域に保存する
請求項２から請求項４のうちいずれかに記載の音声対話装置。
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた
請求項１から請求項５のうちいずれかに記載の音声対話装置。
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データが示す選択結果にもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた
請求項１から請求項５のうちいずれかに記載の音声対話装置。
処理用データが音声処理用言語で記述されている
請求項１から請求項７のうちいずれかに記載の音声対話装置。
音声処理用言語は、ｖｏｉｃｅＸＭＬである
請求項８記載の音声対話装置。
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されている
請求項１から請求項７のうちいずれかに記載の音声対話装置。
処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されている　請求項１から請求項７のうちいずれかに記載の音声対話装置。
付属言語が表示用言語に付加された言語で記述された処理用データが、表示用言語で記述された表示処理用データに従って画面表示を行う表示処理手段によって、表示処理用データとして処理される　請求項１１記載の音声対話装置。
付属情報は、音声入力処理部が使用する辞書情報、前記音声入力処理部もしくは音声出力処理部が使用するデータの読み情報、前記音声出力処理部が発するガイダンス、前記音声出力処理部が音声を発する際に用いる音声情報を格納した出力音声格納ファイル、音声入力処理部が使用する入力待ち時間指定情報のうち、少なくとも１つを含む　請求項１１または請求項１２に記載の音声対話装置。
表示用言語として、ＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、ＸＨＴＭＬの何れかが用いられる
請求項１０から請求項１３のうちいずれかに記載の音声対話装置。
付属情報は、表示用言語として用いられるＨＴＭＬ、Ｃ−ＨＴＭＬ、ｉモードＨＴＭＬ、ＨＤＭＬ、ＷＭＬ、またはＸＨＴＭＬの何れかの属性値として記述される
請求項１１から請求項１３のうちいずれかに記載の音声対話装置。
処理用データは、入力依頼を示す記述がなされている部分を含み、
前記入力依頼を示す記述に従って、
音声入力処理部が、入力した音もしくは音声を取得し、
音声出力処理部が、前記音声入力処理部によって取得された音もしくは音声を前記処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、前記得られた文字データが正しいか否かを確認する入力確認処理を実行し、
前記入力確認処理が実行されたあとに入力した音もしくは音声にもとづいて、前記得られた文字データが正しいか否かを判定する判定部を備え、
前記音声入力処理部は、前記判定部によって前記得られた文字データが正しいと判定された場合に、前記得られた文字データを保存する
請求項１から請求項１５のうちいずれかに記載の音声対話装置。
処理用データに含まれている入力依頼を示す記述に従って、音声入力処理部が取得する音声が入力される前に、音声出力処理部が入力依頼を示す音声を発する
請求項１６記載の音声対話装置。
処理用データは、選択依頼および複数の選択候補を示す記述がなされている部分を含み、
前記選択依頼および複数の選択候補を示す記述に従って、
音声入力処理部が、入力した音もしくは音声を取得し、
音声出力処理部が、前記音声入力処理部によって取得された音もしくは音声を前記処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、前記得られた文字データが正しいか否かを確認する選択確認処理を実行し、
前記選択確認処理が実行されたあとに入力した音もしくは音声にもとづいて、前記得られた文字データが正しいか否かを判定する判定部を備え、
前記音声入力処理部は、前記判定部によって前記得られた文字データが正しいと判定された場合に、前記得られた文字データを保存する
請求項１から請求項１７のうちいずれかに記載の音声対話装置。
処理用データに含まれている選択依頼および複数の選択候補を示す記述に従って、
音声入力処理部が取得する音声が入力される前に、音声出力処理部が選択依頼を示す音声を発する
請求項１８記載の音声対話装置。
音声出力処理部は、選択依頼を示す音声を発する際に、前記選択候補を示す音声を発する
請求項１９記載の音声対話装置。
処理用データは、表示用言語によって選択依頼および複数の選択候補を示す記述がなされている部分を含み、
前記複数の選択候補をそれぞれ示す文字データと、音もしくは音声とを対応させた辞書を作成する辞書作成部を備え、
音声出力処理部は、前記選択依頼を示す音声もしくは音を発する処理を実行し、
音声入力処理部は、前記音声出力処理部による選択依頼に応じて発せられた音もしくは音声が入力した場合に、前記辞書作成部によって作成された辞書を用いて、当該入力した音もしくは音声に対応する文字データを取得する
請求項１から請求項１７のうちいずれかに記載の音声対話装置。
発した音もしくは音声を通信ネットワークに接続された端末装置に向けて出力し、発せられた音もしくは音声を当該端末装置および前記通信ネットワークを介して入力することで、音声対話処理を実行する
請求項１から請求項２１のうちいずれかに記載の音声対話装置。
処理用データは、少なくとも音もしくは音声の入出力に関する処理を実行させるための音声対話処理用データとして用いられる
請求項１から請求項２２のうちいずれかに記載の音声対話装置。
音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、
コンピュータに、処理を記述した処理用データにもとづいて音もしくは音声を発する処理と、前記処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させる
ことを特徴とする音声対話プログラム
処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されている
請求項２４記載の音声対話プログラム。
処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されている　請求項２４記載の音声対話プログラム。