JP3550654B2

JP3550654B2 - 音声認識装置および方法、並びに記録媒体

Info

Publication number: JP3550654B2
Application number: JP2000138292A
Authority: JP
Inventors: 宏司相馬; 久高山岸; 和人糀谷
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 1999-06-29
Filing date: 2000-05-11
Publication date: 2004-08-04
Anticipated expiration: 2020-05-11
Also published as: JP2001075593A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置および方法、並びに記録媒体に関し、特に、より操作性を改善した、音声認識装置および方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
最近、音声認識システムが普及しつつある。この音声認識システムによれば、使用者が所定の事項を音声で入力すると、それが音声認識され、音声認識の結果に対応する処理が実行されるので、使用者は、キーボードなどの入力装置を用いずに、簡単に各種の情報を入力することが可能となる。
【０００３】
例えば、音声認識システムにおいて、住所を音声認識させる場合、「ご住所を都道府県から番地までおっしゃってください。」のようなメッセージを使用者に出力し、使用者に住所を都道府県から番地まで、一括して発話させる方法がある。このような場合、使用者は、例えば、「東京都港区虎ノ門３の４の１０」といった発話をすることになる。この発話が正しく音声認識された場合、音声認識システムは、さらに、例えば、「ご住所は、東京都港区虎ノ門３の４の１０ですね。」のようなメッセージを使用者に出力し、住所を確認させる。
【０００４】
しかしながら、音声認識ができなかった場合、音声認識システムは、例えば、「申し訳ありませんが、もう一度ご住所をおっしゃってください。」のようなメッセージを出力することになる。使用者は、このメッセージに従って、再度、住所を都道府県から番地まで一括して発話する。音声認識ができなかった場合には、同様の処理が、２回、３回と繰り返されることになる。しかしながら、このような操作が、何回も繰り返されると、使用者は、不快感を感じ、音声認識システムに対して、不信感を抱いてしまうことになる。
【０００５】
【発明が解決しようとする課題】
そこで、例えば、住所を都道府県から番地まで一括して発話させるのではなく、部分的に発話させ、逐次確認をしていく方法が考えられている。この場合、例えば、音声認識システムは、「ご住所の都道府県をおっしゃってください。」のようなメッセージを最初に出力する。これに対して、使用者は、例えば、「東京都」のように発話する。「東京都」を認識できたとき、音声認識システムは、さらに、例えば、「ご住所の都道府県の次をおっしゃってください。」のようなメッセージを出力し、これに対応して、使用者は、例えば、「港区」のように発話する。「港区」が正しく認識できた場合、音声認識システムは、さらに、例えば、「港区」の次をおっしゃってください。」のようなメッセージを出力する。使用者は、これに対応して、例えば、「虎ノ門」のように発話する。
【０００６】
このように、住所を細かく区分して、逐次発話させ、確認するようにすると、一括して発話させ、これを確認する場合に比べて、単語と単語の境界部分が明確になるので、認識率が向上する。
【０００７】
しかしながら、このように、逐次確認する処理を行うと、一括確認を行う場合に較べて、音声認識のために必要な総合的な対話時間が長くなってしまう。その結果、例えば、電話で音声入力を行っているような場合、通話料が高くなり、音声認識システムにより、入力を自動化したメリットが少なくなってしまう課題があった。
【０００８】
本発明はこのような状況に鑑みてなされたものであり、迅速に、かつ確実に、音声認識できるようにするものである。
【０００９】
【課題を解決するための手段】
本発明の第１の音声認識装置は、入力された一連の住所を認識する第１の認識手段と、第１の認識手段により、入力された一連の前記住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第２の認識手段とを備えることを特徴とする。
【００１０】
前記認識手段は、例えば、図２の音声認識部１６で構成される。
【００１１】
本発明の第１の音声認識装置においては、入力された一連の住所が認識され、入力された一連の住所が認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して認識される。
【００１２】
このように、入力された一連の住所を認識できなかったとき、一連の住所を一般性の低い都道府県市区町村郡の名称と、一般性の高い番地とに区分して認識するようにしたので、音声認識に用いる辞書も、それぞれの一般性の高低に応じた辞書のみを使用することができ、迅速かつ正確な音声認識が可能となる。
【００１３】
本発明の第２の音声認識装置は、一連の住所の入力を案内する第１の案内手段と、第１の案内手段による案内に応じて入力された一連の住所を認識する第１の認識手段と、第１の認識手段により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して入力することを案内する第２の案内手段と、第２の案内手段による案内に応じて入力された都道府県市区町村郡の名称と番地を区分して認識する第２の認識手段とを備えることを特徴とする。
【００１４】
前記第１の案内手段は、図４のステップＳ２３や図６のステップＳ８３のメッセージを出力する処理で構成され、前記第２の案内手段は、図４のステップＳ２６、Ｓ３０、Ｓ３４、Ｓ３７、Ｓ４０，Ｓ４４や図５のステップＳ８６、Ｓ９０、Ｓ９４，Ｓ９７，Ｓ１００のメッセージを出力する処理で構成される。
【００１５】
本発明の第２の音声認識装置においては、一連の住所の入力が案内され、その案内に応じて入力された一連の住所が認識される。また、入力された一連の住所が認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して入力することが案内され、その案内に応じて入力された都道府県市区町村郡の名称と番地が区分して認識される。
【００１６】
前記案内手段の案内により、利用者に、住所、都道府県市区町村郡の名称または番地を確実に入力させることが可能となる。
【００１９】
本発明の音声認識方法は、入力された一連の住所を認識する第１の認識ステップと、第１の認識ステップの処理により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第２の認識ステップとを含むことを特徴とする。
【００２０】
本発明の記録媒体のプログラムは、入力された一連の住所を認識する第１の認識ステップと、第１の認識ステップの処理により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第２の認識ステップとを含むことを特徴とする。
【００２１】
前記第１の認識ステップは、例えば、図４のステップＳ２２または図６のステップＳ８２で構成される。前記第２の認識ステップは、例えば、図４のステップＳ３２もしくはステップＳ３９、または図６のステップＳ９２もしくはステップＳ９９で構成される。
【００２２】
本発明の音声認識方法、および記録媒体のプログラムにおいては、入力された一連の住所が音声認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して認識される。
【００２３】
本発明の音声認識方法、および記録媒体のプログラムによれば、入力された住所を認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識するようにしたので、音声認識に用いる辞書も、それぞれの一般性の高低に応じた辞書のみを使用することができ、迅速かつ正確な認識が可能となる。
【００２４】
【発明の実施の形態】
図１は、本発明を適用した音声認識システムの構成例を表している。この構成例においては、インターネット２にサーバ１が接続されており、端末３−１乃至３−３は、インターネット２を介してサーバ１にアクセスし、所定の情報を検索することができるようになされている。
【００２５】
サーバ１は、例えば、図２に示すように構成されている。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３に記憶されているプログラムに従って、各種の処理を実行する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１４は、ＣＰＵ１２が、各種の処理を実行する上において必要なプログラムやデータが適宜記憶される。ハードディスク１５には、ＣＰＵ１２が処理するプログラムや、端末３−１乃至３−３に供給する各種の情報が記憶されている。音声認識部１６は、端末３−１乃至３−３から入力されてきた音声を認識する処理を実行する。これらのＣＰＵ１２乃至音声認識部１６は、バス１１を介して相互に接続されている。
【００２６】
バス１１にはまた、入出力インタフェース１７も接続されている。入出力インタフェース１７には、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やＣＲＴ（ＣａｔｈｏｄＲｒａｙＴｕｂｅ）などにより構成される表示部１８、キーボード、マウス、マイクロホンなどにより構成される入力部１９、モデムなどにより構成され、インターネット２に接続される通信部２０、およびフロッピーディスク、ＣＤ−ＲＯＭといったディスクを駆動し、データを記録または再生するドライブ２１が接続されている。入出力インタフェース１７は、これらの表示部１８乃至ドライブ２１とＣＰＵ１２との間のインタフェース処理を実行する。
【００２７】
なお、図示は省略するが、端末３−１乃至３−３も、基本的にサーバ１と同様に構成される。
【００２８】
次に、図３のフローチャートを参照して、端末３−１乃至３−３から、サーバ１にアクセスし、所定の資料を要求する場合の処理について説明する。例えば、端末３−１の使用者は、サーバ１に対して資料を要求するとき、インターネット２を介してサーバ１にアクセスする。このとき、サーバ１は、図３のフローチャートに示す処理を開始する。
【００２９】
ステップＳ１において、サーバ１のＣＰＵ１２は、ＲＯＭ１３に予め記憶されているメッセージの中から、例えば、「お電話ありがとうございます。ＡＢＣ資料送付システムです。」のようなメッセージを読み出し、入出力インタフェース１７から通信部２０を介して、端末３−１に出力させる。さらに、ステップＳ２において、ＣＰＵ１２は、ＲＯＭ１３から、「まず、お名前を『やまだたろう』のようにおっしゃってください。」のメッセージを読み出し、端末３−１に出力する。
【００３０】
端末３−１の使用者は、このメッセージを受信したとき、そのメッセージに従って、端末３−１のマイクロホンから、自分自身の氏名を、例えば、「特許太郎」のように発話する。この音声信号は、端末３−１からインターネット２を介してサーバ１に転送される。サーバ１において、通信部２０は、この音声信号を受け取ると、これを復調し、入出力インタフェース１７を介して、ＣＰＵ１２に出力する。ＣＰＵ１２は、氏名の音声データを受け取ると、ステップＳ３において、これをバス１１を介して、ＲＡＭ１４に転送し、記憶させるとともに、さらに音声認識部１６に転送し、認識（名前認識）処理させる。認識された氏名は、必要に応じて、例えば、ハードディスク１５に転送され、記憶される。
【００３１】
次に、ステップＳ４において、ＣＰＵ１２は、ＲＯＭ１３から、例えば、「次に、ご住所を都道府県から番地まで『東京都港区虎ノ門３の４の１６』のようにおっしゃってください。」のメッセージを読み出し、通信部２０から、インターネット２を介して端末３−１に送信する。
【００３２】
端末３−１において、使用者は、サーバ１からのメッセージを受信すると、自分自身の住所（資料を送付してもらいたい住所）を発話する。この音声信号は、上述した場合と同様に、インターネット２を介して、サーバ１に送信される。サーバ１においてＣＰＵ１２は、住所データの入力を受けると、ステップＳ５において、これをバス１１を介してＲＡＭ１４に転送し、記憶させるとともに、さらに音声認識部１６に転送し、住所を認識処理させる。この住所認識処理の詳細は、図４のフローチャートを参照して後述する。
【００３３】
認識された住所は、ハードディスク１５に転送され、ステップＳ４で認識された氏名に対応して記憶される。
【００３４】
ステップＳ６において、ＣＰＵ１２は、ＲＯＭ１３から「後ほど、資料を送付いたします。ご利用ありがとうございました。」のメッセージを読み出し、入出力インタフェース１７から通信部２０を介して端末３−１に送信させる。
【００３５】
次に、図４のフローチャートを参照して、図３のステップＳ５の住所認識処理の詳細について説明する。ステップＳ２１において、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ１とｒｅｃ＿ｎｇ２を、それぞれ０に初期設定するとともに、フラグｆｌａｇに０を設定する。変数ｒｅｃ＿ｎｇ１は、住所の中の都道府県市区町村郡名の区分した認識処理回数を表し、変数ｒｅｃ＿ｎｇ２は、住所の中の番地の区分した認識処理の回数を表す。フラグｆｌａｇは、都道府県市区町村郡名の区分した認識処理を経たか否かを表すフラグである。
【００３６】
次に、ステップＳ２２において、ＣＰＵ１２は、住所音声認識処理を実行する。すなわち、上述したように、使用者は、住所を都道府県から番地まで一括して発話しているので、この一連の音声入力に対して、音声認識部１６において、認識処理が実行される。音声認識部１６は、認識の結果得られたデータを音声データに変換し、ＣＰＵ１２に出力する。ＣＰＵ１２は、この音声データを受け取ると、ステップＳ２３において、ＲＯＭ１３に予め登録されているメッセージと組み合わせ、例えば、「ご住所は、Ａでよろしいでしょうか。」のようなメッセージとして合成し、通信部２０から端末３−１に送信させる。
【００３７】
端末３−１においては、自分自身の発話に対して認識された結果の住所を含むメッセージを受信すると、使用者は、その住所が正しければ「はい」を、正しくなければ「いいえ」を、マイクロホンから入力する。この音声信号は、端末３−１からインターネット２を介して、サーバ１に転送される。
【００３８】
サーバ１のＣＰＵ１２は、ステップＳ２４において、この音声信号を確認処理し、ステップＳ２５において、確認された音声が「はい」と「いいえ」のいずれであるのかを判定する。使用者からの返事が「はい」である場合には、一括発話から正しい音声認識処理が行われたことになるので、処理は終了される。これに対して、使用者からの返事が「いいえ」である場合には、一括発話が間違って音声認識処理されたことになるので、ステップＳ２６に進み、ＣＰＵ１２は、認識された都道府県市区町村郡名とＲＯＭ１３に予め記憶されているメッセージとを合成して、例えば「Ｂ県Ｃ市Ｄ町までは、正しいでしょうか」のメッセージを生成し、通信部２０を介して、端末３−１に送信する。
【００３９】
端末３−１においては、使用者が、このメッセージを受信し、その都道府県市区町村郡名が正しければ「はい」を、正しくなければ「いいえ」をマイクロホンから入力する。
【００４０】
ステップＳ２７において、サーバ１のＣＰＵ１２は、使用者からの返事を確認処理し、ステップＳ２８において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【００４１】
使用者からの返事が「いいえ」である場合には、ステップＳ２９に進み、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ１が基準値２より小さいか否かを判定する。今の場合、ステップＳ２１において、変数ｒｅｃ＿ｎｇ１には０が設定されているため、ＹＥＳの判定が行われ、処理はステップＳ３０に進む。ステップＳ３０において、ＣＰＵ１２は、ＲＯＭ１３から「お手数をおかけしますが、もう一度、番地の前までを『東京都港区虎ノ門』のようにお願いします。」のメッセージを読み出し、端末３−１に送信する。ＣＰＵ１２は、ステップＳ３１において、変数ｒｅｃ＿ｎｇ１を１だけインクリメントし（今の場合、ｒｅｃ＿ｎｇ１＝１とし）、ステップＳ３２において、都道府県市区町村郡名音声認識処理を実行する。すなわち、ステップＳ２２で認識した都道府県市区町村郡名は誤っていたので、使用者からの再度の音声入力から、ＲＡＭ１４に記憶されているデータに基づいて、再度、都道府県市区町村郡名が音声認識処理される。
【００４２】
次に、ステップＳ３３において、ＣＰＵ１２は、フラグｆｌａｇに１を設定し、ステップＳ３４において、ステップＳ３２で認識された結果得られた都道府県市区町村郡名を含む「Ｅ県Ｆ市Ｇ町で正しいでしょうか？」のメッセージを生成し、端末３−１に送信する。
【００４３】
端末３−１においては、受信したメッセージが正しければ「はい」の音声が入力され、間違っていれば「いいえ」の音声が入力される。ＣＰＵ１２は、ステップＳ２７において、使用者からの応答を認識処理し、ステップＳ２８において、使用者の応答が「はい」と「いいえ」のいずれであるのかを再び判定する。使用者からの返事が「いいえ」である場合には、再び、ステップＳ２９に戻り、ｒｅｃ＿ｎｇ１が、２より小さいか否かを判定する。今の場合、ｒｅｃ＿ｎｇ１は１であるから、ＹＥＳの判定が行われ、再び、ステップＳ３０乃至ステップＳ３４の処理が、上述した場合と同様に実行される。
【００４４】
以上のようにして、変数ｒｅｃ＿ｎｇ１の値が２となると、ステップＳ２９においてＮＯの判定が行われ、ステップＳ３５において、ＣＰＵ１２は、「申し訳ございません。ご住所を聞き取ることができませんでしたので、後ほど、録音内容で確認させていただきます。」のメッセージをＲＯＭ１３から読み出し、端末３−１に転送させる。
【００４５】
ステップＳ２８において、使用者からの入力が「はい」であると判定された場合（都道府県市区町村郡名が正しい場合）、ステップＳ３６に進み、ＣＰＵ１２は、フラグｆｌａｇが０であるか否かを判定する。フラグｆｌａｇが０である場合には（ステップＳ２２で都道府県市区町村郡名が正しく認識された場合には）、ステップＳ３７に進み、ＣＰＵ１２は、「それでは、番地を「３の４の１６」のように、もう一度おっしゃってください。」のメッセージをＲＯＭ１３から読み出し、端末３−１に転送する。ステップＳ３８において、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ２を１だけインクリメントする（今の場合、ｒｅｃ＿ｎｇ２＝１とする）。
【００４６】
ステップＳ３９において、ＣＰＵ１２は、番地音声認識処理を実行する。すなわち、使用者は、ステップＳ３７の処理で転送されたメッセージを受信したとき、番地をマイクロホンに向かって発話する。ＣＰＵ１２は、この音声信号が、端末３−１から転送されてきたとき、音声認識部１６にこれを転送し、認識処理させる。すなわち、今の場合（フラグｆｌａｇ＝０の場合）、ステップＳ２２で認識された住所の内、都道府県市区町村郡名は正しかったので、「３の４の１６」のような番地だけが、再度発話され、これが認識処理される。
【００４７】
ＣＰＵ１２は、ステップＳ３９において認識された番地をＲＯＭ１３に記憶されているメッセージと組み合わせ、ステップ４０において、「「ａ−ｂ−ｃ」で正しいでしょうか？」のメッセージを合成し、端末３−１に送信させる。
【００４８】
一方、ステップＳ３６において、フラグｆｌａｇが０ではないと判定された場合、すなわち、１であると判定された場合、ステップＳ３２の都道府県市区町村郡名認識処理を経て、処理が進んできたことになる。この場合、ステップＳ２２で認識された住所の内、都道府県市区町村郡名が誤っており、ステップＳ３２の区分された認識処理で正しい都道府県市区町村郡名が認識されたのであるから、ステップＳ３７乃至ステップＳ３９の処理はスキップされ、直ちにステップＳ４０において、ステップＳ２２で認識された番地が正しいか否かのメッセージが、端末３−１に転送される。
【００４９】
端末３−１においては、このメッセージを受信すると、上述した場合と同様に、それが正しければ「はい」のメッセージが入力され、誤っていれば「いいえ」のメッセージが入力される。ＣＰＵ１２は、ステップＳ４１において、この使用者の応答を確認処理し、ステップＳ４２において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【００５０】
使用者の返事が「はい」である場合には、正しい番地が認識されたことになるので、ステップＳ４６に進み、ステップＳ２２またはステップＳ３２で認識された正しい都道府県市区町村郡名と、ステップＳ２２またはステップＳ３９で認識された正しい番地とを合成し、例えば、「ご住所を、Ｈ県Ｉ市Ｊ町ｄ−ｅ−ｆとして承りました。」のようなメッセージを、端末３−１に送信する。
【００５１】
ステップＳ４２において、使用者の返事が「いいえ」であると判定された場合、ステップＳ４３に進み、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ２が基準値２より小さいか否かを判定する。変数ｒｅｃ＿ｎｇ２が基準値２より小さい場合には、ステップＳ４４に進み、ＣＰＵ１２は、「お手数をおかけしますが、もう一度番地をお願いします。」のメッセージをＲＯＭ１３から読み出し、端末３−１に転送させる。その後、ステップＳ３８に戻り、それ以降の処理が繰り返し実行される。
【００５２】
ステップＳ４３において、変数ｒｅｃ＿ｎｇ２が、基準値２と等しいか、それより大きくなったと判定された場合、結局正しい番地を認識することができなかったことになるので、ステップＳ４５に進み、ＣＰＵ１２は、「申し訳ございません。ご住所を聞き取ることができませんでしたので、後ほど、録音内容で確認させていただきます。」のメッセージをＲＯＭ１３から読み出し、端末３−１に送信する。
【００５３】
以上のように、この例においては、最初に、都道府県から番地まで一括して発話された住所が音声認識され、正しい認識結果が得られれば、それで処理が終了される。正しい認識結果が得られなかった場合には、住所が、都道府県市区町村郡名と、それより後の番地とに区分されて認識処理が行われる。「東京都港区虎ノ門」のような都道府県市区町村郡名は、一般性が低い名詞であり、換言すれば、固有性が高い名詞であり（固有名詞であり）、音声認識に用いる辞書も、限られた固有名詞だけが登録されている辞書とすることができる。その結果、迅速かつ正確な認識が可能となる。
【００５４】
これに対して、例えば、「３の４の１０」のような番地は、一般性が高くなり（一般名詞であり）、固有名詞などは含まれない辞書を用いることが可能となる。その結果、それだけ検索対象となる名詞の数が少なくなり、やはり、迅速かつ正確な認識が可能となる。
【００５５】
なお、ここにおける番地とは、丁目に限らず、地割り、庁、街区などの一般性が高い名称も含まれる。
【００５６】
次に、図５のフローチャートを参照して、会社において用件のある人物に電話を繋げる場合の処理について説明する。会社の人物に用件のある電話の使用者は、インターネット２を介して所定の会社に設置してあるサーバ１にアクセスする（勿論、通常の電話回線を介してサーバー１にアクセスが行われる場合もあるが、以下においては、インターネット２を介してアクセスが行われるものとする）。このとき、サーバ１は、図５のフローチャートに示す処理を開始する。
【００５７】
ステップＳ６１において、サーバ１のＣＰＵ１２は、ＲＯＭ１３に予め記憶されているメッセージの中から、例えば、「ＡＢＣ株式会社電話転送システムです。」のようなメッセージを読み出し、入出力インタフェース１７から通信部２０を介して、端末３−１に出力させる。さらに、ステップＳ６２において、ＣＰＵ１２は、ＲＯＭ１３から、「用件のある者の部署名、名前をおっしゃって下さい。」のメッセージを読み出し、システムの使用者に出力する。
【００５８】
端末３−１において、使用者は、サーバ１からのメッセージを受信すると、用件のある人物の部署名・名前を、例えば「Ａ部Ｂ課のやまもとさんをお願いします。」のように発話する。この音声信号は、上述した場合と同様に、インターネット２を介して、サーバ１に送信される。サーバ１においてＣＰＵ１２は、部署名・名前の音声データの入力を受けると、ステップＳ６３において、これをバス１１を介してＲＡＭ１４に転送し、記憶させるとともに、さらに音声認識部１６に転送し、部署名・名前を認識処理させる。この部署名・名前音声住所認識処理の詳細は、図６のフローチャートを参照して後述する。
【００５９】
部署名および名前が認識された後、ＣＰＵ１２はＲＯＭ１３から「電話をお繋ぎします。」のメッセージを読み出し、入力インタフェースから通信部２０を介して端末３−１に送信させる。
【００６０】
次に、図６のフローチャートを参照して、図５のステップＳ６３の部署名および名前の認識処理の詳細について説明する。ステップＳ８１において、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ１とｒｅｃ＿ｎｇ２を、それぞれ０に初期設定するとともに、フラグｆｌａｇに０を設定する。変数ｒｅｃ＿ｎｇ１は、部署名の区分した認識処理回数を表し、変数ｒｅｃ＿ｎｇ２は、名前の区分した認識処理の回数を表す。フラグｆｌａｇは、部署名の区分した認識処理を経たか否かを表すフラグである。
【００６１】
次に、ステップＳ８２において、ＣＰＵ１２は、部署名および名前の認識処理を実行する。すなわち、上述したように、使用者は、部署名および名前を一括して発話しているので、この一連の音声入力に対して、音声認識部１６において、認識処理が実行される。音声認識部１６は、認識の結果得られたデータを音声データに変換し、ＣＰＵ１２に出力する。ＣＰＵ１２は、この音声データを受け取ると、ステップＳ８３において、ＲＯＭ１３に予め登録されているメッセージと組み合わせ、例えば、「Ｃ部Ｄ課のやまださんでよろしいですか？」のようなメッセージとして合成し、通信部２０から端末３−１に送信させる。
【００６２】
端末３−１においては、自分自身の発話に対して認識された結果の部署名および名前を含むメッセージを受信すると、使用者は、その部署名および名前が正しければ「はい」を、正しくなければ「いいえ」を、マイクロホンから入力する。この音声信号は、端末３−１からインターネット２を介して、サーバ１に転送される。
【００６３】
サーバ１のＣＰＵ１２は、ステップＳ８４において、この音声信号を確認処理し、ステップＳ８５において、確認された音声が「はい」と「いいえ」のいずれであるのかを判定する。使用者からの返事が「はい」である場合には、一括発話から正しい部署名および名前の認識処理が行われたことになるので、その認識された部署名および名前を有する者へ電話を転送する処理が実行される。これに対して、使用者からの返事が「いいえ」である場合には、一括発話が間違って音声認識処理されたことになるので、ステップＳ８６に進み、ＣＰＵ１２は、認識された部署名および名前とＲＯＭ１３に予め記憶されているメッセージとを合成して、例えば「Ｅ部Ｆ課までは、正しいでしょうか？」のメッセージを生成し、通信部２０を介して、端末３−１に送信する。
【００６４】
端末３−１においては、使用者が、このメッセージを受信し、その部署名が正しければ「はい」を、正しくなければ「いいえ」をマイクロホンから入力する。
【００６５】
ステップＳ８７において、サーバ１のＣＰＵ１２は、使用者からの返事を確認処理し、ステップＳ８８において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【００６６】
使用者からの返事が「いいえ」である場合には、ステップＳ８９に進み、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ１が基準値２より小さいか否かを判定する。今の場合、ステップＳ８１において、変数ｒｅｃ＿ｎｇ１には０が設定されているため、ＹＥＳの判定が行われ、処理はステップＳ９０に進む。ステップＳ９０において、ＣＰＵ１２は、ＲＯＭ１３から「部署名をもう一度おっしゃってください。」のメッセージを読み出し、端末３−１に送信する。ＣＰＵ１２は、ステップＳ９１において、変数ｒｅｃ＿ｎｇ１を１だけインクリメントし（今の場合、ｒｅｃ＿ｎｇ１＝１とし）、ステップＳ９２において、部署名音声認識処理を実行する。すなわち、ステップＳ８２で認識した部署名は誤っていたので、使用者により再度入力された音声信号からＲＡＭ１４に記憶されているデータに基づいて、再度、部署名が音声認識処理される。
【００６７】
次に、ステップＳ９３において、ＣＰＵ１２は、フラグｆｌａｇに１を設定し、ステップＳ９４において、ステップＳ９２で認識された結果得られた部署名を含む「Ｇ部Ｈ課までは正しいでしょうか？」のメッセージを生成し、端末３−１に送信する。
【００６８】
端末３−１においては、受信したメッセージが正しければ「はい」の音声が入力され、間違っていれば「いいえ」の音声が入力される。ＣＰＵ１２は、ステップＳ８７において、使用者からの応答を認識処理し、ステップＳ８８において、使用者の応答が「はい」と「いいえ」のいずれであるのかを再び判定する。使用者からの返事が「いいえ」である場合には、再び、ステップＳ８９に戻り、ｒｅｃ＿ｎｇ１が、２より小さいか否かを判定する。今の場合、ｒｅｃ＿ｎｇ１は１であるから、ＹＥＳの判定が行われ、再び、ステップＳ９０乃至ステップＳ９４の処理が、上述した場合と同様に実行される。
【００６９】
以上のようにして、変数ｒｅｃ＿ｎｇ１の値が２となると、ステップＳ８９においてＮＯの判定が行われ、ステップＳ９５において、ＣＰＵ１２は、「申しわけございませんが、部署名を認識できませんでした。オペレータにお回しします。」のメッセージをＲＯＭ１３から読み出し、端末３−１に転送させる。そして、オペレータに転送する処理が実行される。
【００７０】
ステップＳ８８において、使用者からの入力が「はい」であると判定された場合（部署名が正しい場合）、ステップＳ９６に進み、ＣＰＵ１２は、フラグｆｌａｇが０であるか否かを判定する。フラグｆｌａｇが０である場合には（ステップＳ８２で部署名が正しく認識された場合には）、ステップＳ９７に進み、ＣＰＵ１２は、「では、お名前をおっしゃってください。」のメッセージをＲＯＭ１３から読み出し、端末３−１に転送する。ステップＳ９８において、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ２を１だけインクリメントする（今の場合、ｒｅｃ＿ｎｇ２＝１とする）。
【００７１】
ステップＳ９９において、ＣＰＵ１２は、名前音声認識処理を実行する。すなわち、使用者は、ステップＳ９７の処理で転送されたメッセージを受信したとき、名前をマイクロホンに向かって発話する。ＣＰＵ１２は、この音声信号が、端末３−１から転送されてきたとき、音声認識部１６にこれを転送し、認識処理させる。すなわち、今の場合（フラグｆｌａｇ＝０の場合）、ステップＳ８２で認識された部署名および名前の内、部署名は正しかったので、「やまもとさんです。」のような名前だけが、再度発話され、これが認識処理される。
【００７２】
ＣＰＵ１２は、ステップＳ９９において認識された名前をＲＯＭ１３に記憶されているメッセージと組み合わせ、ステップＳ１００において、「「やまもと」さんでよろしいですか？」のメッセージを合成し、端末３−１に送信させる。
【００７３】
一方、ステップＳ９６において、フラグｆｌａｇが０ではないと判定された場合、すなわち、１であると判定された場合、ステップＳ９２の部署名音声認識処理を経て、処理が進んできたことになる。この場合、ステップＳ８２で認識された部署名および名前の内、部署名が誤っており、ステップＳ９２の区分された認識処理で正しい部署名が認識されたのであるから、ステップＳ９７乃至ステップＳ９９の処理はスキップされ、直ちにステップＳ１００において、ステップＳ８２で認識された名前が正しいか否かのメッセージが、端末３−１に転送される。
【００７４】
端末３−１においては、このメッセージを受信すると、上述した場合と同様に、それが正しければ「はい」のメッセージが入力され、誤っていれば「いいえ」のメッセージが入力される。ＣＰＵ１２は、ステップＳ１０１において、この使用者の応答を確認処理し、ステップＳ１０２において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【００７５】
使用者の返事が「はい」である場合には、正しい名前が認識されたことになるので、ステップＳ１０５に進み、ステップＳ８２またはステップＳ９２で認識された正しい部署名と、ステップＳ８２またはステップＳ９９で認識された正しい名前とを合成し、例えば、「では、Ｉ部Ｊ課の山本さんにお繋ぎします。」のようなメッセージを、端末３−１に送信する。その後、Ｉ部Ｊ課の山本さんへの転送処理が実行される。
【００７６】
ステップＳ１０２において、使用者の返事が「いいえ」であると判定された場合、ステップＳ１０３に進み、ＣＰＵ１２は、変数ｒｅｃ＿ｎｇ２が基準値２より小さいか否かを判定する。変数ｒｅｃ＿ｎｇ２が基準値２より小さい場合には、ステップＳ９７に戻り、ＣＰＵ１２は、「では、お名前をおっしゃって下さい。」のメッセージをＲＯＭ１３から読み出し、端末３−１に転送させる。その後、ステップＳ９８に進み、それ以降の処理が繰り返し実行される。
【００７７】
ステップＳ１０３において、変数ｒｅｃ＿ｎｇ２が、基準値２と等しいか、それより大きくなったと判定された場合、部署名は認識することができたが、正しい名前を認識することができなかったことになるので、ステップＳ１０４に進み、ＣＰＵ１２は、「申し訳ございません。部署の代表番号にお回しします。」のメッセージをＲＯＭ１３から読み出し、端末３−１に送信する。その後、その部署の代表番号への転送処理が実行される。
【００７８】
以上のように、この例においては、最初に、部署名および名前を一括して発話されたものが音声認識され、正しい認識結果が得られれば、その部署のその名前の者への転送処理が実行される。正しい認識結果が得られなかった場合には、部署名と名前とに区分されて認識処理が行われる。例えば「Ａ部Ｂ課」のような部署名は、一般性が低い名詞であり、前記住所認識処理の際の都道府県区市町村郡の名称と同様に、音声認識に用いる辞書も、限られた固有名詞だけが登録されている辞書とすることができる。
【００７９】
これに対して、例えば、「やまもとさん」のような人名は、一般性が高くなり前記住所認識処理の際の番地と同様に、固有名詞などは含まれない辞書を用いることが可能となる。
【００８０】
【発明の効果】
以上の如く、本発明の音声認識装置、音声認識方法、および記録媒体によれば、一連の住所を認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識するようにしたので、迅速かつ確実に、音声認識することが可能となる。
【図面の簡単な説明】
【図１】本発明を適用した音声認識システムの構成例を示す図である。
【図２】図１のサーバ１の構成例を示すブロック図である。
【図３】図１のサーバ１の動作を資料送付システムの実施の形態を用いて説明するフローチャートである。
【図４】図３のステップＳ５の住所認識処理の詳細な処理を説明するフローチャートである。
【図５】図１のサーバー１の動作を電話転送システムの実施の形態を用いて説明するフローチャートである。
【図６】図５のステップＳ６３の部署名・名前認識処理の詳細な処理を説明するフローチャートである。
【符号の説明】
１サーバ
２インターネット
３−１乃至３−３端末
１１バス
１２ＣＰＵ
１３ＲＯＭ
１４ＲＡＭ
１５ハードディスク
１６音声認識部
１７入出力インタフェース
１８出力部
１９表示部
２０通信部
２１ドライブ

Claims

入力された一連の住所を認識する第１の認識手段と、
前記第１の認識手段により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第２の認識手段と
を備えることを特徴とする音声認識装置。
前記第２の認識手段は、予め定められる基準の回数繰り返すことによっても、都道府県市区町村郡の名称または番地を認識できない場合、その認識を終了させる
ことを特徴とする請求項１に記載の音声認識装置。
入力された一連の住所を認識する第１の認識ステップと、
前記第１の認識ステップの処理により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第２の認識ステップと
を含むことを特徴とする音声認識方法。
入力された一連の住所を認識する第１の認識ステップと、
前記第１の認識ステップの処理により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第２の認識ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
一連の住所の入力を案内する第１の案内手段と、
前記第１の案内手段による案内に応じて入力された一連の住所を認識する第１の認識手段と、
前記第１の認識手段により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して入力することを案内する第２の案内手段と、
前記第２の案内手段による案内に応じて入力された前記都道府県市区町村郡の名称と前記番地を区分して認識する第２の認識手段と
を備えることを特徴とする音声認識装置。