JP2001075593A

JP2001075593A - 音声認識装置および方法、並びに記録媒体

Info

Publication number: JP2001075593A
Application number: JP2000138292A
Authority: JP
Inventors: Koji Soma; 宏司相馬; Hisataka Yamagishi; 久高山岸; Kazuto Kojiya; 和人糀谷
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1999-06-29
Filing date: 2000-05-11
Publication date: 2001-03-23
Anticipated expiration: 2020-05-11
Also published as: JP3550654B2

Abstract

(57)【要約】【課題】住所を正確かつ迅速に認識できるようにす
る。【解決手段】使用者がサーバにアクセスしてきたと
き、使用者の名前がステップＳ３で音声認識され、ステ
ップＳ４で、その使用者に対して、住所を「東京都港区
虎ノ門×の×の××」のように、都道府県から番地まで
一括して発話させる。ステップＳ５において、一括して
発話された住所が音声認識される。正しい音声認識結果
が得られなかったとき、住所が「東京都港区虎ノ門」と
いう都道府県市区町村郡名と、「×の×の××」いう番
地とに区分されて音声認識される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び方法、並びに記録媒体に関し、特に、より操作性を改
善した、音声認識装置および方法、並びに記録媒体に関
する。

【０００２】

【従来の技術】最近、音声認識システムが普及しつつあ
る。この音声認識システムによれば、使用者が所定の事
項を音声で入力すると、それが音声認識され、音声認識
の結果に対応する処理が実行されるので、使用者は、キ
ーボードなどの入力装置を用いずに、簡単に各種の情報
を入力することが可能となる。

【０００３】例えば、音声認識システムにおいて、住所
を音声認識させる場合、「ご住所を都道府県から番地ま
でおっしゃってください。」のようなメッセージを使用
者に出力し、使用者に住所を都道府県から番地まで、一
括して発話させる方法がある。このような場合、使用者
は、例えば、「東京都港区虎ノ門×の×の××」といっ
た発話をすることになる。この発話が正しく音声認識さ
れた場合、音声認識システムは、さらに、例えば、「ご
住所は、東京都港区虎ノ門×の×の××ですね。」のよ
うなメッセージを使用者に出力し、住所を確認させる。

【０００４】しかしながら、音声認識ができなかった場
合、音声認識システムは、例えば、「申し訳ありません
が、もう一度ご住所をおっしゃってください。」のよう
なメッセージを出力することになる。使用者は、このメ
ッセージに従って、再度、住所を都道府県から番地まで
一括して発話する。音声認識ができなかった場合には、
同様の処理が、２回、３回と繰り返されることになる。
しかしながら、このような操作が、何回も繰り返される
と、使用者は、不快感を感じ、音声認識システムに対し
て、不信感を抱いてしまうことになる。

【０００５】

【発明が解決しようとする課題】そこで、例えば、住所
を都道府県から番地まで一括して発話させるのではな
く、部分的に発話させ、逐次確認をしていく方法が考え
られている。この場合、例えば、音声認識システムは、
「ご住所の都道府県をおっしゃってください。」のよう
なメッセージを最初に出力する。これに対して、使用者
は、例えば、「東京都」のように発話する。「東京都」
を認識できたとき、音声認識システムは、さらに、例え
ば、「ご住所の都道府県の次をおっしゃってくださ
い。」のようなメッセージを出力し、これに対応して、
使用者は、例えば、「港区」のように発話する。「港
区」が正しく認識できた場合、音声認識システムは、さ
らに、例えば、「港区」の次をおっしゃってくださ
い。」のようなメッセージを出力する。使用者は、これ
に対応して、例えば、「虎ノ門」のように発話する。

【０００６】このように、住所を細かく区分して、逐次
発話させ、確認するようにすると、一括して発話させ、
これを確認する場合に比べて、単語と単語の境界部分が
明確になるので、認識率が向上する。

【０００７】しかしながら、このように、逐次確認する
処理を行うと、一括確認を行う場合に較べて、音声認識
のために必要な総合的な対話時間が長くなってしまう。
その結果、例えば、電話で音声入力を行っているような
場合、通話料が高くなり、音声認識システムにより、入
力を自動化したメリットが少なくなってしまう課題があ
った。

【０００８】本発明はこのような状況に鑑みてなされた
ものであり、迅速に、かつ確実に、音声認識できるよう
にするものである。

【０００９】

【課題を解決するための手段】本発明の音声認識装置
は、入力された一連の第１の音声を認識する第１の認識
手段と、第１の認識手段により音声が認識できなかった
とき、第１の音声を、一般性の低い第２の音声と、一般
性の高い第３の音声とに区分して認識する第２の認識手
段とを備えることを特徴とする。

【００１０】前記認識手段は、例えば、図２の音声認識
部１６で構成される。

【００１１】本発明の音声認識装置においては、入力さ
れた一連の第１の音声が認識され、音声が認識できなか
ったとき、第１の音声が、一般性の低い第２の音声と、
一般性の高い第３の音声に区分して認識される。

【００１２】このように、入力された一連の第１の音声
を認識できなかったとき、一連の第１の音声を一般性の
低い第２の音声と、一般性の高い第３の音声とに区分し
て認識するようにしたので、音声認識に用いる辞書も、
それぞれの一般性の高低に応じた辞書のみを使用するこ
とができ、迅速かつ正確な音声認識が可能となる。

【００１３】前記第１の認識手段に認識させるための第
１の音声の入力を案内する第１の案内手段と、第１の認
識手段により音声が認識できなかったとき、第２の認識
手段が区分して認識する第２の音声と第３の音声の区分
した入力を案内する第２の案内手段とをさらに備えるよ
うにすることができる。

【００１４】前記第１の案内手段は、図４のステップＳ
２３や図６のステップＳ８３のメッセージを出力する処
理で構成され、前記第２の案内手段は、図４のステップ
Ｓ２６、Ｓ３０、Ｓ３４、Ｓ３７、Ｓ４０，Ｓ４４や図
５のステップＳ８６、Ｓ９０、Ｓ９４，Ｓ９７，Ｓ１０
０のメッセージを出力する処理で構成される。

【００１５】本発明の案内手段をさらに備えた音声認識
装置においては、前記第１の認識手段に認識させるため
の第１の音声の入力が、第１の案内手段により案内さ
れ、第１の認識手段により音声が認識できなかったと
き、第２の認識手段に区分して認識させるための第２の
音声と第３の音声の入力が、第２の案内手段により案内
される。

【００１６】前記案内手段の案内により、利用者に、第
１の音声、第２の音声または第３の音声を確実に入力さ
せることが可能となる。

【００１７】前記第１の音声は、住所とし、第２の音声
は、都道府県市区町村郡の名称とし、第３の音声は、番
地とすることができる。

【００１８】前記第１の音声は、第２の音声としての部
署の名称と、第３の音声としての人名の組み合わせとす
ることができる。

【００１９】本発明の音声認識方法は、入力された一連
の第１の音声を認識する第１の認識ステップと、第１の
認識ステップの処理により音声が認識できなかったと
き、第１の音声を、一般性の低い第２の音声と、一般性
の高い第３の音声とに区分して認識する第２の認識ステ
ップとを含むことを特徴とする。

【００２０】本発明の記録媒体のプログラムは、入力さ
れた一連の第１の音声を認識する第１の認識ステップ
と、第１の認識ステップの処理により音声が認識できな
かったとき、第１の音声を、一般性の低い第２の音声
と、一般性の高い第３の音声とに区分して認識する第２
の認識ステップとを含むことを特徴とする。

【００２１】前記第１の認識ステップは、例えば、図４
のステップＳ２２または図６のステップＳ８２で構成さ
れる。前記第２の認識ステップは、例えば、図４のステ
ップＳ３２もしくはステップＳ３９、または図６のステ
ップＳ９２もしくはステップＳ９９で構成される。

【００２２】本発明の音声認識方法、および記録媒体の
プログラムにおいては、入力された一連の第１の音声が
音声認識できなかったとき、第１の音声が、一般性の低
い第２の音声と、一般性の高い第３の音声に区分して認
識される。

【００２３】本発明の音声認識方法、および記録媒体の
プログラムによれば、入力された一連の第１の音声を認
識できなかったとき、一連の第１の音声を一般性の低い
第２の音声と、一般性の高い第３の音声とに区分して認
識するようにしたので、音声認識に用いる辞書も、それ
ぞれの一般性の高低に応じた辞書のみを使用することが
でき、迅速かつ正確な認識が可能となる。

【００２４】

【発明の実施の形態】図１は、本発明を適用した音声認
識システムの構成例を表している。この構成例において
は、インターネット２にサーバ１が接続されており、端
末３−１乃至３−３は、インターネット２を介してサー
バ１にアクセスし、所定の情報を検索することができる
ようになされている。

【００２５】サーバ１は、例えば、図２に示すように構
成されている。CPU（Central Processing Unit）１２
は、ROM（Read Only Memory）１３に記憶されているプ
ログラムに従って、各種の処理を実行する。RAM（Rando
m Access Memory）１４は、CPU１２が、各種の処理を実
行する上において必要なプログラムやデータが適宜記憶
される。ハードディスク１５には、CPU１２が処理する
プログラムや、端末３−１乃至３−３に供給する各種の
情報が記憶されている。音声認識部１６は、端末３−１
乃至３−３から入力されてきた音声を認識する処理を実
行する。これらのCPU１２乃至音声認識部１６は、バス
１１を介して相互に接続されている。

【００２６】バス１１にはまた、入出力インタフェース
１７も接続されている。入出力インタフェース１７に
は、LCD（Liquid Crystal Display）やCRT（Cathod Rra
y Tube）などにより構成される表示部１８、キーボー
ド、マウス、マイクロホンなどにより構成される入力部
１９、モデムなどにより構成され、インターネット２に
接続される通信部２０、およびフロッピー（登録商標）
ディスク、CD-ROMといったディスクを駆動し、データを
記録または再生するドライブ２１が接続されている。入
出力インタフェース１７は、これらの表示部１８乃至ド
ライブ２１とCPU１２との間のインタフェース処理を実
行する。

【００２７】なお、図示は省略するが、端末３−１乃至
３−３も、基本的にサーバ１と同様に構成される。

【００２８】次に、図３のフローチャートを参照して、
端末３−１乃至３−３から、サーバ１にアクセスし、所
定の資料を要求する場合の処理について説明する。例え
ば、端末３−１の使用者は、サーバ１に対して資料を要
求するとき、インターネット２を介してサーバ１にアク
セスする。このとき、サーバ１は、図３のフローチャー
トに示す処理を開始する。

【００２９】ステップＳ１において、サーバ１のCPU１
２は、ROM１３に予め記憶されているメッセージの中か
ら、例えば、「お電話ありがとうございます。ABC資料
送付システムです。」のようなメッセージを読み出し、
入出力インタフェース１７から通信部２０を介して、端
末３−１に出力させる。さらに、ステップＳ２におい
て、CPU１２は、ROM１３から、「まず、お名前を『やま
だたろう』のようにおっしゃってください。」のメッ
セージを読み出し、端末３−１に出力する。

【００３０】端末３−１の使用者は、このメッセージを
受信したとき、そのメッセージに従って、端末３−１の
マイクロホンから、自分自身の氏名を、例えば、「特許
太郎」のように発話する。この音声信号は、端末３−１
からインターネット２を介してサーバ１に転送される。
サーバ１において、通信部２０は、この音声信号を受け
取ると、これを復調し、入出力インタフェース１７を介
して、CPU１２に出力する。CPU１２は、氏名の音声デー
タを受け取ると、ステップＳ３において、これをバス１
１を介して、RAM１４に転送し、記憶させるとともに、
さらに音声認識部１６に転送し、認識（名前認識）処理
させる。認識された氏名は、必要に応じて、例えば、ハ
ードディスク１５に転送され、記憶される。

【００３１】次に、ステップＳ４において、CPU１２
は、ROM１３から、例えば、「次に、ご住所を都道府県
から番地まで『東京都港区虎ノ門×の×の××』のよう
におっしゃってください。」のメッセージを読み出し、
通信部２０から、インターネット２を介して端末３−１
に送信する。

【００３２】端末３−１において、使用者は、サーバ１
からのメッセージを受信すると、自分自身の住所（資料
を送付してもらいたい住所）を発話する。この音声信号
は、上述した場合と同様に、インターネット２を介し
て、サーバ１に送信される。サーバ１においてCPU１２
は、住所データの入力を受けると、ステップＳ５におい
て、これをバス１１を介してRAM１４に転送し、記憶さ
せるとともに、さらに音声認識部１６に転送し、住所を
認識処理させる。この住所認識処理の詳細は、図４のフ
ローチャートを参照して後述する。

【００３３】認識された住所は、ハードディスク１５に
転送され、ステップＳ４で認識された氏名に対応して記
憶される。

【００３４】ステップＳ６において、CPU１２は、ROM１
３から「後ほど、資料を送付いたします。ご利用ありが
とうございました。」のメッセージを読み出し、入出力
インタフェース１７から通信部２０を介して端末３−１
に送信させる。

【００３５】次に、図４のフローチャートを参照して、
図３のステップＳ５の住所認識処理の詳細について説明
する。ステップＳ２１において、CPU１２は、変数rec_n
g１とrec_ng２を、それぞれ０に初期設定するととも
に、フラグflagに０を設定する。変数rec_ng１は、住所
の中の都道府県市区町村郡名の区分した認識処理回数を
表し、変数rec_ng２は、住所の中の番地の区分した認識
処理の回数を表す。フラグflagは、都道府県市区町村郡
名の区分した認識処理を経たか否かを表すフラグであ
る。

【００３６】次に、ステップＳ２２において、CPU１２
は、住所音声認識処理を実行する。すなわち、上述した
ように、使用者は、住所を都道府県から番地まで一括し
て発話しているので、この一連の音声入力に対して、音
声認識部１６において、認識処理が実行される。音声認
識部１６は、認識の結果得られたデータを音声データに
変換し、CPU１２に出力する。CPU１２は、この音声デー
タを受け取ると、ステップＳ２３において、ROM１３に
予め登録されているメッセージと組み合わせ、例えば、
「ご住所は、Aでよろしいでしょうか。」のようなメッ
セージとして合成し、通信部２０から端末３−１に送信
させる。

【００３７】端末３−１においては、自分自身の発話に
対して認識された結果の住所を含むメッセージを受信す
ると、使用者は、その住所が正しければ「はい」を、正
しくなければ「いいえ」を、マイクロホンから入力す
る。この音声信号は、端末３−１からインターネット２
を介して、サーバ１に転送される。

【００３８】サーバ１のCPU１２は、ステップＳ２４に
おいて、この音声信号を確認処理し、ステップＳ２５に
おいて、確認された音声が「はい」と「いいえ」のいず
れであるのかを判定する。使用者からの返事が「はい」
である場合には、一括発話から正しい音声認識処理が行
われたことになるので、処理は終了される。これに対し
て、使用者からの返事が「いいえ」である場合には、一
括発話が間違って音声認識処理されたことになるので、
ステップＳ２６に進み、CPU１２は、認識された都道府
県市区町村郡名とROM１３に予め記憶されているメッセ
ージとを合成して、例えば「B県C市D町までは、正しい
でしょうか」のメッセージを生成し、通信部２０を介し
て、端末３−１に送信する。

【００３９】端末３−１においては、使用者が、このメ
ッセージを受信し、その都道府県市区町村郡名が正しけ
れば「はい」を、正しくなければ「いいえ」をマイクロ
ホンから入力する。

【００４０】ステップＳ２７において、サーバ１のCPU
１２は、使用者からの返事を確認処理し、ステップＳ２
８において、使用者の返事が「はい」であるのか、「い
いえ」であるのかを判定する。

【００４１】使用者からの返事が「いいえ」である場合
には、ステップＳ２９に進み、CPU１２は、変数rec_ng
１が基準値２より小さいか否かを判定する。今の場合、
ステップＳ２１において、変数rec_ng１には０が設定さ
れているため、YESの判定が行われ、処理はステップＳ
３０に進む。ステップＳ３０において、CPU１２は、ROM
１３から「お手数をおかけしますが、もう一度、番地の
前までを『東京都港区虎ノ門』のようにお願いしま
す。」のメッセージを読み出し、端末３−１に送信す
る。CPU１２は、ステップＳ３１において、変数rec_ng
１を１だけインクリメントし（今の場合、rec_ng１＝１
とし）、ステップＳ３２において、都道府県市区町村郡
名音声認識処理を実行する。すなわち、ステップＳ２２
で認識した都道府県市区町村郡名は誤っていたので、使
用者からの再度の音声入力から、RAM１４に記憶されて
いるデータに基づいて、再度、都道府県市区町村郡名が
音声認識処理される。

【００４２】次に、ステップＳ３３において、CPU１２
は、フラグflagに１を設定し、ステップＳ３４におい
て、ステップＳ３２で認識された結果得られた都道府県
市区町村郡名を含む「E県F市G町で正しいでしょうか
？」のメッセージを生成し、端末３−１に送信する。

【００４３】端末３−１においては、受信したメッセー
ジが正しければ「はい」の音声が入力され、間違ってい
れば「いいえ」の音声が入力される。CPU１２は、ステ
ップＳ２７において、使用者からの応答を認識処理し、
ステップＳ２８において、使用者の応答が「はい」と
「いいえ」のいずれであるのかを再び判定する。使用者
からの返事が「いいえ」である場合には、再び、ステッ
プＳ２９に戻り、rec_ng１が、２より小さいか否かを判
定する。今の場合、rec_ng１は１であるから、YESの判
定が行われ、再び、ステップＳ３０乃至ステップＳ３４
の処理が、上述した場合と同様に実行される。

【００４４】以上のようにして、変数rec_ng１の値が２
となると、ステップＳ２９においてNOの判定が行われ、
ステップＳ３５において、CPU１２は、「申し訳ござい
ません。ご住所を聞き取ることができませんでしたの
で、後ほど、録音内容で確認させていただきます。」の
メッセージをROM１３から読み出し、端末３−１に転送
させる。

【００４５】ステップＳ２８において、使用者からの入
力が「はい」であると判定された場合（都道府県市区町
村郡名が正しい場合）、ステップＳ３６に進み、CPU１
２は、フラグflagが０であるか否かを判定する。フラグ
flagが０である場合には（ステップＳ２２で都道府県市
区町村郡名が正しく認識された場合には）、ステップＳ
３７に進み、CPU１２は、「それでは、番地を「３の４
の１６」のように、もう一度おっしゃってください。」
のメッセージをROM１３から読み出し、端末３−１に転
送する。ステップＳ３８において、CPU１２は、変数rec
_ng２を１だけインクリメントする（今の場合、rec_ng
２＝１とする）。

【００４６】ステップＳ３９において、CPU１２は、番
地音声認識処理を実行する。すなわち、使用者は、ステ
ップＳ３７の処理で転送されたメッセージを受信したと
き、番地をマイクロホンに向かって発話する。CPU１２
は、この音声信号が、端末３−１から転送されてきたと
き、音声認識部１６にこれを転送し、認識処理させる。
すなわち、今の場合（フラグflag＝０の場合）、ステッ
プＳ２２で認識された住所の内、都道府県市区町村郡名
は正しかったので、「３の４の１６」のような番地だけ
が、再度発話され、これが認識処理される。

【００４７】CPU１２は、ステップＳ３９において認識
された番地をROM１３に記憶されているメッセージと組
み合わせ、ステップ４０において、「「a−b−c」で正
しいでしょうか？」のメッセージを合成し、端末３−１
に送信させる。

【００４８】一方、ステップＳ３６において、フラグfl
agが０ではないと判定された場合、すなわち、１である
と判定された場合、ステップＳ３２の都道府県市区町村
郡名認識処理を経て、処理が進んできたことになる。こ
の場合、ステップＳ２２で認識された住所の内、都道府
県市区町村郡名が誤っており、ステップＳ３２の区分さ
れた認識処理で正しい都道府県市区町村郡名が認識され
たのであるから、ステップＳ３７乃至ステップＳ３９の
処理はスキップされ、直ちにステップＳ４０において、
ステップＳ２２で認識された番地が正しいか否かのメッ
セージが、端末３−１に転送される。

【００４９】端末３−１においては、このメッセージを
受信すると、上述した場合と同様に、それが正しければ
「はい」のメッセージが入力され、誤っていれば「いい
え」のメッセージが入力される。CPU１２は、ステップ
Ｓ４１において、この使用者の応答を確認処理し、ステ
ップＳ４２において、使用者の返事が「はい」であるの
か、「いいえ」であるのかを判定する。

【００５０】使用者の返事が「はい」である場合には、
正しい番地が認識されたことになるので、ステップＳ４
６に進み、ステップＳ２２またはステップＳ３２で認識
された正しい都道府県市区町村郡名と、ステップＳ２２
またはステップＳ３９で認識された正しい番地とを合成
し、例えば、「ご住所を、H県I市J町d−e−fとして承り
ました。」のようなメッセージを、端末３−１に送信す
る。

【００５１】ステップＳ４２において、使用者の返事が
「いいえ」であると判定された場合、ステップＳ４３に
進み、CPU１２は、変数rec_ng２が基準値２より小さい
か否かを判定する。変数rec_ng２が基準値２より小さい
場合には、ステップＳ４４に進み、CPU１２は、「お手
数をおかけしますが、もう一度番地をお願いします。」
のメッセージをROM１３から読み出し、端末３−１に転
送させる。その後、ステップＳ３８に戻り、それ以降の
処理が繰り返し実行される。

【００５２】ステップＳ４３において、変数rec_ng２
が、基準値２と等しいか、それより大きくなったと判定
された場合、結局正しい番地を認識することができなか
ったことになるので、ステップＳ４５に進み、CPU１２
は、「申し訳ございません。ご住所を聞き取ることがで
きませんでしたので、後ほど、録音内容で確認させてい
ただきます。」のメッセージをROM１３から読み出し、
端末３−１に送信する。

【００５３】以上のように、この例においては、最初
に、都道府県から番地まで一括して発話された住所が音
声認識され、正しい認識結果が得られれば、それで処理
が終了される。正しい認識結果が得られなかった場合に
は、住所が、都道府県市区町村郡名と、それより後の番
地とに区分されて認識処理が行われる。「東京都港区虎
ノ門」のような都道府県市区町村郡名は、一般性が低い
名詞であり、換言すれば、固有性が高い名詞であり（固
有名詞であり）、音声認識に用いる辞書も、限られた固
有名詞だけが登録されている辞書とすることができる。
その結果、迅速かつ正確な認識が可能となる。

【００５４】これに対して、例えば、「×の×の××」
のような番地は、一般性が高くなり（一般名詞であ
り）、固有名詞などは含まれない辞書を用いることが可
能となる。その結果、それだけ検索対象となる名詞の数
が少なくなり、やはり、迅速かつ正確な認識が可能とな
る。

【００５５】なお、ここにおける番地とは、丁目に限ら
ず、地割り、庁、街区などの一般性が高い名称も含まれ
る。

【００５６】次に、図５のフローチャートを参照して、
会社において用件のある人物に電話を繋げる場合の処理
について説明する。会社の人物に用件のある電話の使用
者は、インターネット２を介して所定の会社に設置して
あるサーバ１にアクセスする（勿論、通常の電話回線を
介してサーバー１にアクセスが行われる場合もあるが、
以下においては、インターネット２を介してアクセスが
行われるものとする）。このとき、サーバ１は、図５の
フローチャートに示す処理を開始する。

【００５７】ステップＳ６１において、サーバ１のCPU
１２は、ROM１３に予め記憶されているメッセージの中
から、例えば、「ABC株式会社電話転送システムで
す。」のようなメッセージを読み出し、入出力インタフ
ェース１７から通信部２０を介して、端末３−１に出力
させる。さらに、ステップＳ６２において、CPU１２
は、ROM１３から、「用件のある者の部署名、名前をお
っしゃって下さい。」のメッセージを読み出し、システ
ムの使用者に出力する。

【００５８】端末３−１において、使用者は、サーバ１
からのメッセージを受信すると、用件のある人物の部署
名・名前を、例えば「A部B課のやまもとさんをお願いし
ます。」のように発話する。この音声信号は、上述した
場合と同様に、インターネット２を介して、サーバ１に
送信される。サーバ１においてCPU１２は、部署名・名
前の音声データの入力を受けると、ステップＳ６３にお
いて、これをバス１１を介してRAM１４に転送し、記憶
させるとともに、さらに音声認識部１６に転送し、部署
名・名前を認識処理させる。この部署名・名前音声住所
認識処理の詳細は、図６のフローチャートを参照して後
述する。

【００５９】部署名および名前が認識された後、CPU１
２はROM１３から「電話をお繋ぎします。」のメッセー
ジを読み出し、入力インタフェースから通信部２０を介
して端末３−１に送信させる。

【００６０】次に、図６のフローチャートを参照して、
図５のステップＳ６３の部署名および名前の認識処理の
詳細について説明する。ステップＳ８１において、CPU
１２は、変数rec_ng１とrec_ng２を、それぞれ０に初期
設定するとともに、フラグflagに０を設定する。変数re
c_ng１は、部署名の区分した認識処理回数を表し、変数
rec_ng２は、名前の区分した認識処理の回数を表す。フ
ラグflagは、部署名の区分した認識処理を経たか否かを
表すフラグである。

【００６１】次に、ステップＳ８２において、CPU１２
は、部署名および名前の認識処理を実行する。すなわ
ち、上述したように、使用者は、部署名および名前を一
括して発話しているので、この一連の音声入力に対し
て、音声認識部１６において、認識処理が実行される。
音声認識部１６は、認識の結果得られたデータを音声デ
ータに変換し、CPU１２に出力する。CPU１２は、この音
声データを受け取ると、ステップＳ８３において、ROM
１３に予め登録されているメッセージと組み合わせ、例
えば、「C部D課のやまださんでよろしいですか？」のよ
うなメッセージとして合成し、通信部２０から端末３−
１に送信させる。

【００６２】端末３−１においては、自分自身の発話に
対して認識された結果の部署名および名前を含むメッセ
ージを受信すると、使用者は、その部署名および名前が
正しければ「はい」を、正しくなければ「いいえ」を、
マイクロホンから入力する。この音声信号は、端末３−
１からインターネット２を介して、サーバ１に転送され
る。

【００６３】サーバ１のCPU１２は、ステップＳ８４に
おいて、この音声信号を確認処理し、ステップＳ８５に
おいて、確認された音声が「はい」と「いいえ」のいず
れであるのかを判定する。使用者からの返事が「はい」
である場合には、一括発話から正しい部署名および名前
の認識処理が行われたことになるので、その認識された
部署名および名前を有する者へ電話を転送する処理が実
行される。これに対して、使用者からの返事が「いい
え」である場合には、一括発話が間違って音声認識処理
されたことになるので、ステップＳ８６に進み、CPU１
２は、認識された部署名および名前とROM１３に予め記
憶されているメッセージとを合成して、例えば「E部F課
までは、正しいでしょうか？」のメッセージを生成し、
通信部２０を介して、端末３−１に送信する。

【００６４】端末３−１においては、使用者が、このメ
ッセージを受信し、その部署名が正しければ「はい」
を、正しくなければ「いいえ」をマイクロホンから入力
する。

【００６５】ステップＳ８７において、サーバ１のCPU
１２は、使用者からの返事を確認処理し、ステップＳ８
８において、使用者の返事が「はい」であるのか、「い
いえ」であるのかを判定する。

【００６６】使用者からの返事が「いいえ」である場合
には、ステップＳ８９に進み、CPU１２は、変数rec_ng
１が基準値２より小さいか否かを判定する。今の場合、
ステップＳ８１において、変数rec_ng１には０が設定さ
れているため、YESの判定が行われ、処理はステップＳ
９０に進む。ステップＳ９０において、CPU１２は、ROM
１３から「部署名をもう一度おっしゃってください。」
のメッセージを読み出し、端末３−１に送信する。CPU
１２は、ステップＳ９１において、変数rec_ng１を１だ
けインクリメントし（今の場合、rec_ng１＝１とし）、
ステップＳ９２において、部署名音声認識処理を実行す
る。すなわち、ステップＳ８２で認識した部署名は誤っ
ていたので、使用者により再度入力された音声信号から
RAM１４に記憶されているデータに基づいて、再度、部
署名が音声認識処理される。

【００６７】次に、ステップＳ９３において、CPU１２
は、フラグflagに１を設定し、ステップＳ９４におい
て、ステップＳ９２で認識された結果得られた部署名を
含む「G部H課までは正しいでしょうか？」のメッセージ
を生成し、端末３−１に送信する。

【００６８】端末３−１においては、受信したメッセー
ジが正しければ「はい」の音声が入力され、間違ってい
れば「いいえ」の音声が入力される。CPU１２は、ステ
ップＳ８７において、使用者からの応答を認識処理し、
ステップＳ８８において、使用者の応答が「はい」と
「いいえ」のいずれであるのかを再び判定する。使用者
からの返事が「いいえ」である場合には、再び、ステッ
プＳ８９に戻り、rec_ng１が、２より小さいか否かを判
定する。今の場合、rec_ng１は１であるから、YESの判
定が行われ、再び、ステップＳ９０乃至ステップＳ９４
の処理が、上述した場合と同様に実行される。

【００６９】以上のようにして、変数rec_ng１の値が２
となると、ステップＳ８９においてNOの判定が行われ、
ステップＳ９５において、CPU１２は、「申しわけござ
いませんが、部署名を認識できませんでした。オペレー
タにお回しします。」のメッセージをROM１３から読み
出し、端末３−１に転送させる。そして、オペレータに
転送する処理が実行される。

【００７０】ステップＳ８８において、使用者からの入
力が「はい」であると判定された場合（部署名が正しい
場合）、ステップＳ９６に進み、CPU１２は、フラグfla
gが０であるか否かを判定する。フラグflagが０である
場合には（ステップＳ８２で部署名が正しく認識された
場合には）、ステップＳ９７に進み、CPU１２は、「で
は、お名前をおっしゃってください。」のメッセージを
ROM１３から読み出し、端末３−１に転送する。ステッ
プＳ９８において、CPU１２は、変数rec_ng２を１だけ
インクリメントする（今の場合、rec_ng２＝１とす
る）。

【００７１】ステップＳ９９において、CPU１２は、名
前音声認識処理を実行する。すなわち、使用者は、ステ
ップＳ９７の処理で転送されたメッセージを受信したと
き、名前をマイクロホンに向かって発話する。CPU１２
は、この音声信号が、端末３−１から転送されてきたと
き、音声認識部１６にこれを転送し、認識処理させる。
すなわち、今の場合（フラグflag＝０の場合）、ステッ
プＳ８２で認識された部署名および名前の内、部署名は
正しかったので、「やまもとさんです。」のような名前
だけが、再度発話され、これが認識処理される。

【００７２】CPU１２は、ステップＳ９９において認識
された名前をROM１３に記憶されているメッセージと組
み合わせ、ステップＳ１００において、「「やまもと」
さんでよろしいですか？」のメッセージを合成し、端末
３−１に送信させる。

【００７３】一方、ステップＳ９６において、フラグfl
agが０ではないと判定された場合、すなわち、１である
と判定された場合、ステップＳ９２の部署名音声認識処
理を経て、処理が進んできたことになる。この場合、ス
テップＳ８２で認識された部署名および名前の内、部署
名が誤っており、ステップＳ９２の区分された認識処理
で正しい部署名が認識されたのであるから、ステップＳ
９７乃至ステップＳ９９の処理はスキップされ、直ちに
ステップＳ１００において、ステップＳ８２で認識され
た名前が正しいか否かのメッセージが、端末３−１に転
送される。

【００７４】端末３−１においては、このメッセージを
受信すると、上述した場合と同様に、それが正しければ
「はい」のメッセージが入力され、誤っていれば「いい
え」のメッセージが入力される。CPU１２は、ステップ
Ｓ１０１において、この使用者の応答を確認処理し、ス
テップＳ１０２において、使用者の返事が「はい」であ
るのか、「いいえ」であるのかを判定する。

【００７５】使用者の返事が「はい」である場合には、
正しい名前が認識されたことになるので、ステップＳ１
０５に進み、ステップＳ８２またはステップＳ９２で認
識された正しい部署名と、ステップＳ８２またはステッ
プＳ９９で認識された正しい名前とを合成し、例えば、
「では、I部J課の山本さんにお繋ぎします。」のような
メッセージを、端末３−１に送信する。その後、I部J課
の山本さんへの転送処理が実行される。

【００７６】ステップＳ１０２において、使用者の返事
が「いいえ」であると判定された場合、ステップＳ１０
３に進み、CPU１２は、変数rec_ng２が基準値２より小
さいか否かを判定する。変数rec_ng２が基準値２より小
さい場合には、ステップＳ９７に戻り、CPU１２は、
「では、お名前をおっしゃって下さい。」のメッセージ
をROM１３から読み出し、端末３−１に転送させる。そ
の後、ステップＳ９８に進み、それ以降の処理が繰り返
し実行される。

【００７７】ステップＳ１０３において、変数rec_ng２
が、基準値２と等しいか、それより大きくなったと判定
された場合、部署名は認識することができたが、正しい
名前を認識することができなかったことになるので、ス
テップＳ１０４に進み、CPU１２は、「申し訳ございま
せん。部署の代表番号にお回しします。」のメッセージ
をROM１３から読み出し、端末３−１に送信する。その
後、その部署の代表番号への転送処理が実行される。

【００７８】以上のように、この例においては、最初
に、部署名および名前を一括して発話されたものが音声
認識され、正しい認識結果が得られれば、その部署のそ
の名前の者への転送処理が実行される。正しい認識結果
が得られなかった場合には、部署名と名前とに区分され
て認識処理が行われる。例えば「A部B課」のような部署
名は、一般性が低い名詞であり、前記住所認識処理の際
の都道府県区市町村郡の名称と同様に、音声認識に用い
る辞書も、限られた固有名詞だけが登録されている辞書
とすることができる。

【００７９】これに対して、例えば、「やまもとさん」
のような人名は、一般性が高くなり前記住所認識処理の
際の番地と同様に、固有名詞などは含まれない辞書を用
いることが可能となる。

【００８０】

【発明の効果】以上の如く、本発明の音声認識装置、音
声認識方法、および記録媒体によれば、一連の第１の音
声を認識できなかったとき、第１の音声を、一般性の低
い第２の音声と、一般性の高い第３の音声とに区分して
認識するようにしたので、迅速かつ確実に、音声認識す
ることが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識システムの構成例を
示す図である。

【図２】図１のサーバ１の構成例を示すブロック図であ
る。

【図３】図１のサーバ１の動作を資料送付システムの実
施の形態を用いて説明するフローチャートである。

【図４】図３のステップＳ５の住所認識処理の詳細な処
理を説明するフローチャートである。

【図５】図１のサーバー１の動作を電話転送システムの
実施の形態を用いて説明するフローチャートである。

【図６】図５のステップＳ６３の部署名・名前認識
処理の詳細な処理を説明するフローチャートである。

【符号の説明】

１サーバ２インターネット３−１乃至３−３端末１１バス１２ CPU １３ ROM １４ RAM １５ハードディスク１６音声認識部１７入出力インタフェース１８出力部１９表示部２０通信部２１ドライブ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５７１Ｃ (72)発明者糀谷和人京都府京都市右京区花園土堂町10番地オムロン株式会社内Ｆターム(参考） 5D015 AA04 BB01 GG04 KK02 LL02 LL05

Claims

【特許請求の範囲】

【請求項１】入力された一連の第１の音声を認識する
第１の認識手段と、前記第１の認識手段により音声が認識できなかったと
き、前記第１の音声を、一般性の低い第２の音声と、一
般性の高い第３の音声とに区分して認識する第２の認識
手段とを備えることを特徴とする音声認識装置。
【請求項２】前記第１の認識手段に認識させるための
前記第１の音声の入力を案内する第１の案内手段と、前記第１の認識手段により音声が認識できなかったと
き、前記第２の認識手段が区分して認識する前記第２の
音声と第３の音声の区分した入力を案内する第２の案内
手段とをさらに備えることを特徴とする請求項１に記載
の音声認識装置。
【請求項３】前記第１の音声は、住所であり、前記第２の音声は、都道府県市区町村郡の名称であり、前記第３の音声は、番地であることを特徴とする請求項
１に記載の音声認識装置。
【請求項４】前記第１の音声は、前記第２の音声とし
ての部署の名称と、前記第３の音声としての人名の組み合わせであることを
特徴とする請求項１に記載の音声認識装置。
【請求項５】入力された一連の第１の音声を認識する
第１の認識ステップと、前記第１の認識ステップの処理により音声が認識できな
かったとき、前記第１の音声を、一般性の低い第２の音
声と、一般性の高い第３の音声とに区分して認識する第
２の認識ステップとを含むことを特徴とする音声認識方
法。
【請求項６】入力された一連の第１の音声を認識する
第１の認識ステップと、前記第１の認識ステップの処理により音声が認識できな
かったとき、前記第１の音声を、一般性の低い第２の音
声と、一般性の高い第３の音声とに区分して認識する第
２の認識ステップとを含むことを特徴とするコンピュー
タに読み取り可能なプログラムが記録されている記録媒
体。