JP3550654B2 - 音声認識装置および方法、並びに記録媒体 - Google Patents
音声認識装置および方法、並びに記録媒体 Download PDFInfo
- Publication number
- JP3550654B2 JP3550654B2 JP2000138292A JP2000138292A JP3550654B2 JP 3550654 B2 JP3550654 B2 JP 3550654B2 JP 2000138292 A JP2000138292 A JP 2000138292A JP 2000138292 A JP2000138292 A JP 2000138292A JP 3550654 B2 JP3550654 B2 JP 3550654B2
- Authority
- JP
- Japan
- Prior art keywords
- addresses
- name
- address
- recognition
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Traffic Control Systems (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識装置および方法、並びに記録媒体に関し、特に、より操作性を改善した、音声認識装置および方法、並びに記録媒体に関する。
【0002】
【従来の技術】
最近、音声認識システムが普及しつつある。この音声認識システムによれば、使用者が所定の事項を音声で入力すると、それが音声認識され、音声認識の結果に対応する処理が実行されるので、使用者は、キーボードなどの入力装置を用いずに、簡単に各種の情報を入力することが可能となる。
【0003】
例えば、音声認識システムにおいて、住所を音声認識させる場合、「ご住所を都道府県から番地までおっしゃってください。」のようなメッセージを使用者に出力し、使用者に住所を都道府県から番地まで、一括して発話させる方法がある。このような場合、使用者は、例えば、「東京都港区虎ノ門3の4の10」といった発話をすることになる。この発話が正しく音声認識された場合、音声認識システムは、さらに、例えば、「ご住所は、東京都港区虎ノ門3の4の10ですね。」のようなメッセージを使用者に出力し、住所を確認させる。
【0004】
しかしながら、音声認識ができなかった場合、音声認識システムは、例えば、「申し訳ありませんが、もう一度ご住所をおっしゃってください。」のようなメッセージを出力することになる。使用者は、このメッセージに従って、再度、住所を都道府県から番地まで一括して発話する。音声認識ができなかった場合には、同様の処理が、2回、3回と繰り返されることになる。しかしながら、このような操作が、何回も繰り返されると、使用者は、不快感を感じ、音声認識システムに対して、不信感を抱いてしまうことになる。
【0005】
【発明が解決しようとする課題】
そこで、例えば、住所を都道府県から番地まで一括して発話させるのではなく、部分的に発話させ、逐次確認をしていく方法が考えられている。この場合、例えば、音声認識システムは、「ご住所の都道府県をおっしゃってください。」のようなメッセージを最初に出力する。これに対して、使用者は、例えば、「東京都」のように発話する。「東京都」を認識できたとき、音声認識システムは、さらに、例えば、「ご住所の都道府県の次をおっしゃってください。」のようなメッセージを出力し、これに対応して、使用者は、例えば、「港区」のように発話する。「港区」が正しく認識できた場合、音声認識システムは、さらに、例えば、「港区」の次をおっしゃってください。」のようなメッセージを出力する。使用者は、これに対応して、例えば、「虎ノ門」のように発話する。
【0006】
このように、住所を細かく区分して、逐次発話させ、確認するようにすると、一括して発話させ、これを確認する場合に比べて、単語と単語の境界部分が明確になるので、認識率が向上する。
【0007】
しかしながら、このように、逐次確認する処理を行うと、一括確認を行う場合に較べて、音声認識のために必要な総合的な対話時間が長くなってしまう。その結果、例えば、電話で音声入力を行っているような場合、通話料が高くなり、音声認識システムにより、入力を自動化したメリットが少なくなってしまう課題があった。
【0008】
本発明はこのような状況に鑑みてなされたものであり、迅速に、かつ確実に、音声認識できるようにするものである。
【0009】
【課題を解決するための手段】
本発明の第1の音声認識装置は、入力された一連の住所を認識する第1の認識手段と、第1の認識手段により、入力された一連の前記住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識手段とを備えることを特徴とする。
【0010】
前記認識手段は、例えば、図2の音声認識部16で構成される。
【0011】
本発明の第1の音声認識装置においては、入力された一連の住所が認識され、入力された一連の住所が認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して認識される。
【0012】
このように、入力された一連の住所を認識できなかったとき、一連の住所を一般性の低い都道府県市区町村郡の名称と、一般性の高い番地とに区分して認識するようにしたので、音声認識に用いる辞書も、それぞれの一般性の高低に応じた辞書のみを使用することができ、迅速かつ正確な音声認識が可能となる。
【0013】
本発明の第2の音声認識装置は、一連の住所の入力を案内する第1の案内手段と、第1の案内手段による案内に応じて入力された一連の住所を認識する第1の認識手段と、第1の認識手段により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して入力することを案内する第2の案内手段と、第2の案内手段による案内に応じて入力された都道府県市区町村郡の名称と番地を区分して認識する第2の認識手段とを備えることを特徴とする。
【0014】
前記第1の案内手段は、図4のステップS23や図6のステップS83のメッセージを出力する処理で構成され、前記第2の案内手段は、図4のステップS26、S30、S34、S37、S40,S44や図5のステップS86、S90、S94,S97,S100のメッセージを出力する処理で構成される。
【0015】
本発明の第2の音声認識装置においては、一連の住所の入力が案内され、その案内に応じて入力された一連の住所が認識される。また、入力された一連の住所が認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して入力することが案内され、その案内に応じて入力された都道府県市区町村郡の名称と番地が区分して認識される。
【0016】
前記案内手段の案内により、利用者に、住所、都道府県市区町村郡の名称または番地を確実に入力させることが可能となる。
【0019】
本発明の音声認識方法は、入力された一連の住所を認識する第1の認識ステップと、第1の認識ステップの処理により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識ステップとを含むことを特徴とする。
【0020】
本発明の記録媒体のプログラムは、入力された一連の住所を認識する第1の認識ステップと、第1の認識ステップの処理により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識ステップとを含むことを特徴とする。
【0021】
前記第1の認識ステップは、例えば、図4のステップS22または図6のステップS82で構成される。前記第2の認識ステップは、例えば、図4のステップS32もしくはステップS39、または図6のステップS92もしくはステップS99で構成される。
【0022】
本発明の音声認識方法、および記録媒体のプログラムにおいては、入力された一連の住所が音声認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して認識される。
【0023】
本発明の音声認識方法、および記録媒体のプログラムによれば、入力された住所を認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識するようにしたので、音声認識に用いる辞書も、それぞれの一般性の高低に応じた辞書のみを使用することができ、迅速かつ正確な認識が可能となる。
【0024】
【発明の実施の形態】
図1は、本発明を適用した音声認識システムの構成例を表している。この構成例においては、インターネット2にサーバ1が接続されており、端末3−1乃至3−3は、インターネット2を介してサーバ1にアクセスし、所定の情報を検索することができるようになされている。
【0025】
サーバ1は、例えば、図2に示すように構成されている。CPU(Central Processing Unit)12は、ROM(Read Only Memory)13に記憶されているプログラムに従って、各種の処理を実行する。RAM(Random Access Memory)14は、CPU12が、各種の処理を実行する上において必要なプログラムやデータが適宜記憶される。ハードディスク15には、CPU12が処理するプログラムや、端末3−1乃至3−3に供給する各種の情報が記憶されている。音声認識部16は、端末3−1乃至3−3から入力されてきた音声を認識する処理を実行する。これらのCPU12乃至音声認識部16は、バス11を介して相互に接続されている。
【0026】
バス11にはまた、入出力インタフェース17も接続されている。入出力インタフェース17には、LCD(Liquid Crystal Display)やCRT(Cathod Rray Tube)などにより構成される表示部18、キーボード、マウス、マイクロホンなどにより構成される入力部19、モデムなどにより構成され、インターネット2に接続される通信部20、およびフロッピーディスク、CD−ROMといったディスクを駆動し、データを記録または再生するドライブ21が接続されている。入出力インタフェース17は、これらの表示部18乃至ドライブ21とCPU12との間のインタフェース処理を実行する。
【0027】
なお、図示は省略するが、端末3−1乃至3−3も、基本的にサーバ1と同様に構成される。
【0028】
次に、図3のフローチャートを参照して、端末3−1乃至3−3から、サーバ1にアクセスし、所定の資料を要求する場合の処理について説明する。例えば、端末3−1の使用者は、サーバ1に対して資料を要求するとき、インターネット2を介してサーバ1にアクセスする。このとき、サーバ1は、図3のフローチャートに示す処理を開始する。
【0029】
ステップS1において、サーバ1のCPU12は、ROM13に予め記憶されているメッセージの中から、例えば、「お電話ありがとうございます。ABC資料送付システムです。」のようなメッセージを読み出し、入出力インタフェース17から通信部20を介して、端末3−1に出力させる。さらに、ステップS2において、CPU12は、ROM13から、「まず、お名前を『やまだ たろう』のようにおっしゃってください。」のメッセージを読み出し、端末3−1に出力する。
【0030】
端末3−1の使用者は、このメッセージを受信したとき、そのメッセージに従って、端末3−1のマイクロホンから、自分自身の氏名を、例えば、「特許太郎」のように発話する。この音声信号は、端末3−1からインターネット2を介してサーバ1に転送される。サーバ1において、通信部20は、この音声信号を受け取ると、これを復調し、入出力インタフェース17を介して、CPU12に出力する。CPU12は、氏名の音声データを受け取ると、ステップS3において、これをバス11を介して、RAM14に転送し、記憶させるとともに、さらに音声認識部16に転送し、認識(名前認識)処理させる。認識された氏名は、必要に応じて、例えば、ハードディスク15に転送され、記憶される。
【0031】
次に、ステップS4において、CPU12は、ROM13から、例えば、「次に、ご住所を都道府県から番地まで『東京都港区虎ノ門3の4の16』のようにおっしゃってください。」のメッセージを読み出し、通信部20から、インターネット2を介して端末3−1に送信する。
【0032】
端末3−1において、使用者は、サーバ1からのメッセージを受信すると、自分自身の住所(資料を送付してもらいたい住所)を発話する。この音声信号は、上述した場合と同様に、インターネット2を介して、サーバ1に送信される。サーバ1においてCPU12は、住所データの入力を受けると、ステップS5において、これをバス11を介してRAM14に転送し、記憶させるとともに、さらに音声認識部16に転送し、住所を認識処理させる。この住所認識処理の詳細は、図4のフローチャートを参照して後述する。
【0033】
認識された住所は、ハードディスク15に転送され、ステップS4で認識された氏名に対応して記憶される。
【0034】
ステップS6において、CPU12は、ROM13から「後ほど、資料を送付いたします。ご利用ありがとうございました。」のメッセージを読み出し、入出力インタフェース17から通信部20を介して端末3−1に送信させる。
【0035】
次に、図4のフローチャートを参照して、図3のステップS5の住所認識処理の詳細について説明する。ステップS21において、CPU12は、変数rec_ng1とrec_ng2を、それぞれ0に初期設定するとともに、フラグflagに0を設定する。変数rec_ng1は、住所の中の都道府県市区町村郡名の区分した認識処理回数を表し、変数rec_ng2は、住所の中の番地の区分した認識処理の回数を表す。フラグflagは、都道府県市区町村郡名の区分した認識処理を経たか否かを表すフラグである。
【0036】
次に、ステップS22において、CPU12は、住所音声認識処理を実行する。すなわち、上述したように、使用者は、住所を都道府県から番地まで一括して発話しているので、この一連の音声入力に対して、音声認識部16において、認識処理が実行される。音声認識部16は、認識の結果得られたデータを音声データに変換し、CPU12に出力する。CPU12は、この音声データを受け取ると、ステップS23において、ROM13に予め登録されているメッセージと組み合わせ、例えば、「ご住所は、Aでよろしいでしょうか。」のようなメッセージとして合成し、通信部20から端末3−1に送信させる。
【0037】
端末3−1においては、自分自身の発話に対して認識された結果の住所を含むメッセージを受信すると、使用者は、その住所が正しければ「はい」を、正しくなければ「いいえ」を、マイクロホンから入力する。この音声信号は、端末3−1からインターネット2を介して、サーバ1に転送される。
【0038】
サーバ1のCPU12は、ステップS24において、この音声信号を確認処理し、ステップS25において、確認された音声が「はい」と「いいえ」のいずれであるのかを判定する。使用者からの返事が「はい」である場合には、一括発話から正しい音声認識処理が行われたことになるので、処理は終了される。これに対して、使用者からの返事が「いいえ」である場合には、一括発話が間違って音声認識処理されたことになるので、ステップS26に進み、CPU12は、認識された都道府県市区町村郡名とROM13に予め記憶されているメッセージとを合成して、例えば「B県C市D町までは、正しいでしょうか」のメッセージを生成し、通信部20を介して、端末3−1に送信する。
【0039】
端末3−1においては、使用者が、このメッセージを受信し、その都道府県市区町村郡名が正しければ「はい」を、正しくなければ「いいえ」をマイクロホンから入力する。
【0040】
ステップS27において、サーバ1のCPU12は、使用者からの返事を確認処理し、ステップS28において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0041】
使用者からの返事が「いいえ」である場合には、ステップS29に進み、CPU12は、変数rec_ng1が基準値2より小さいか否かを判定する。今の場合、ステップS21において、変数rec_ng1には0が設定されているため、YESの判定が行われ、処理はステップS30に進む。ステップS30において、CPU12は、ROM13から「お手数をおかけしますが、もう一度、番地の前までを『東京都港区虎ノ門』のようにお願いします。」のメッセージを読み出し、端末3−1に送信する。CPU12は、ステップS31において、変数rec_ng1を1だけインクリメントし(今の場合、rec_ng1=1とし)、ステップS32において、都道府県市区町村郡名音声認識処理を実行する。すなわち、ステップS22で認識した都道府県市区町村郡名は誤っていたので、使用者からの再度の音声入力から、RAM14に記憶されているデータに基づいて、再度、都道府県市区町村郡名が音声認識処理される。
【0042】
次に、ステップS33において、CPU12は、フラグflagに1を設定し、ステップS34において、ステップS32で認識された結果得られた都道府県市区町村郡名を含む「E県F市G町で正しいでしょうか?」のメッセージを生成し、端末3−1に送信する。
【0043】
端末3−1においては、受信したメッセージが正しければ「はい」の音声が入力され、間違っていれば「いいえ」の音声が入力される。CPU12は、ステップS27において、使用者からの応答を認識処理し、ステップS28において、使用者の応答が「はい」と「いいえ」のいずれであるのかを再び判定する。使用者からの返事が「いいえ」である場合には、再び、ステップS29に戻り、rec_ng1が、2より小さいか否かを判定する。今の場合、rec_ng1は1であるから、YESの判定が行われ、再び、ステップS30乃至ステップS34の処理が、上述した場合と同様に実行される。
【0044】
以上のようにして、変数rec_ng1の値が2となると、ステップS29においてNOの判定が行われ、ステップS35において、CPU12は、「申し訳ございません。ご住所を聞き取ることができませんでしたので、後ほど、録音内容で確認させていただきます。」のメッセージをROM13から読み出し、端末3−1に転送させる。
【0045】
ステップS28において、使用者からの入力が「はい」であると判定された場合(都道府県市区町村郡名が正しい場合)、ステップS36に進み、CPU12は、フラグflagが0であるか否かを判定する。フラグflagが0である場合には(ステップS22で都道府県市区町村郡名が正しく認識された場合には)、ステップS37に進み、CPU12は、「それでは、番地を「3の4の16」のように、もう一度おっしゃってください。」のメッセージをROM13から読み出し、端末3−1に転送する。ステップS38において、CPU12は、変数rec_ng2を1だけインクリメントする(今の場合、rec_ng2=1とする)。
【0046】
ステップS39において、CPU12は、番地音声認識処理を実行する。すなわち、使用者は、ステップS37の処理で転送されたメッセージを受信したとき、番地をマイクロホンに向かって発話する。CPU12は、この音声信号が、端末3−1から転送されてきたとき、音声認識部16にこれを転送し、認識処理させる。すなわち、今の場合(フラグflag=0の場合)、ステップS22で認識された住所の内、都道府県市区町村郡名は正しかったので、「3の4の16」のような番地だけが、再度発話され、これが認識処理される。
【0047】
CPU12は、ステップS39において認識された番地をROM13に記憶されているメッセージと組み合わせ、ステップ40において、「「a−b−c」で正しいでしょうか?」のメッセージを合成し、端末3−1に送信させる。
【0048】
一方、ステップS36において、フラグflagが0ではないと判定された場合、すなわち、1であると判定された場合、ステップS32の都道府県市区町村郡名認識処理を経て、処理が進んできたことになる。この場合、ステップS22で認識された住所の内、都道府県市区町村郡名が誤っており、ステップS32の区分された認識処理で正しい都道府県市区町村郡名が認識されたのであるから、ステップS37乃至ステップS39の処理はスキップされ、直ちにステップS40において、ステップS22で認識された番地が正しいか否かのメッセージが、端末3−1に転送される。
【0049】
端末3−1においては、このメッセージを受信すると、上述した場合と同様に、それが正しければ「はい」のメッセージが入力され、誤っていれば「いいえ」のメッセージが入力される。CPU12は、ステップS41において、この使用者の応答を確認処理し、ステップS42において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0050】
使用者の返事が「はい」である場合には、正しい番地が認識されたことになるので、ステップS46に進み、ステップS22またはステップS32で認識された正しい都道府県市区町村郡名と、ステップS22またはステップS39で認識された正しい番地とを合成し、例えば、「ご住所を、H県I市J町d−e−fとして承りました。」のようなメッセージを、端末3−1に送信する。
【0051】
ステップS42において、使用者の返事が「いいえ」であると判定された場合、ステップS43に進み、CPU12は、変数rec_ng2が基準値2より小さいか否かを判定する。変数rec_ng2が基準値2より小さい場合には、ステップS44に進み、CPU12は、「お手数をおかけしますが、もう一度番地をお願いします。」のメッセージをROM13から読み出し、端末3−1に転送させる。その後、ステップS38に戻り、それ以降の処理が繰り返し実行される。
【0052】
ステップS43において、変数rec_ng2が、基準値2と等しいか、それより大きくなったと判定された場合、結局正しい番地を認識することができなかったことになるので、ステップS45に進み、CPU12は、「申し訳ございません。ご住所を聞き取ることができませんでしたので、後ほど、録音内容で確認させていただきます。」のメッセージをROM13から読み出し、端末3−1に送信する。
【0053】
以上のように、この例においては、最初に、都道府県から番地まで一括して発話された住所が音声認識され、正しい認識結果が得られれば、それで処理が終了される。正しい認識結果が得られなかった場合には、住所が、都道府県市区町村郡名と、それより後の番地とに区分されて認識処理が行われる。「東京都港区虎ノ門」のような都道府県市区町村郡名は、一般性が低い名詞であり、換言すれば、固有性が高い名詞であり(固有名詞であり)、音声認識に用いる辞書も、限られた固有名詞だけが登録されている辞書とすることができる。その結果、迅速かつ正確な認識が可能となる。
【0054】
これに対して、例えば、「3の4の10」のような番地は、一般性が高くなり(一般名詞であり)、固有名詞などは含まれない辞書を用いることが可能となる。その結果、それだけ検索対象となる名詞の数が少なくなり、やはり、迅速かつ正確な認識が可能となる。
【0055】
なお、ここにおける番地とは、丁目に限らず、地割り、庁、街区などの一般性が高い名称も含まれる。
【0056】
次に、図5のフローチャートを参照して、会社において用件のある人物に電話を繋げる場合の処理について説明する。会社の人物に用件のある電話の使用者は、インターネット2を介して所定の会社に設置してあるサーバ1にアクセスする(勿論、通常の電話回線を介してサーバー1にアクセスが行われる場合もあるが、以下においては、インターネット2を介してアクセスが行われるものとする)。このとき、サーバ1は、図5のフローチャートに示す処理を開始する。
【0057】
ステップS61において、サーバ1のCPU12は、ROM13に予め記憶されているメッセージの中から、例えば、「ABC株式会社電話転送システムです。」のようなメッセージを読み出し、入出力インタフェース17から通信部20を介して、端末3−1に出力させる。さらに、ステップS62において、CPU12は、ROM13から、「用件のある者の部署名、名前をおっしゃって下さい。」のメッセージを読み出し、システムの使用者に出力する。
【0058】
端末3−1において、使用者は、サーバ1からのメッセージを受信すると、用件のある人物の部署名・名前を、例えば「A部B課のやまもとさんをお願いします。」のように発話する。この音声信号は、上述した場合と同様に、インターネット2を介して、サーバ1に送信される。サーバ1においてCPU12は、部署名・名前の音声データの入力を受けると、ステップS63において、これをバス11を介してRAM14に転送し、記憶させるとともに、さらに音声認識部16に転送し、部署名・名前を認識処理させる。この部署名・名前音声住所認識処理の詳細は、図6のフローチャートを参照して後述する。
【0059】
部署名および名前が認識された後、CPU12はROM13から「電話をお繋ぎします。」のメッセージを読み出し、入力インタフェースから通信部20を介して端末3−1に送信させる。
【0060】
次に、図6のフローチャートを参照して、図5のステップS63の部署名および名前の認識処理の詳細について説明する。ステップS81において、CPU12は、変数rec_ng1とrec_ng2を、それぞれ0に初期設定するとともに、フラグflagに0を設定する。変数rec_ng1は、部署名の区分した認識処理回数を表し、変数rec_ng2は、名前の区分した認識処理の回数を表す。フラグflagは、部署名の区分した認識処理を経たか否かを表すフラグである。
【0061】
次に、ステップS82において、CPU12は、部署名および名前の認識処理を実行する。すなわち、上述したように、使用者は、部署名および名前を一括して発話しているので、この一連の音声入力に対して、音声認識部16において、認識処理が実行される。音声認識部16は、認識の結果得られたデータを音声データに変換し、CPU12に出力する。CPU12は、この音声データを受け取ると、ステップS83において、ROM13に予め登録されているメッセージと組み合わせ、例えば、「C部D課のやまださんでよろしいですか?」のようなメッセージとして合成し、通信部20から端末3−1に送信させる。
【0062】
端末3−1においては、自分自身の発話に対して認識された結果の部署名および名前を含むメッセージを受信すると、使用者は、その部署名および名前が正しければ「はい」を、正しくなければ「いいえ」を、マイクロホンから入力する。この音声信号は、端末3−1からインターネット2を介して、サーバ1に転送される。
【0063】
サーバ1のCPU12は、ステップS84において、この音声信号を確認処理し、ステップS85において、確認された音声が「はい」と「いいえ」のいずれであるのかを判定する。使用者からの返事が「はい」である場合には、一括発話から正しい部署名および名前の認識処理が行われたことになるので、その認識された部署名および名前を有する者へ電話を転送する処理が実行される。これに対して、使用者からの返事が「いいえ」である場合には、一括発話が間違って音声認識処理されたことになるので、ステップS86に進み、CPU12は、認識された部署名および名前とROM13に予め記憶されているメッセージとを合成して、例えば「E部F課までは、正しいでしょうか?」のメッセージを生成し、通信部20を介して、端末3−1に送信する。
【0064】
端末3−1においては、使用者が、このメッセージを受信し、その部署名が正しければ「はい」を、正しくなければ「いいえ」をマイクロホンから入力する。
【0065】
ステップS87において、サーバ1のCPU12は、使用者からの返事を確認処理し、ステップS88において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0066】
使用者からの返事が「いいえ」である場合には、ステップS89に進み、CPU12は、変数rec_ng1が基準値2より小さいか否かを判定する。今の場合、ステップS81において、変数rec_ng1には0が設定されているため、YESの判定が行われ、処理はステップS90に進む。ステップS90において、CPU12は、ROM13から「部署名をもう一度おっしゃってください。」のメッセージを読み出し、端末3−1に送信する。CPU12は、ステップS91において、変数rec_ng1を1だけインクリメントし(今の場合、rec_ng1=1とし)、ステップS92において、部署名音声認識処理を実行する。すなわち、ステップS82で認識した部署名は誤っていたので、使用者により再度入力された音声信号からRAM14に記憶されているデータに基づいて、再度、部署名が音声認識処理される。
【0067】
次に、ステップS93において、CPU12は、フラグflagに1を設定し、ステップS94において、ステップS92で認識された結果得られた部署名を含む「G部H課までは正しいでしょうか?」のメッセージを生成し、端末3−1に送信する。
【0068】
端末3−1においては、受信したメッセージが正しければ「はい」の音声が入力され、間違っていれば「いいえ」の音声が入力される。CPU12は、ステップS87において、使用者からの応答を認識処理し、ステップS88において、使用者の応答が「はい」と「いいえ」のいずれであるのかを再び判定する。使用者からの返事が「いいえ」である場合には、再び、ステップS89に戻り、rec_ng1が、2より小さいか否かを判定する。今の場合、rec_ng1は1であるから、YESの判定が行われ、再び、ステップS90乃至ステップS94の処理が、上述した場合と同様に実行される。
【0069】
以上のようにして、変数rec_ng1の値が2となると、ステップS89においてNOの判定が行われ、ステップS95において、CPU12は、「申しわけございませんが、部署名を認識できませんでした。オペレータにお回しします。」のメッセージをROM13から読み出し、端末3−1に転送させる。そして、オペレータに転送する処理が実行される。
【0070】
ステップS88において、使用者からの入力が「はい」であると判定された場合(部署名が正しい場合)、ステップS96に進み、CPU12は、フラグflagが0であるか否かを判定する。フラグflagが0である場合には(ステップS82で部署名が正しく認識された場合には)、ステップS97に進み、CPU12は、「では、お名前をおっしゃってください。」のメッセージをROM13から読み出し、端末3−1に転送する。ステップS98において、CPU12は、変数rec_ng2を1だけインクリメントする(今の場合、rec_ng2=1とする)。
【0071】
ステップS99において、CPU12は、名前音声認識処理を実行する。すなわち、使用者は、ステップS97の処理で転送されたメッセージを受信したとき、名前をマイクロホンに向かって発話する。CPU12は、この音声信号が、端末3−1から転送されてきたとき、音声認識部16にこれを転送し、認識処理させる。すなわち、今の場合(フラグflag=0の場合)、ステップS82で認識された部署名および名前の内、部署名は正しかったので、「やまもとさんです。」のような名前だけが、再度発話され、これが認識処理される。
【0072】
CPU12は、ステップS99において認識された名前をROM13に記憶されているメッセージと組み合わせ、ステップS100において、「「やまもと」さんでよろしいですか?」のメッセージを合成し、端末3−1に送信させる。
【0073】
一方、ステップS96において、フラグflagが0ではないと判定された場合、すなわち、1であると判定された場合、ステップS92の部署名音声認識処理を経て、処理が進んできたことになる。この場合、ステップS82で認識された部署名および名前の内、部署名が誤っており、ステップS92の区分された認識処理で正しい部署名が認識されたのであるから、ステップS97乃至ステップS99の処理はスキップされ、直ちにステップS100において、ステップS82で認識された名前が正しいか否かのメッセージが、端末3−1に転送される。
【0074】
端末3−1においては、このメッセージを受信すると、上述した場合と同様に、それが正しければ「はい」のメッセージが入力され、誤っていれば「いいえ」のメッセージが入力される。CPU12は、ステップS101において、この使用者の応答を確認処理し、ステップS102において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0075】
使用者の返事が「はい」である場合には、正しい名前が認識されたことになるので、ステップS105に進み、ステップS82またはステップS92で認識された正しい部署名と、ステップS82またはステップS99で認識された正しい名前とを合成し、例えば、「では、I部J課の山本さんにお繋ぎします。」のようなメッセージを、端末3−1に送信する。その後、I部J課の山本さんへの転送処理が実行される。
【0076】
ステップS102において、使用者の返事が「いいえ」であると判定された場合、ステップS103に進み、CPU12は、変数rec_ng2が基準値2より小さいか否かを判定する。変数rec_ng2が基準値2より小さい場合には、ステップS97に戻り、CPU12は、「では、お名前をおっしゃって下さい。」のメッセージをROM13から読み出し、端末3−1に転送させる。その後、ステップS98に進み、それ以降の処理が繰り返し実行される。
【0077】
ステップS103において、変数rec_ng2が、基準値2と等しいか、それより大きくなったと判定された場合、部署名は認識することができたが、正しい名前を認識することができなかったことになるので、ステップS104に進み、CPU12は、「申し訳ございません。部署の代表番号にお回しします。」のメッセージをROM13から読み出し、端末3−1に送信する。その後、その部署の代表番号への転送処理が実行される。
【0078】
以上のように、この例においては、最初に、部署名および名前を一括して発話されたものが音声認識され、正しい認識結果が得られれば、その部署のその名前の者への転送処理が実行される。正しい認識結果が得られなかった場合には、部署名と名前とに区分されて認識処理が行われる。例えば「A部B課」のような部署名は、一般性が低い名詞であり、前記住所認識処理の際の都道府県区市町村郡の名称と同様に、音声認識に用いる辞書も、限られた固有名詞だけが登録されている辞書とすることができる。
【0079】
これに対して、例えば、「やまもとさん」のような人名は、一般性が高くなり前記住所認識処理の際の番地と同様に、固有名詞などは含まれない辞書を用いることが可能となる。
【0080】
【発明の効果】
以上の如く、本発明の音声認識装置、音声認識方法、および記録媒体によれば、一連の住所を認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識するようにしたので、迅速かつ確実に、音声認識することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識システムの構成例を示す図である。
【図2】図1のサーバ1の構成例を示すブロック図である。
【図3】図1のサーバ1の動作を資料送付システムの実施の形態を用いて説明するフローチャートである。
【図4】図3のステップS5の住所認識処理の詳細な処理を説明するフローチャートである。
【図5】図1のサーバー1の動作を電話転送システムの実施の形態を用いて説明するフローチャートである。
【図6】図5のステップS63の部署名・名前認識処理の詳細な処理を説明するフローチャートである。
【符号の説明】
1 サーバ
2 インターネット
3−1乃至3−3 端末
11 バス
12 CPU
13 ROM
14 RAM
15 ハードディスク
16 音声認識部
17 入出力インタフェース
18 出力部
19 表示部
20 通信部
21 ドライブ
【発明の属する技術分野】
本発明は、音声認識装置および方法、並びに記録媒体に関し、特に、より操作性を改善した、音声認識装置および方法、並びに記録媒体に関する。
【0002】
【従来の技術】
最近、音声認識システムが普及しつつある。この音声認識システムによれば、使用者が所定の事項を音声で入力すると、それが音声認識され、音声認識の結果に対応する処理が実行されるので、使用者は、キーボードなどの入力装置を用いずに、簡単に各種の情報を入力することが可能となる。
【0003】
例えば、音声認識システムにおいて、住所を音声認識させる場合、「ご住所を都道府県から番地までおっしゃってください。」のようなメッセージを使用者に出力し、使用者に住所を都道府県から番地まで、一括して発話させる方法がある。このような場合、使用者は、例えば、「東京都港区虎ノ門3の4の10」といった発話をすることになる。この発話が正しく音声認識された場合、音声認識システムは、さらに、例えば、「ご住所は、東京都港区虎ノ門3の4の10ですね。」のようなメッセージを使用者に出力し、住所を確認させる。
【0004】
しかしながら、音声認識ができなかった場合、音声認識システムは、例えば、「申し訳ありませんが、もう一度ご住所をおっしゃってください。」のようなメッセージを出力することになる。使用者は、このメッセージに従って、再度、住所を都道府県から番地まで一括して発話する。音声認識ができなかった場合には、同様の処理が、2回、3回と繰り返されることになる。しかしながら、このような操作が、何回も繰り返されると、使用者は、不快感を感じ、音声認識システムに対して、不信感を抱いてしまうことになる。
【0005】
【発明が解決しようとする課題】
そこで、例えば、住所を都道府県から番地まで一括して発話させるのではなく、部分的に発話させ、逐次確認をしていく方法が考えられている。この場合、例えば、音声認識システムは、「ご住所の都道府県をおっしゃってください。」のようなメッセージを最初に出力する。これに対して、使用者は、例えば、「東京都」のように発話する。「東京都」を認識できたとき、音声認識システムは、さらに、例えば、「ご住所の都道府県の次をおっしゃってください。」のようなメッセージを出力し、これに対応して、使用者は、例えば、「港区」のように発話する。「港区」が正しく認識できた場合、音声認識システムは、さらに、例えば、「港区」の次をおっしゃってください。」のようなメッセージを出力する。使用者は、これに対応して、例えば、「虎ノ門」のように発話する。
【0006】
このように、住所を細かく区分して、逐次発話させ、確認するようにすると、一括して発話させ、これを確認する場合に比べて、単語と単語の境界部分が明確になるので、認識率が向上する。
【0007】
しかしながら、このように、逐次確認する処理を行うと、一括確認を行う場合に較べて、音声認識のために必要な総合的な対話時間が長くなってしまう。その結果、例えば、電話で音声入力を行っているような場合、通話料が高くなり、音声認識システムにより、入力を自動化したメリットが少なくなってしまう課題があった。
【0008】
本発明はこのような状況に鑑みてなされたものであり、迅速に、かつ確実に、音声認識できるようにするものである。
【0009】
【課題を解決するための手段】
本発明の第1の音声認識装置は、入力された一連の住所を認識する第1の認識手段と、第1の認識手段により、入力された一連の前記住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識手段とを備えることを特徴とする。
【0010】
前記認識手段は、例えば、図2の音声認識部16で構成される。
【0011】
本発明の第1の音声認識装置においては、入力された一連の住所が認識され、入力された一連の住所が認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して認識される。
【0012】
このように、入力された一連の住所を認識できなかったとき、一連の住所を一般性の低い都道府県市区町村郡の名称と、一般性の高い番地とに区分して認識するようにしたので、音声認識に用いる辞書も、それぞれの一般性の高低に応じた辞書のみを使用することができ、迅速かつ正確な音声認識が可能となる。
【0013】
本発明の第2の音声認識装置は、一連の住所の入力を案内する第1の案内手段と、第1の案内手段による案内に応じて入力された一連の住所を認識する第1の認識手段と、第1の認識手段により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して入力することを案内する第2の案内手段と、第2の案内手段による案内に応じて入力された都道府県市区町村郡の名称と番地を区分して認識する第2の認識手段とを備えることを特徴とする。
【0014】
前記第1の案内手段は、図4のステップS23や図6のステップS83のメッセージを出力する処理で構成され、前記第2の案内手段は、図4のステップS26、S30、S34、S37、S40,S44や図5のステップS86、S90、S94,S97,S100のメッセージを出力する処理で構成される。
【0015】
本発明の第2の音声認識装置においては、一連の住所の入力が案内され、その案内に応じて入力された一連の住所が認識される。また、入力された一連の住所が認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して入力することが案内され、その案内に応じて入力された都道府県市区町村郡の名称と番地が区分して認識される。
【0016】
前記案内手段の案内により、利用者に、住所、都道府県市区町村郡の名称または番地を確実に入力させることが可能となる。
【0019】
本発明の音声認識方法は、入力された一連の住所を認識する第1の認識ステップと、第1の認識ステップの処理により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識ステップとを含むことを特徴とする。
【0020】
本発明の記録媒体のプログラムは、入力された一連の住所を認識する第1の認識ステップと、第1の認識ステップの処理により、入力された一連の住所が認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識ステップとを含むことを特徴とする。
【0021】
前記第1の認識ステップは、例えば、図4のステップS22または図6のステップS82で構成される。前記第2の認識ステップは、例えば、図4のステップS32もしくはステップS39、または図6のステップS92もしくはステップS99で構成される。
【0022】
本発明の音声認識方法、および記録媒体のプログラムにおいては、入力された一連の住所が音声認識できなかったとき、住所が、都道府県市区町村郡の名称と、番地とに区分して認識される。
【0023】
本発明の音声認識方法、および記録媒体のプログラムによれば、入力された住所を認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識するようにしたので、音声認識に用いる辞書も、それぞれの一般性の高低に応じた辞書のみを使用することができ、迅速かつ正確な認識が可能となる。
【0024】
【発明の実施の形態】
図1は、本発明を適用した音声認識システムの構成例を表している。この構成例においては、インターネット2にサーバ1が接続されており、端末3−1乃至3−3は、インターネット2を介してサーバ1にアクセスし、所定の情報を検索することができるようになされている。
【0025】
サーバ1は、例えば、図2に示すように構成されている。CPU(Central Processing Unit)12は、ROM(Read Only Memory)13に記憶されているプログラムに従って、各種の処理を実行する。RAM(Random Access Memory)14は、CPU12が、各種の処理を実行する上において必要なプログラムやデータが適宜記憶される。ハードディスク15には、CPU12が処理するプログラムや、端末3−1乃至3−3に供給する各種の情報が記憶されている。音声認識部16は、端末3−1乃至3−3から入力されてきた音声を認識する処理を実行する。これらのCPU12乃至音声認識部16は、バス11を介して相互に接続されている。
【0026】
バス11にはまた、入出力インタフェース17も接続されている。入出力インタフェース17には、LCD(Liquid Crystal Display)やCRT(Cathod Rray Tube)などにより構成される表示部18、キーボード、マウス、マイクロホンなどにより構成される入力部19、モデムなどにより構成され、インターネット2に接続される通信部20、およびフロッピーディスク、CD−ROMといったディスクを駆動し、データを記録または再生するドライブ21が接続されている。入出力インタフェース17は、これらの表示部18乃至ドライブ21とCPU12との間のインタフェース処理を実行する。
【0027】
なお、図示は省略するが、端末3−1乃至3−3も、基本的にサーバ1と同様に構成される。
【0028】
次に、図3のフローチャートを参照して、端末3−1乃至3−3から、サーバ1にアクセスし、所定の資料を要求する場合の処理について説明する。例えば、端末3−1の使用者は、サーバ1に対して資料を要求するとき、インターネット2を介してサーバ1にアクセスする。このとき、サーバ1は、図3のフローチャートに示す処理を開始する。
【0029】
ステップS1において、サーバ1のCPU12は、ROM13に予め記憶されているメッセージの中から、例えば、「お電話ありがとうございます。ABC資料送付システムです。」のようなメッセージを読み出し、入出力インタフェース17から通信部20を介して、端末3−1に出力させる。さらに、ステップS2において、CPU12は、ROM13から、「まず、お名前を『やまだ たろう』のようにおっしゃってください。」のメッセージを読み出し、端末3−1に出力する。
【0030】
端末3−1の使用者は、このメッセージを受信したとき、そのメッセージに従って、端末3−1のマイクロホンから、自分自身の氏名を、例えば、「特許太郎」のように発話する。この音声信号は、端末3−1からインターネット2を介してサーバ1に転送される。サーバ1において、通信部20は、この音声信号を受け取ると、これを復調し、入出力インタフェース17を介して、CPU12に出力する。CPU12は、氏名の音声データを受け取ると、ステップS3において、これをバス11を介して、RAM14に転送し、記憶させるとともに、さらに音声認識部16に転送し、認識(名前認識)処理させる。認識された氏名は、必要に応じて、例えば、ハードディスク15に転送され、記憶される。
【0031】
次に、ステップS4において、CPU12は、ROM13から、例えば、「次に、ご住所を都道府県から番地まで『東京都港区虎ノ門3の4の16』のようにおっしゃってください。」のメッセージを読み出し、通信部20から、インターネット2を介して端末3−1に送信する。
【0032】
端末3−1において、使用者は、サーバ1からのメッセージを受信すると、自分自身の住所(資料を送付してもらいたい住所)を発話する。この音声信号は、上述した場合と同様に、インターネット2を介して、サーバ1に送信される。サーバ1においてCPU12は、住所データの入力を受けると、ステップS5において、これをバス11を介してRAM14に転送し、記憶させるとともに、さらに音声認識部16に転送し、住所を認識処理させる。この住所認識処理の詳細は、図4のフローチャートを参照して後述する。
【0033】
認識された住所は、ハードディスク15に転送され、ステップS4で認識された氏名に対応して記憶される。
【0034】
ステップS6において、CPU12は、ROM13から「後ほど、資料を送付いたします。ご利用ありがとうございました。」のメッセージを読み出し、入出力インタフェース17から通信部20を介して端末3−1に送信させる。
【0035】
次に、図4のフローチャートを参照して、図3のステップS5の住所認識処理の詳細について説明する。ステップS21において、CPU12は、変数rec_ng1とrec_ng2を、それぞれ0に初期設定するとともに、フラグflagに0を設定する。変数rec_ng1は、住所の中の都道府県市区町村郡名の区分した認識処理回数を表し、変数rec_ng2は、住所の中の番地の区分した認識処理の回数を表す。フラグflagは、都道府県市区町村郡名の区分した認識処理を経たか否かを表すフラグである。
【0036】
次に、ステップS22において、CPU12は、住所音声認識処理を実行する。すなわち、上述したように、使用者は、住所を都道府県から番地まで一括して発話しているので、この一連の音声入力に対して、音声認識部16において、認識処理が実行される。音声認識部16は、認識の結果得られたデータを音声データに変換し、CPU12に出力する。CPU12は、この音声データを受け取ると、ステップS23において、ROM13に予め登録されているメッセージと組み合わせ、例えば、「ご住所は、Aでよろしいでしょうか。」のようなメッセージとして合成し、通信部20から端末3−1に送信させる。
【0037】
端末3−1においては、自分自身の発話に対して認識された結果の住所を含むメッセージを受信すると、使用者は、その住所が正しければ「はい」を、正しくなければ「いいえ」を、マイクロホンから入力する。この音声信号は、端末3−1からインターネット2を介して、サーバ1に転送される。
【0038】
サーバ1のCPU12は、ステップS24において、この音声信号を確認処理し、ステップS25において、確認された音声が「はい」と「いいえ」のいずれであるのかを判定する。使用者からの返事が「はい」である場合には、一括発話から正しい音声認識処理が行われたことになるので、処理は終了される。これに対して、使用者からの返事が「いいえ」である場合には、一括発話が間違って音声認識処理されたことになるので、ステップS26に進み、CPU12は、認識された都道府県市区町村郡名とROM13に予め記憶されているメッセージとを合成して、例えば「B県C市D町までは、正しいでしょうか」のメッセージを生成し、通信部20を介して、端末3−1に送信する。
【0039】
端末3−1においては、使用者が、このメッセージを受信し、その都道府県市区町村郡名が正しければ「はい」を、正しくなければ「いいえ」をマイクロホンから入力する。
【0040】
ステップS27において、サーバ1のCPU12は、使用者からの返事を確認処理し、ステップS28において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0041】
使用者からの返事が「いいえ」である場合には、ステップS29に進み、CPU12は、変数rec_ng1が基準値2より小さいか否かを判定する。今の場合、ステップS21において、変数rec_ng1には0が設定されているため、YESの判定が行われ、処理はステップS30に進む。ステップS30において、CPU12は、ROM13から「お手数をおかけしますが、もう一度、番地の前までを『東京都港区虎ノ門』のようにお願いします。」のメッセージを読み出し、端末3−1に送信する。CPU12は、ステップS31において、変数rec_ng1を1だけインクリメントし(今の場合、rec_ng1=1とし)、ステップS32において、都道府県市区町村郡名音声認識処理を実行する。すなわち、ステップS22で認識した都道府県市区町村郡名は誤っていたので、使用者からの再度の音声入力から、RAM14に記憶されているデータに基づいて、再度、都道府県市区町村郡名が音声認識処理される。
【0042】
次に、ステップS33において、CPU12は、フラグflagに1を設定し、ステップS34において、ステップS32で認識された結果得られた都道府県市区町村郡名を含む「E県F市G町で正しいでしょうか?」のメッセージを生成し、端末3−1に送信する。
【0043】
端末3−1においては、受信したメッセージが正しければ「はい」の音声が入力され、間違っていれば「いいえ」の音声が入力される。CPU12は、ステップS27において、使用者からの応答を認識処理し、ステップS28において、使用者の応答が「はい」と「いいえ」のいずれであるのかを再び判定する。使用者からの返事が「いいえ」である場合には、再び、ステップS29に戻り、rec_ng1が、2より小さいか否かを判定する。今の場合、rec_ng1は1であるから、YESの判定が行われ、再び、ステップS30乃至ステップS34の処理が、上述した場合と同様に実行される。
【0044】
以上のようにして、変数rec_ng1の値が2となると、ステップS29においてNOの判定が行われ、ステップS35において、CPU12は、「申し訳ございません。ご住所を聞き取ることができませんでしたので、後ほど、録音内容で確認させていただきます。」のメッセージをROM13から読み出し、端末3−1に転送させる。
【0045】
ステップS28において、使用者からの入力が「はい」であると判定された場合(都道府県市区町村郡名が正しい場合)、ステップS36に進み、CPU12は、フラグflagが0であるか否かを判定する。フラグflagが0である場合には(ステップS22で都道府県市区町村郡名が正しく認識された場合には)、ステップS37に進み、CPU12は、「それでは、番地を「3の4の16」のように、もう一度おっしゃってください。」のメッセージをROM13から読み出し、端末3−1に転送する。ステップS38において、CPU12は、変数rec_ng2を1だけインクリメントする(今の場合、rec_ng2=1とする)。
【0046】
ステップS39において、CPU12は、番地音声認識処理を実行する。すなわち、使用者は、ステップS37の処理で転送されたメッセージを受信したとき、番地をマイクロホンに向かって発話する。CPU12は、この音声信号が、端末3−1から転送されてきたとき、音声認識部16にこれを転送し、認識処理させる。すなわち、今の場合(フラグflag=0の場合)、ステップS22で認識された住所の内、都道府県市区町村郡名は正しかったので、「3の4の16」のような番地だけが、再度発話され、これが認識処理される。
【0047】
CPU12は、ステップS39において認識された番地をROM13に記憶されているメッセージと組み合わせ、ステップ40において、「「a−b−c」で正しいでしょうか?」のメッセージを合成し、端末3−1に送信させる。
【0048】
一方、ステップS36において、フラグflagが0ではないと判定された場合、すなわち、1であると判定された場合、ステップS32の都道府県市区町村郡名認識処理を経て、処理が進んできたことになる。この場合、ステップS22で認識された住所の内、都道府県市区町村郡名が誤っており、ステップS32の区分された認識処理で正しい都道府県市区町村郡名が認識されたのであるから、ステップS37乃至ステップS39の処理はスキップされ、直ちにステップS40において、ステップS22で認識された番地が正しいか否かのメッセージが、端末3−1に転送される。
【0049】
端末3−1においては、このメッセージを受信すると、上述した場合と同様に、それが正しければ「はい」のメッセージが入力され、誤っていれば「いいえ」のメッセージが入力される。CPU12は、ステップS41において、この使用者の応答を確認処理し、ステップS42において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0050】
使用者の返事が「はい」である場合には、正しい番地が認識されたことになるので、ステップS46に進み、ステップS22またはステップS32で認識された正しい都道府県市区町村郡名と、ステップS22またはステップS39で認識された正しい番地とを合成し、例えば、「ご住所を、H県I市J町d−e−fとして承りました。」のようなメッセージを、端末3−1に送信する。
【0051】
ステップS42において、使用者の返事が「いいえ」であると判定された場合、ステップS43に進み、CPU12は、変数rec_ng2が基準値2より小さいか否かを判定する。変数rec_ng2が基準値2より小さい場合には、ステップS44に進み、CPU12は、「お手数をおかけしますが、もう一度番地をお願いします。」のメッセージをROM13から読み出し、端末3−1に転送させる。その後、ステップS38に戻り、それ以降の処理が繰り返し実行される。
【0052】
ステップS43において、変数rec_ng2が、基準値2と等しいか、それより大きくなったと判定された場合、結局正しい番地を認識することができなかったことになるので、ステップS45に進み、CPU12は、「申し訳ございません。ご住所を聞き取ることができませんでしたので、後ほど、録音内容で確認させていただきます。」のメッセージをROM13から読み出し、端末3−1に送信する。
【0053】
以上のように、この例においては、最初に、都道府県から番地まで一括して発話された住所が音声認識され、正しい認識結果が得られれば、それで処理が終了される。正しい認識結果が得られなかった場合には、住所が、都道府県市区町村郡名と、それより後の番地とに区分されて認識処理が行われる。「東京都港区虎ノ門」のような都道府県市区町村郡名は、一般性が低い名詞であり、換言すれば、固有性が高い名詞であり(固有名詞であり)、音声認識に用いる辞書も、限られた固有名詞だけが登録されている辞書とすることができる。その結果、迅速かつ正確な認識が可能となる。
【0054】
これに対して、例えば、「3の4の10」のような番地は、一般性が高くなり(一般名詞であり)、固有名詞などは含まれない辞書を用いることが可能となる。その結果、それだけ検索対象となる名詞の数が少なくなり、やはり、迅速かつ正確な認識が可能となる。
【0055】
なお、ここにおける番地とは、丁目に限らず、地割り、庁、街区などの一般性が高い名称も含まれる。
【0056】
次に、図5のフローチャートを参照して、会社において用件のある人物に電話を繋げる場合の処理について説明する。会社の人物に用件のある電話の使用者は、インターネット2を介して所定の会社に設置してあるサーバ1にアクセスする(勿論、通常の電話回線を介してサーバー1にアクセスが行われる場合もあるが、以下においては、インターネット2を介してアクセスが行われるものとする)。このとき、サーバ1は、図5のフローチャートに示す処理を開始する。
【0057】
ステップS61において、サーバ1のCPU12は、ROM13に予め記憶されているメッセージの中から、例えば、「ABC株式会社電話転送システムです。」のようなメッセージを読み出し、入出力インタフェース17から通信部20を介して、端末3−1に出力させる。さらに、ステップS62において、CPU12は、ROM13から、「用件のある者の部署名、名前をおっしゃって下さい。」のメッセージを読み出し、システムの使用者に出力する。
【0058】
端末3−1において、使用者は、サーバ1からのメッセージを受信すると、用件のある人物の部署名・名前を、例えば「A部B課のやまもとさんをお願いします。」のように発話する。この音声信号は、上述した場合と同様に、インターネット2を介して、サーバ1に送信される。サーバ1においてCPU12は、部署名・名前の音声データの入力を受けると、ステップS63において、これをバス11を介してRAM14に転送し、記憶させるとともに、さらに音声認識部16に転送し、部署名・名前を認識処理させる。この部署名・名前音声住所認識処理の詳細は、図6のフローチャートを参照して後述する。
【0059】
部署名および名前が認識された後、CPU12はROM13から「電話をお繋ぎします。」のメッセージを読み出し、入力インタフェースから通信部20を介して端末3−1に送信させる。
【0060】
次に、図6のフローチャートを参照して、図5のステップS63の部署名および名前の認識処理の詳細について説明する。ステップS81において、CPU12は、変数rec_ng1とrec_ng2を、それぞれ0に初期設定するとともに、フラグflagに0を設定する。変数rec_ng1は、部署名の区分した認識処理回数を表し、変数rec_ng2は、名前の区分した認識処理の回数を表す。フラグflagは、部署名の区分した認識処理を経たか否かを表すフラグである。
【0061】
次に、ステップS82において、CPU12は、部署名および名前の認識処理を実行する。すなわち、上述したように、使用者は、部署名および名前を一括して発話しているので、この一連の音声入力に対して、音声認識部16において、認識処理が実行される。音声認識部16は、認識の結果得られたデータを音声データに変換し、CPU12に出力する。CPU12は、この音声データを受け取ると、ステップS83において、ROM13に予め登録されているメッセージと組み合わせ、例えば、「C部D課のやまださんでよろしいですか?」のようなメッセージとして合成し、通信部20から端末3−1に送信させる。
【0062】
端末3−1においては、自分自身の発話に対して認識された結果の部署名および名前を含むメッセージを受信すると、使用者は、その部署名および名前が正しければ「はい」を、正しくなければ「いいえ」を、マイクロホンから入力する。この音声信号は、端末3−1からインターネット2を介して、サーバ1に転送される。
【0063】
サーバ1のCPU12は、ステップS84において、この音声信号を確認処理し、ステップS85において、確認された音声が「はい」と「いいえ」のいずれであるのかを判定する。使用者からの返事が「はい」である場合には、一括発話から正しい部署名および名前の認識処理が行われたことになるので、その認識された部署名および名前を有する者へ電話を転送する処理が実行される。これに対して、使用者からの返事が「いいえ」である場合には、一括発話が間違って音声認識処理されたことになるので、ステップS86に進み、CPU12は、認識された部署名および名前とROM13に予め記憶されているメッセージとを合成して、例えば「E部F課までは、正しいでしょうか?」のメッセージを生成し、通信部20を介して、端末3−1に送信する。
【0064】
端末3−1においては、使用者が、このメッセージを受信し、その部署名が正しければ「はい」を、正しくなければ「いいえ」をマイクロホンから入力する。
【0065】
ステップS87において、サーバ1のCPU12は、使用者からの返事を確認処理し、ステップS88において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0066】
使用者からの返事が「いいえ」である場合には、ステップS89に進み、CPU12は、変数rec_ng1が基準値2より小さいか否かを判定する。今の場合、ステップS81において、変数rec_ng1には0が設定されているため、YESの判定が行われ、処理はステップS90に進む。ステップS90において、CPU12は、ROM13から「部署名をもう一度おっしゃってください。」のメッセージを読み出し、端末3−1に送信する。CPU12は、ステップS91において、変数rec_ng1を1だけインクリメントし(今の場合、rec_ng1=1とし)、ステップS92において、部署名音声認識処理を実行する。すなわち、ステップS82で認識した部署名は誤っていたので、使用者により再度入力された音声信号からRAM14に記憶されているデータに基づいて、再度、部署名が音声認識処理される。
【0067】
次に、ステップS93において、CPU12は、フラグflagに1を設定し、ステップS94において、ステップS92で認識された結果得られた部署名を含む「G部H課までは正しいでしょうか?」のメッセージを生成し、端末3−1に送信する。
【0068】
端末3−1においては、受信したメッセージが正しければ「はい」の音声が入力され、間違っていれば「いいえ」の音声が入力される。CPU12は、ステップS87において、使用者からの応答を認識処理し、ステップS88において、使用者の応答が「はい」と「いいえ」のいずれであるのかを再び判定する。使用者からの返事が「いいえ」である場合には、再び、ステップS89に戻り、rec_ng1が、2より小さいか否かを判定する。今の場合、rec_ng1は1であるから、YESの判定が行われ、再び、ステップS90乃至ステップS94の処理が、上述した場合と同様に実行される。
【0069】
以上のようにして、変数rec_ng1の値が2となると、ステップS89においてNOの判定が行われ、ステップS95において、CPU12は、「申しわけございませんが、部署名を認識できませんでした。オペレータにお回しします。」のメッセージをROM13から読み出し、端末3−1に転送させる。そして、オペレータに転送する処理が実行される。
【0070】
ステップS88において、使用者からの入力が「はい」であると判定された場合(部署名が正しい場合)、ステップS96に進み、CPU12は、フラグflagが0であるか否かを判定する。フラグflagが0である場合には(ステップS82で部署名が正しく認識された場合には)、ステップS97に進み、CPU12は、「では、お名前をおっしゃってください。」のメッセージをROM13から読み出し、端末3−1に転送する。ステップS98において、CPU12は、変数rec_ng2を1だけインクリメントする(今の場合、rec_ng2=1とする)。
【0071】
ステップS99において、CPU12は、名前音声認識処理を実行する。すなわち、使用者は、ステップS97の処理で転送されたメッセージを受信したとき、名前をマイクロホンに向かって発話する。CPU12は、この音声信号が、端末3−1から転送されてきたとき、音声認識部16にこれを転送し、認識処理させる。すなわち、今の場合(フラグflag=0の場合)、ステップS82で認識された部署名および名前の内、部署名は正しかったので、「やまもとさんです。」のような名前だけが、再度発話され、これが認識処理される。
【0072】
CPU12は、ステップS99において認識された名前をROM13に記憶されているメッセージと組み合わせ、ステップS100において、「「やまもと」さんでよろしいですか?」のメッセージを合成し、端末3−1に送信させる。
【0073】
一方、ステップS96において、フラグflagが0ではないと判定された場合、すなわち、1であると判定された場合、ステップS92の部署名音声認識処理を経て、処理が進んできたことになる。この場合、ステップS82で認識された部署名および名前の内、部署名が誤っており、ステップS92の区分された認識処理で正しい部署名が認識されたのであるから、ステップS97乃至ステップS99の処理はスキップされ、直ちにステップS100において、ステップS82で認識された名前が正しいか否かのメッセージが、端末3−1に転送される。
【0074】
端末3−1においては、このメッセージを受信すると、上述した場合と同様に、それが正しければ「はい」のメッセージが入力され、誤っていれば「いいえ」のメッセージが入力される。CPU12は、ステップS101において、この使用者の応答を確認処理し、ステップS102において、使用者の返事が「はい」であるのか、「いいえ」であるのかを判定する。
【0075】
使用者の返事が「はい」である場合には、正しい名前が認識されたことになるので、ステップS105に進み、ステップS82またはステップS92で認識された正しい部署名と、ステップS82またはステップS99で認識された正しい名前とを合成し、例えば、「では、I部J課の山本さんにお繋ぎします。」のようなメッセージを、端末3−1に送信する。その後、I部J課の山本さんへの転送処理が実行される。
【0076】
ステップS102において、使用者の返事が「いいえ」であると判定された場合、ステップS103に進み、CPU12は、変数rec_ng2が基準値2より小さいか否かを判定する。変数rec_ng2が基準値2より小さい場合には、ステップS97に戻り、CPU12は、「では、お名前をおっしゃって下さい。」のメッセージをROM13から読み出し、端末3−1に転送させる。その後、ステップS98に進み、それ以降の処理が繰り返し実行される。
【0077】
ステップS103において、変数rec_ng2が、基準値2と等しいか、それより大きくなったと判定された場合、部署名は認識することができたが、正しい名前を認識することができなかったことになるので、ステップS104に進み、CPU12は、「申し訳ございません。部署の代表番号にお回しします。」のメッセージをROM13から読み出し、端末3−1に送信する。その後、その部署の代表番号への転送処理が実行される。
【0078】
以上のように、この例においては、最初に、部署名および名前を一括して発話されたものが音声認識され、正しい認識結果が得られれば、その部署のその名前の者への転送処理が実行される。正しい認識結果が得られなかった場合には、部署名と名前とに区分されて認識処理が行われる。例えば「A部B課」のような部署名は、一般性が低い名詞であり、前記住所認識処理の際の都道府県区市町村郡の名称と同様に、音声認識に用いる辞書も、限られた固有名詞だけが登録されている辞書とすることができる。
【0079】
これに対して、例えば、「やまもとさん」のような人名は、一般性が高くなり前記住所認識処理の際の番地と同様に、固有名詞などは含まれない辞書を用いることが可能となる。
【0080】
【発明の効果】
以上の如く、本発明の音声認識装置、音声認識方法、および記録媒体によれば、一連の住所を認識できなかったとき、住所を、都道府県市区町村郡の名称と、番地とに区分して認識するようにしたので、迅速かつ確実に、音声認識することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識システムの構成例を示す図である。
【図2】図1のサーバ1の構成例を示すブロック図である。
【図3】図1のサーバ1の動作を資料送付システムの実施の形態を用いて説明するフローチャートである。
【図4】図3のステップS5の住所認識処理の詳細な処理を説明するフローチャートである。
【図5】図1のサーバー1の動作を電話転送システムの実施の形態を用いて説明するフローチャートである。
【図6】図5のステップS63の部署名・名前認識処理の詳細な処理を説明するフローチャートである。
【符号の説明】
1 サーバ
2 インターネット
3−1乃至3−3 端末
11 バス
12 CPU
13 ROM
14 RAM
15 ハードディスク
16 音声認識部
17 入出力インタフェース
18 出力部
19 表示部
20 通信部
21 ドライブ
Claims (5)
- 入力された一連の住所を認識する第1の認識手段と、
前記第1の認識手段により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識手段と
を備えることを特徴とする音声認識装置。 - 前記第2の認識手段は、予め定められる基準の回数繰り返すことによっても、都道府県市区町村郡の名称または番地を認識できない場合、その認識を終了させる
ことを特徴とする請求項1に記載の音声認識装置。 - 入力された一連の住所を認識する第1の認識ステップと、
前記第1の認識ステップの処理により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識ステップと
を含むことを特徴とする音声認識方法。 - 入力された一連の住所を認識する第1の認識ステップと、
前記第1の認識ステップの処理により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して認識する第2の認識ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。 - 一連の住所の入力を案内する第1の案内手段と、
前記第1の案内手段による案内に応じて入力された一連の住所を認識する第1の認識手段と、
前記第1の認識手段により、入力された一連の前記住所が認識できなかったとき、前記住所を、都道府県市区町村郡の名称と、番地とに区分して入力することを案内する第2の案内手段と、
前記第2の案内手段による案内に応じて入力された前記都道府県市区町村郡の名称と前記番地を区分して認識する第2の認識手段と
を備えることを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000138292A JP3550654B2 (ja) | 1999-06-29 | 2000-05-11 | 音声認識装置および方法、並びに記録媒体 |
US09/851,560 US20020002492A1 (en) | 2000-05-11 | 2001-05-10 | Server apparatus, data processing apparatus, consumable management method, and memory medium and program therefor |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18319499 | 1999-06-29 | ||
JP11-183194 | 1999-06-29 | ||
JP2000138292A JP3550654B2 (ja) | 1999-06-29 | 2000-05-11 | 音声認識装置および方法、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001075593A JP2001075593A (ja) | 2001-03-23 |
JP3550654B2 true JP3550654B2 (ja) | 2004-08-04 |
Family
ID=26501730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000138292A Expired - Fee Related JP3550654B2 (ja) | 1999-06-29 | 2000-05-11 | 音声認識装置および方法、並びに記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3550654B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3974419B2 (ja) | 2002-02-18 | 2007-09-12 | 株式会社日立製作所 | 音声入力を用いた情報取得方法及び情報取得システム |
US9188456B2 (en) * | 2011-04-25 | 2015-11-17 | Honda Motor Co., Ltd. | System and method of fixing mistakes by going back in an electronic device |
JP5637131B2 (ja) | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
JP6698423B2 (ja) * | 2016-05-18 | 2020-05-27 | シャープ株式会社 | 応答制御装置、制御プログラム、情報処理方法、および通信システム |
-
2000
- 2000-05-11 JP JP2000138292A patent/JP3550654B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001075593A (ja) | 2001-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6934552B2 (en) | Method to select and send text messages with a mobile | |
US7653183B2 (en) | Method and apparatus to provide data to an interactive voice response (IVR) system | |
CN101366073B (zh) | 多种语音识别软件实例的使用 | |
US7310329B2 (en) | System for sending text messages converted into speech through an internet connection to a telephone and method for running it | |
TW200540649A (en) | Method and apparatus for automatic telephone menu navigation | |
US7552221B2 (en) | System for communicating with a server through a mobile communication device | |
US20160098995A1 (en) | Speech to text training method and system | |
CN111583931A (zh) | 业务数据处理方法及装置 | |
US6581035B1 (en) | System and method for voice-enabled transactions | |
US20100217603A1 (en) | Method, System, and Apparatus for Enabling Adaptive Natural Language Processing | |
CN110275948B (zh) | 自助服务的自由跳转方法、装置及介质 | |
JP3550654B2 (ja) | 音声認識装置および方法、並びに記録媒体 | |
JP2001197207A (ja) | 多言語応対装置 | |
US7593387B2 (en) | Voice communication with simulated speech data | |
JP2005151553A (ja) | ボイス・ポータル | |
JP2002279245A (ja) | サービスセンタ及び発注受付方法 | |
KR100380829B1 (ko) | 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체 | |
JP2003140690A (ja) | 情報システム、電子機器、プログラム | |
US20080046230A1 (en) | Reception support system and program therefor | |
JP2017157037A (ja) | 認証装置、認証システム、認証方法、及びプログラム | |
KR20010044834A (ko) | 음성주문 처리 시스템 및 방법 | |
JP7319639B1 (ja) | 音声入力システム及びそのプログラム | |
JP4679919B2 (ja) | 分散型話者照合装置および分散型話者照合端末装置、コンピュータプログラム | |
EP1524870A1 (en) | Method for communicating information in a preferred language from a server via a mobile communication device | |
EP1524778A1 (en) | Method for communicating information from a server to a user via a mobile communication device running a dialog script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040408 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |