JP2001075593A - 音声認識装置および方法、並びに記録媒体 - Google Patents

音声認識装置および方法、並びに記録媒体

Info

Publication number
JP2001075593A
JP2001075593A JP2000138292A JP2000138292A JP2001075593A JP 2001075593 A JP2001075593 A JP 2001075593A JP 2000138292 A JP2000138292 A JP 2000138292A JP 2000138292 A JP2000138292 A JP 2000138292A JP 2001075593 A JP2001075593 A JP 2001075593A
Authority
JP
Japan
Prior art keywords
voice
recognition
name
user
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000138292A
Other languages
English (en)
Other versions
JP3550654B2 (ja
Inventor
Koji Soma
宏司 相馬
Hisataka Yamagishi
久高 山岸
Kazuto Kojiya
和人 糀谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2000138292A priority Critical patent/JP3550654B2/ja
Publication of JP2001075593A publication Critical patent/JP2001075593A/ja
Priority to US09/851,560 priority patent/US20020002492A1/en
Application granted granted Critical
Publication of JP3550654B2 publication Critical patent/JP3550654B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Traffic Control Systems (AREA)

Abstract

(57)【要約】 【課題】 住所を正確かつ迅速に認識できるようにす
る。 【解決手段】 使用者がサーバにアクセスしてきたと
き、使用者の名前がステップS3で音声認識され、ステ
ップS4で、その使用者に対して、住所を「東京都港区
虎ノ門×の×の××」のように、都道府県から番地まで
一括して発話させる。ステップS5において、一括して
発話された住所が音声認識される。正しい音声認識結果
が得られなかったとき、住所が「東京都港区虎ノ門」と
いう都道府県市区町村郡名と、「×の×の××」いう番
地とに区分されて音声認識される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び方法、並びに記録媒体に関し、特に、より操作性を改
善した、音声認識装置および方法、並びに記録媒体に関
する。
【0002】
【従来の技術】最近、音声認識システムが普及しつつあ
る。この音声認識システムによれば、使用者が所定の事
項を音声で入力すると、それが音声認識され、音声認識
の結果に対応する処理が実行されるので、使用者は、キ
ーボードなどの入力装置を用いずに、簡単に各種の情報
を入力することが可能となる。
【0003】例えば、音声認識システムにおいて、住所
を音声認識させる場合、「ご住所を都道府県から番地ま
でおっしゃってください。」のようなメッセージを使用
者に出力し、使用者に住所を都道府県から番地まで、一
括して発話させる方法がある。このような場合、使用者
は、例えば、「東京都港区虎ノ門×の×の××」といっ
た発話をすることになる。この発話が正しく音声認識さ
れた場合、音声認識システムは、さらに、例えば、「ご
住所は、東京都港区虎ノ門×の×の××ですね。」のよ
うなメッセージを使用者に出力し、住所を確認させる。
【0004】しかしながら、音声認識ができなかった場
合、音声認識システムは、例えば、「申し訳ありません
が、もう一度ご住所をおっしゃってください。」のよう
なメッセージを出力することになる。使用者は、このメ
ッセージに従って、再度、住所を都道府県から番地まで
一括して発話する。音声認識ができなかった場合には、
同様の処理が、2回、3回と繰り返されることになる。
しかしながら、このような操作が、何回も繰り返される
と、使用者は、不快感を感じ、音声認識システムに対し
て、不信感を抱いてしまうことになる。
【0005】
【発明が解決しようとする課題】そこで、例えば、住所
を都道府県から番地まで一括して発話させるのではな
く、部分的に発話させ、逐次確認をしていく方法が考え
られている。この場合、例えば、音声認識システムは、
「ご住所の都道府県をおっしゃってください。」のよう
なメッセージを最初に出力する。これに対して、使用者
は、例えば、「東京都」のように発話する。「東京都」
を認識できたとき、音声認識システムは、さらに、例え
ば、「ご住所の都道府県の次をおっしゃってくださ
い。」のようなメッセージを出力し、これに対応して、
使用者は、例えば、「港区」のように発話する。「港
区」が正しく認識できた場合、音声認識システムは、さ
らに、例えば、「港区」の次をおっしゃってくださ
い。」のようなメッセージを出力する。使用者は、これ
に対応して、例えば、「虎ノ門」のように発話する。
【0006】このように、住所を細かく区分して、逐次
発話させ、確認するようにすると、一括して発話させ、
これを確認する場合に比べて、単語と単語の境界部分が
明確になるので、認識率が向上する。
【0007】しかしながら、このように、逐次確認する
処理を行うと、一括確認を行う場合に較べて、音声認識
のために必要な総合的な対話時間が長くなってしまう。
その結果、例えば、電話で音声入力を行っているような
場合、通話料が高くなり、音声認識システムにより、入
力を自動化したメリットが少なくなってしまう課題があ
った。
【0008】本発明はこのような状況に鑑みてなされた
ものであり、迅速に、かつ確実に、音声認識できるよう
にするものである。
【0009】
【課題を解決するための手段】本発明の音声認識装置
は、入力された一連の第1の音声を認識する第1の認識
手段と、第1の認識手段により音声が認識できなかった
とき、第1の音声を、一般性の低い第2の音声と、一般
性の高い第3の音声とに区分して認識する第2の認識手
段とを備えることを特徴とする。
【0010】前記認識手段は、例えば、図2の音声認識
部16で構成される。
【0011】本発明の音声認識装置においては、入力さ
れた一連の第1の音声が認識され、音声が認識できなか
ったとき、第1の音声が、一般性の低い第2の音声と、
一般性の高い第3の音声に区分して認識される。
【0012】このように、入力された一連の第1の音声
を認識できなかったとき、一連の第1の音声を一般性の
低い第2の音声と、一般性の高い第3の音声とに区分し
て認識するようにしたので、音声認識に用いる辞書も、
それぞれの一般性の高低に応じた辞書のみを使用するこ
とができ、迅速かつ正確な音声認識が可能となる。
【0013】前記第1の認識手段に認識させるための第
1の音声の入力を案内する第1の案内手段と、第1の認
識手段により音声が認識できなかったとき、第2の認識
手段が区分して認識する第2の音声と第3の音声の区分
した入力を案内する第2の案内手段とをさらに備えるよ
うにすることができる。
【0014】前記第1の案内手段は、図4のステップS
23や図6のステップS83のメッセージを出力する処
理で構成され、前記第2の案内手段は、図4のステップ
S26、S30、S34、S37、S40,S44や図
5のステップS86、S90、S94,S97,S10
0のメッセージを出力する処理で構成される。
【0015】本発明の案内手段をさらに備えた音声認識
装置においては、前記第1の認識手段に認識させるため
の第1の音声の入力が、第1の案内手段により案内さ
れ、第1の認識手段により音声が認識できなかったと
き、第2の認識手段に区分して認識させるための第2の
音声と第3の音声の入力が、第2の案内手段により案内
される。
【0016】前記案内手段の案内により、利用者に、第
1の音声、第2の音声または第3の音声を確実に入力さ
せることが可能となる。
【0017】前記第1の音声は、住所とし、第2の音声
は、都道府県市区町村郡の名称とし、第3の音声は、番
地とすることができる。
【0018】前記第1の音声は、第2の音声としての部
署の名称と、第3の音声としての人名の組み合わせとす
ることができる。
【0019】本発明の音声認識方法は、入力された一連
の第1の音声を認識する第1の認識ステップと、第1の
認識ステップの処理により音声が認識できなかったと
き、第1の音声を、一般性の低い第2の音声と、一般性
の高い第3の音声とに区分して認識する第2の認識ステ
ップとを含むことを特徴とする。
【0020】本発明の記録媒体のプログラムは、入力さ
れた一連の第1の音声を認識する第1の認識ステップ
と、第1の認識ステップの処理により音声が認識できな
かったとき、第1の音声を、一般性の低い第2の音声
と、一般性の高い第3の音声とに区分して認識する第2
の認識ステップとを含むことを特徴とする。
【0021】前記第1の認識ステップは、例えば、図4
のステップS22または図6のステップS82で構成さ
れる。前記第2の認識ステップは、例えば、図4のステ
ップS32もしくはステップS39、または図6のステ
ップS92もしくはステップS99で構成される。
【0022】本発明の音声認識方法、および記録媒体の
プログラムにおいては、入力された一連の第1の音声が
音声認識できなかったとき、第1の音声が、一般性の低
い第2の音声と、一般性の高い第3の音声に区分して認
識される。
【0023】本発明の音声認識方法、および記録媒体の
プログラムによれば、入力された一連の第1の音声を認
識できなかったとき、一連の第1の音声を一般性の低い
第2の音声と、一般性の高い第3の音声とに区分して認
識するようにしたので、音声認識に用いる辞書も、それ
ぞれの一般性の高低に応じた辞書のみを使用することが
でき、迅速かつ正確な認識が可能となる。
【0024】
【発明の実施の形態】図1は、本発明を適用した音声認
識システムの構成例を表している。この構成例において
は、インターネット2にサーバ1が接続されており、端
末3−1乃至3−3は、インターネット2を介してサー
バ1にアクセスし、所定の情報を検索することができる
ようになされている。
【0025】サーバ1は、例えば、図2に示すように構
成されている。CPU(Central Processing Unit)12
は、ROM(Read Only Memory)13に記憶されているプ
ログラムに従って、各種の処理を実行する。RAM(Rando
m Access Memory)14は、CPU12が、各種の処理を実
行する上において必要なプログラムやデータが適宜記憶
される。ハードディスク15には、CPU12が処理する
プログラムや、端末3−1乃至3−3に供給する各種の
情報が記憶されている。音声認識部16は、端末3−1
乃至3−3から入力されてきた音声を認識する処理を実
行する。これらのCPU12乃至音声認識部16は、バス
11を介して相互に接続されている。
【0026】バス11にはまた、入出力インタフェース
17も接続されている。入出力インタフェース17に
は、LCD(Liquid Crystal Display)やCRT(Cathod Rra
y Tube)などにより構成される表示部18、キーボー
ド、マウス、マイクロホンなどにより構成される入力部
19、モデムなどにより構成され、インターネット2に
接続される通信部20、およびフロッピー(登録商標)
ディスク、CD-ROMといったディスクを駆動し、データを
記録または再生するドライブ21が接続されている。入
出力インタフェース17は、これらの表示部18乃至ド
ライブ21とCPU12との間のインタフェース処理を実
行する。
【0027】なお、図示は省略するが、端末3−1乃至
3−3も、基本的にサーバ1と同様に構成される。
【0028】次に、図3のフローチャートを参照して、
端末3−1乃至3−3から、サーバ1にアクセスし、所
定の資料を要求する場合の処理について説明する。例え
ば、端末3−1の使用者は、サーバ1に対して資料を要
求するとき、インターネット2を介してサーバ1にアク
セスする。このとき、サーバ1は、図3のフローチャー
トに示す処理を開始する。
【0029】ステップS1において、サーバ1のCPU1
2は、ROM13に予め記憶されているメッセージの中か
ら、例えば、「お電話ありがとうございます。ABC資料
送付システムです。」のようなメッセージを読み出し、
入出力インタフェース17から通信部20を介して、端
末3−1に出力させる。さらに、ステップS2におい
て、CPU12は、ROM13から、「まず、お名前を『やま
だ たろう』のようにおっしゃってください。」のメッ
セージを読み出し、端末3−1に出力する。
【0030】端末3−1の使用者は、このメッセージを
受信したとき、そのメッセージに従って、端末3−1の
マイクロホンから、自分自身の氏名を、例えば、「特許
太郎」のように発話する。この音声信号は、端末3−1
からインターネット2を介してサーバ1に転送される。
サーバ1において、通信部20は、この音声信号を受け
取ると、これを復調し、入出力インタフェース17を介
して、CPU12に出力する。CPU12は、氏名の音声デー
タを受け取ると、ステップS3において、これをバス1
1を介して、RAM14に転送し、記憶させるとともに、
さらに音声認識部16に転送し、認識(名前認識)処理
させる。認識された氏名は、必要に応じて、例えば、ハ
ードディスク15に転送され、記憶される。
【0031】次に、ステップS4において、CPU12
は、ROM13から、例えば、「次に、ご住所を都道府県
から番地まで『東京都港区虎ノ門×の×の××』のよう
におっしゃってください。」のメッセージを読み出し、
通信部20から、インターネット2を介して端末3−1
に送信する。
【0032】端末3−1において、使用者は、サーバ1
からのメッセージを受信すると、自分自身の住所(資料
を送付してもらいたい住所)を発話する。この音声信号
は、上述した場合と同様に、インターネット2を介し
て、サーバ1に送信される。サーバ1においてCPU12
は、住所データの入力を受けると、ステップS5におい
て、これをバス11を介してRAM14に転送し、記憶さ
せるとともに、さらに音声認識部16に転送し、住所を
認識処理させる。この住所認識処理の詳細は、図4のフ
ローチャートを参照して後述する。
【0033】認識された住所は、ハードディスク15に
転送され、ステップS4で認識された氏名に対応して記
憶される。
【0034】ステップS6において、CPU12は、ROM1
3から「後ほど、資料を送付いたします。ご利用ありが
とうございました。」のメッセージを読み出し、入出力
インタフェース17から通信部20を介して端末3−1
に送信させる。
【0035】次に、図4のフローチャートを参照して、
図3のステップS5の住所認識処理の詳細について説明
する。ステップS21において、CPU12は、変数rec_n
g1とrec_ng2を、それぞれ0に初期設定するととも
に、フラグflagに0を設定する。変数rec_ng1は、住所
の中の都道府県市区町村郡名の区分した認識処理回数を
表し、変数rec_ng2は、住所の中の番地の区分した認識
処理の回数を表す。フラグflagは、都道府県市区町村郡
名の区分した認識処理を経たか否かを表すフラグであ
る。
【0036】次に、ステップS22において、CPU12
は、住所音声認識処理を実行する。すなわち、上述した
ように、使用者は、住所を都道府県から番地まで一括し
て発話しているので、この一連の音声入力に対して、音
声認識部16において、認識処理が実行される。音声認
識部16は、認識の結果得られたデータを音声データに
変換し、CPU12に出力する。CPU12は、この音声デー
タを受け取ると、ステップS23において、ROM13に
予め登録されているメッセージと組み合わせ、例えば、
「ご住所は、Aでよろしいでしょうか。」のようなメッ
セージとして合成し、通信部20から端末3−1に送信
させる。
【0037】端末3−1においては、自分自身の発話に
対して認識された結果の住所を含むメッセージを受信す
ると、使用者は、その住所が正しければ「はい」を、正
しくなければ「いいえ」を、マイクロホンから入力す
る。この音声信号は、端末3−1からインターネット2
を介して、サーバ1に転送される。
【0038】サーバ1のCPU12は、ステップS24に
おいて、この音声信号を確認処理し、ステップS25に
おいて、確認された音声が「はい」と「いいえ」のいず
れであるのかを判定する。使用者からの返事が「はい」
である場合には、一括発話から正しい音声認識処理が行
われたことになるので、処理は終了される。これに対し
て、使用者からの返事が「いいえ」である場合には、一
括発話が間違って音声認識処理されたことになるので、
ステップS26に進み、CPU12は、認識された都道府
県市区町村郡名とROM13に予め記憶されているメッセ
ージとを合成して、例えば「B県C市D町までは、正しい
でしょうか」のメッセージを生成し、通信部20を介し
て、端末3−1に送信する。
【0039】端末3−1においては、使用者が、このメ
ッセージを受信し、その都道府県市区町村郡名が正しけ
れば「はい」を、正しくなければ「いいえ」をマイクロ
ホンから入力する。
【0040】ステップS27において、サーバ1のCPU
12は、使用者からの返事を確認処理し、ステップS2
8において、使用者の返事が「はい」であるのか、「い
いえ」であるのかを判定する。
【0041】使用者からの返事が「いいえ」である場合
には、ステップS29に進み、CPU12は、変数rec_ng
1が基準値2より小さいか否かを判定する。今の場合、
ステップS21において、変数rec_ng1には0が設定さ
れているため、YESの判定が行われ、処理はステップS
30に進む。ステップS30において、CPU12は、ROM
13から「お手数をおかけしますが、もう一度、番地の
前までを『東京都港区虎ノ門』のようにお願いしま
す。」のメッセージを読み出し、端末3−1に送信す
る。CPU12は、ステップS31において、変数rec_ng
1を1だけインクリメントし(今の場合、rec_ng1=1
とし)、ステップS32において、都道府県市区町村郡
名音声認識処理を実行する。すなわち、ステップS22
で認識した都道府県市区町村郡名は誤っていたので、使
用者からの再度の音声入力から、RAM14に記憶されて
いるデータに基づいて、再度、都道府県市区町村郡名が
音声認識処理される。
【0042】次に、ステップS33において、CPU12
は、フラグflagに1を設定し、ステップS34におい
て、ステップS32で認識された結果得られた都道府県
市区町村郡名を含む「E県F市G町で正しいでしょうか
?」のメッセージを生成し、端末3−1に送信する。
【0043】端末3−1においては、受信したメッセー
ジが正しければ「はい」の音声が入力され、間違ってい
れば「いいえ」の音声が入力される。CPU12は、ステ
ップS27において、使用者からの応答を認識処理し、
ステップS28において、使用者の応答が「はい」と
「いいえ」のいずれであるのかを再び判定する。使用者
からの返事が「いいえ」である場合には、再び、ステッ
プS29に戻り、rec_ng1が、2より小さいか否かを判
定する。今の場合、rec_ng1は1であるから、YESの判
定が行われ、再び、ステップS30乃至ステップS34
の処理が、上述した場合と同様に実行される。
【0044】以上のようにして、変数rec_ng1の値が2
となると、ステップS29においてNOの判定が行われ、
ステップS35において、CPU12は、「申し訳ござい
ません。ご住所を聞き取ることができませんでしたの
で、後ほど、録音内容で確認させていただきます。」の
メッセージをROM13から読み出し、端末3−1に転送
させる。
【0045】ステップS28において、使用者からの入
力が「はい」であると判定された場合(都道府県市区町
村郡名が正しい場合)、ステップS36に進み、CPU1
2は、フラグflagが0であるか否かを判定する。フラグ
flagが0である場合には(ステップS22で都道府県市
区町村郡名が正しく認識された場合には)、ステップS
37に進み、CPU12は、「それでは、番地を「3の4
の16」のように、もう一度おっしゃってください。」
のメッセージをROM13から読み出し、端末3−1に転
送する。ステップS38において、CPU12は、変数rec
_ng2を1だけインクリメントする(今の場合、rec_ng
2=1とする)。
【0046】ステップS39において、CPU12は、番
地音声認識処理を実行する。すなわち、使用者は、ステ
ップS37の処理で転送されたメッセージを受信したと
き、番地をマイクロホンに向かって発話する。CPU12
は、この音声信号が、端末3−1から転送されてきたと
き、音声認識部16にこれを転送し、認識処理させる。
すなわち、今の場合(フラグflag=0の場合)、ステッ
プS22で認識された住所の内、都道府県市区町村郡名
は正しかったので、「3の4の16」のような番地だけ
が、再度発話され、これが認識処理される。
【0047】CPU12は、ステップS39において認識
された番地をROM13に記憶されているメッセージと組
み合わせ、ステップ40において、「「a−b−c」で正
しいでしょうか?」のメッセージを合成し、端末3−1
に送信させる。
【0048】一方、ステップS36において、フラグfl
agが0ではないと判定された場合、すなわち、1である
と判定された場合、ステップS32の都道府県市区町村
郡名認識処理を経て、処理が進んできたことになる。こ
の場合、ステップS22で認識された住所の内、都道府
県市区町村郡名が誤っており、ステップS32の区分さ
れた認識処理で正しい都道府県市区町村郡名が認識され
たのであるから、ステップS37乃至ステップS39の
処理はスキップされ、直ちにステップS40において、
ステップS22で認識された番地が正しいか否かのメッ
セージが、端末3−1に転送される。
【0049】端末3−1においては、このメッセージを
受信すると、上述した場合と同様に、それが正しければ
「はい」のメッセージが入力され、誤っていれば「いい
え」のメッセージが入力される。CPU12は、ステップ
S41において、この使用者の応答を確認処理し、ステ
ップS42において、使用者の返事が「はい」であるの
か、「いいえ」であるのかを判定する。
【0050】使用者の返事が「はい」である場合には、
正しい番地が認識されたことになるので、ステップS4
6に進み、ステップS22またはステップS32で認識
された正しい都道府県市区町村郡名と、ステップS22
またはステップS39で認識された正しい番地とを合成
し、例えば、「ご住所を、H県I市J町d−e−fとして承り
ました。」のようなメッセージを、端末3−1に送信す
る。
【0051】ステップS42において、使用者の返事が
「いいえ」であると判定された場合、ステップS43に
進み、CPU12は、変数rec_ng2が基準値2より小さい
か否かを判定する。変数rec_ng2が基準値2より小さい
場合には、ステップS44に進み、CPU12は、「お手
数をおかけしますが、もう一度番地をお願いします。」
のメッセージをROM13から読み出し、端末3−1に転
送させる。その後、ステップS38に戻り、それ以降の
処理が繰り返し実行される。
【0052】ステップS43において、変数rec_ng2
が、基準値2と等しいか、それより大きくなったと判定
された場合、結局正しい番地を認識することができなか
ったことになるので、ステップS45に進み、CPU12
は、「申し訳ございません。ご住所を聞き取ることがで
きませんでしたので、後ほど、録音内容で確認させてい
ただきます。」のメッセージをROM13から読み出し、
端末3−1に送信する。
【0053】以上のように、この例においては、最初
に、都道府県から番地まで一括して発話された住所が音
声認識され、正しい認識結果が得られれば、それで処理
が終了される。正しい認識結果が得られなかった場合に
は、住所が、都道府県市区町村郡名と、それより後の番
地とに区分されて認識処理が行われる。「東京都港区虎
ノ門」のような都道府県市区町村郡名は、一般性が低い
名詞であり、換言すれば、固有性が高い名詞であり(固
有名詞であり)、音声認識に用いる辞書も、限られた固
有名詞だけが登録されている辞書とすることができる。
その結果、迅速かつ正確な認識が可能となる。
【0054】これに対して、例えば、「×の×の××」
のような番地は、一般性が高くなり(一般名詞であ
り)、固有名詞などは含まれない辞書を用いることが可
能となる。その結果、それだけ検索対象となる名詞の数
が少なくなり、やはり、迅速かつ正確な認識が可能とな
る。
【0055】なお、ここにおける番地とは、丁目に限ら
ず、地割り、庁、街区などの一般性が高い名称も含まれ
る。
【0056】次に、図5のフローチャートを参照して、
会社において用件のある人物に電話を繋げる場合の処理
について説明する。会社の人物に用件のある電話の使用
者は、インターネット2を介して所定の会社に設置して
あるサーバ1にアクセスする(勿論、通常の電話回線を
介してサーバー1にアクセスが行われる場合もあるが、
以下においては、インターネット2を介してアクセスが
行われるものとする)。このとき、サーバ1は、図5の
フローチャートに示す処理を開始する。
【0057】ステップS61において、サーバ1のCPU
12は、ROM13に予め記憶されているメッセージの中
から、例えば、「ABC株式会社電話転送システムで
す。」のようなメッセージを読み出し、入出力インタフ
ェース17から通信部20を介して、端末3−1に出力
させる。さらに、ステップS62において、CPU12
は、ROM13から、「用件のある者の部署名、名前をお
っしゃって下さい。」のメッセージを読み出し、システ
ムの使用者に出力する。
【0058】端末3−1において、使用者は、サーバ1
からのメッセージを受信すると、用件のある人物の部署
名・名前を、例えば「A部B課のやまもとさんをお願いし
ます。」のように発話する。この音声信号は、上述した
場合と同様に、インターネット2を介して、サーバ1に
送信される。サーバ1においてCPU12は、部署名・名
前の音声データの入力を受けると、ステップS63にお
いて、これをバス11を介してRAM14に転送し、記憶
させるとともに、さらに音声認識部16に転送し、部署
名・名前を認識処理させる。この部署名・名前音声住所
認識処理の詳細は、図6のフローチャートを参照して後
述する。
【0059】部署名および名前が認識された後、CPU1
2はROM13から「電話をお繋ぎします。」のメッセー
ジを読み出し、入力インタフェースから通信部20を介
して端末3−1に送信させる。
【0060】次に、図6のフローチャートを参照して、
図5のステップS63の部署名および名前の認識処理の
詳細について説明する。ステップS81において、CPU
12は、変数rec_ng1とrec_ng2を、それぞれ0に初期
設定するとともに、フラグflagに0を設定する。変数re
c_ng1は、部署名の区分した認識処理回数を表し、変数
rec_ng2は、名前の区分した認識処理の回数を表す。フ
ラグflagは、部署名の区分した認識処理を経たか否かを
表すフラグである。
【0061】次に、ステップS82において、CPU12
は、部署名および名前の認識処理を実行する。すなわ
ち、上述したように、使用者は、部署名および名前を一
括して発話しているので、この一連の音声入力に対し
て、音声認識部16において、認識処理が実行される。
音声認識部16は、認識の結果得られたデータを音声デ
ータに変換し、CPU12に出力する。CPU12は、この音
声データを受け取ると、ステップS83において、ROM
13に予め登録されているメッセージと組み合わせ、例
えば、「C部D課のやまださんでよろしいですか?」のよ
うなメッセージとして合成し、通信部20から端末3−
1に送信させる。
【0062】端末3−1においては、自分自身の発話に
対して認識された結果の部署名および名前を含むメッセ
ージを受信すると、使用者は、その部署名および名前が
正しければ「はい」を、正しくなければ「いいえ」を、
マイクロホンから入力する。この音声信号は、端末3−
1からインターネット2を介して、サーバ1に転送され
る。
【0063】サーバ1のCPU12は、ステップS84に
おいて、この音声信号を確認処理し、ステップS85に
おいて、確認された音声が「はい」と「いいえ」のいず
れであるのかを判定する。使用者からの返事が「はい」
である場合には、一括発話から正しい部署名および名前
の認識処理が行われたことになるので、その認識された
部署名および名前を有する者へ電話を転送する処理が実
行される。これに対して、使用者からの返事が「いい
え」である場合には、一括発話が間違って音声認識処理
されたことになるので、ステップS86に進み、CPU1
2は、認識された部署名および名前とROM13に予め記
憶されているメッセージとを合成して、例えば「E部F課
までは、正しいでしょうか?」のメッセージを生成し、
通信部20を介して、端末3−1に送信する。
【0064】端末3−1においては、使用者が、このメ
ッセージを受信し、その部署名が正しければ「はい」
を、正しくなければ「いいえ」をマイクロホンから入力
する。
【0065】ステップS87において、サーバ1のCPU
12は、使用者からの返事を確認処理し、ステップS8
8において、使用者の返事が「はい」であるのか、「い
いえ」であるのかを判定する。
【0066】使用者からの返事が「いいえ」である場合
には、ステップS89に進み、CPU12は、変数rec_ng
1が基準値2より小さいか否かを判定する。今の場合、
ステップS81において、変数rec_ng1には0が設定さ
れているため、YESの判定が行われ、処理はステップS
90に進む。ステップS90において、CPU12は、ROM
13から「部署名をもう一度おっしゃってください。」
のメッセージを読み出し、端末3−1に送信する。CPU
12は、ステップS91において、変数rec_ng1を1だ
けインクリメントし(今の場合、rec_ng1=1とし)、
ステップS92において、部署名音声認識処理を実行す
る。すなわち、ステップS82で認識した部署名は誤っ
ていたので、使用者により再度入力された音声信号から
RAM14に記憶されているデータに基づいて、再度、部
署名が音声認識処理される。
【0067】次に、ステップS93において、CPU12
は、フラグflagに1を設定し、ステップS94におい
て、ステップS92で認識された結果得られた部署名を
含む「G部H課までは正しいでしょうか?」のメッセージ
を生成し、端末3−1に送信する。
【0068】端末3−1においては、受信したメッセー
ジが正しければ「はい」の音声が入力され、間違ってい
れば「いいえ」の音声が入力される。CPU12は、ステ
ップS87において、使用者からの応答を認識処理し、
ステップS88において、使用者の応答が「はい」と
「いいえ」のいずれであるのかを再び判定する。使用者
からの返事が「いいえ」である場合には、再び、ステッ
プS89に戻り、rec_ng1が、2より小さいか否かを判
定する。今の場合、rec_ng1は1であるから、YESの判
定が行われ、再び、ステップS90乃至ステップS94
の処理が、上述した場合と同様に実行される。
【0069】以上のようにして、変数rec_ng1の値が2
となると、ステップS89においてNOの判定が行われ、
ステップS95において、CPU12は、「申しわけござ
いませんが、部署名を認識できませんでした。オペレー
タにお回しします。」のメッセージをROM13から読み
出し、端末3−1に転送させる。そして、オペレータに
転送する処理が実行される。
【0070】ステップS88において、使用者からの入
力が「はい」であると判定された場合(部署名が正しい
場合)、ステップS96に進み、CPU12は、フラグfla
gが0であるか否かを判定する。フラグflagが0である
場合には(ステップS82で部署名が正しく認識された
場合には)、ステップS97に進み、CPU12は、「で
は、お名前をおっしゃってください。」のメッセージを
ROM13から読み出し、端末3−1に転送する。ステッ
プS98において、CPU12は、変数rec_ng2を1だけ
インクリメントする(今の場合、rec_ng2=1とす
る)。
【0071】ステップS99において、CPU12は、名
前音声認識処理を実行する。すなわち、使用者は、ステ
ップS97の処理で転送されたメッセージを受信したと
き、名前をマイクロホンに向かって発話する。CPU12
は、この音声信号が、端末3−1から転送されてきたと
き、音声認識部16にこれを転送し、認識処理させる。
すなわち、今の場合(フラグflag=0の場合)、ステッ
プS82で認識された部署名および名前の内、部署名は
正しかったので、「やまもとさんです。」のような名前
だけが、再度発話され、これが認識処理される。
【0072】CPU12は、ステップS99において認識
された名前をROM13に記憶されているメッセージと組
み合わせ、ステップS100において、「「やまもと」
さんでよろしいですか?」のメッセージを合成し、端末
3−1に送信させる。
【0073】一方、ステップS96において、フラグfl
agが0ではないと判定された場合、すなわち、1である
と判定された場合、ステップS92の部署名音声認識処
理を経て、処理が進んできたことになる。この場合、ス
テップS82で認識された部署名および名前の内、部署
名が誤っており、ステップS92の区分された認識処理
で正しい部署名が認識されたのであるから、ステップS
97乃至ステップS99の処理はスキップされ、直ちに
ステップS100において、ステップS82で認識され
た名前が正しいか否かのメッセージが、端末3−1に転
送される。
【0074】端末3−1においては、このメッセージを
受信すると、上述した場合と同様に、それが正しければ
「はい」のメッセージが入力され、誤っていれば「いい
え」のメッセージが入力される。CPU12は、ステップ
S101において、この使用者の応答を確認処理し、ス
テップS102において、使用者の返事が「はい」であ
るのか、「いいえ」であるのかを判定する。
【0075】使用者の返事が「はい」である場合には、
正しい名前が認識されたことになるので、ステップS1
05に進み、ステップS82またはステップS92で認
識された正しい部署名と、ステップS82またはステッ
プS99で認識された正しい名前とを合成し、例えば、
「では、I部J課の山本さんにお繋ぎします。」のような
メッセージを、端末3−1に送信する。その後、I部J課
の山本さんへの転送処理が実行される。
【0076】ステップS102において、使用者の返事
が「いいえ」であると判定された場合、ステップS10
3に進み、CPU12は、変数rec_ng2が基準値2より小
さいか否かを判定する。変数rec_ng2が基準値2より小
さい場合には、ステップS97に戻り、CPU12は、
「では、お名前をおっしゃって下さい。」のメッセージ
をROM13から読み出し、端末3−1に転送させる。そ
の後、ステップS98に進み、それ以降の処理が繰り返
し実行される。
【0077】ステップS103において、変数rec_ng2
が、基準値2と等しいか、それより大きくなったと判定
された場合、部署名は認識することができたが、正しい
名前を認識することができなかったことになるので、ス
テップS104に進み、CPU12は、「申し訳ございま
せん。部署の代表番号にお回しします。」のメッセージ
をROM13から読み出し、端末3−1に送信する。その
後、その部署の代表番号への転送処理が実行される。
【0078】以上のように、この例においては、最初
に、部署名および名前を一括して発話されたものが音声
認識され、正しい認識結果が得られれば、その部署のそ
の名前の者への転送処理が実行される。正しい認識結果
が得られなかった場合には、部署名と名前とに区分され
て認識処理が行われる。例えば「A部B課」のような部署
名は、一般性が低い名詞であり、前記住所認識処理の際
の都道府県区市町村郡の名称と同様に、音声認識に用い
る辞書も、限られた固有名詞だけが登録されている辞書
とすることができる。
【0079】これに対して、例えば、「やまもとさん」
のような人名は、一般性が高くなり前記住所認識処理の
際の番地と同様に、固有名詞などは含まれない辞書を用
いることが可能となる。
【0080】
【発明の効果】以上の如く、本発明の音声認識装置、音
声認識方法、および記録媒体によれば、一連の第1の音
声を認識できなかったとき、第1の音声を、一般性の低
い第2の音声と、一般性の高い第3の音声とに区分して
認識するようにしたので、迅速かつ確実に、音声認識す
ることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識システムの構成例を
示す図である。
【図2】図1のサーバ1の構成例を示すブロック図であ
る。
【図3】図1のサーバ1の動作を資料送付システムの実
施の形態を用いて説明するフローチャートである。
【図4】図3のステップS5の住所認識処理の詳細な処
理を説明するフローチャートである。
【図5】図1のサーバー1の動作を電話転送システムの
実施の形態を用いて説明するフローチャートである。
【図6】 図5のステップS63の部署名・名前認識
処理の詳細な処理を説明するフローチャートである。
【符号の説明】
1 サーバ 2 インターネット 3−1乃至3−3 端末 11 バス 12 CPU 13 ROM 14 RAM 15 ハードディスク 16 音声認識部 17 入出力インタフェース 18 出力部 19 表示部 20 通信部 21 ドライブ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 571C (72)発明者 糀谷 和人 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 Fターム(参考) 5D015 AA04 BB01 GG04 KK02 LL02 LL05

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力された一連の第1の音声を認識する
    第1の認識手段と、 前記第1の認識手段により音声が認識できなかったと
    き、前記第1の音声を、一般性の低い第2の音声と、一
    般性の高い第3の音声とに区分して認識する第2の認識
    手段とを備えることを特徴とする音声認識装置。
  2. 【請求項2】 前記第1の認識手段に認識させるための
    前記第1の音声の入力を案内する第1の案内手段と、 前記第1の認識手段により音声が認識できなかったと
    き、前記第2の認識手段が区分して認識する前記第2の
    音声と第3の音声の区分した入力を案内する第2の案内
    手段とをさらに備えることを特徴とする請求項1に記載
    の音声認識装置。
  3. 【請求項3】 前記第1の音声は、住所であり、 前記第2の音声は、都道府県市区町村郡の名称であり、 前記第3の音声は、番地であることを特徴とする請求項
    1に記載の音声認識装置。
  4. 【請求項4】 前記第1の音声は、前記第2の音声とし
    ての部署の名称と、 前記第3の音声としての人名の組み合わせであることを
    特徴とする請求項1に記載の音声認識装置。
  5. 【請求項5】 入力された一連の第1の音声を認識する
    第1の認識ステップと、 前記第1の認識ステップの処理により音声が認識できな
    かったとき、前記第1の音声を、一般性の低い第2の音
    声と、一般性の高い第3の音声とに区分して認識する第
    2の認識ステップとを含むことを特徴とする音声認識方
    法。
  6. 【請求項6】 入力された一連の第1の音声を認識する
    第1の認識ステップと、 前記第1の認識ステップの処理により音声が認識できな
    かったとき、前記第1の音声を、一般性の低い第2の音
    声と、一般性の高い第3の音声とに区分して認識する第
    2の認識ステップとを含むことを特徴とするコンピュー
    タに読み取り可能なプログラムが記録されている記録媒
    体。
JP2000138292A 1999-06-29 2000-05-11 音声認識装置および方法、並びに記録媒体 Expired - Fee Related JP3550654B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000138292A JP3550654B2 (ja) 1999-06-29 2000-05-11 音声認識装置および方法、並びに記録媒体
US09/851,560 US20020002492A1 (en) 2000-05-11 2001-05-10 Server apparatus, data processing apparatus, consumable management method, and memory medium and program therefor

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP18319499 1999-06-29
JP11-183194 1999-06-29
JP2000138292A JP3550654B2 (ja) 1999-06-29 2000-05-11 音声認識装置および方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001075593A true JP2001075593A (ja) 2001-03-23
JP3550654B2 JP3550654B2 (ja) 2004-08-04

Family

ID=26501730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000138292A Expired - Fee Related JP3550654B2 (ja) 1999-06-29 2000-05-11 音声認識装置および方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP3550654B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7190770B2 (en) 2002-02-18 2007-03-13 Hitachi, Ltd. Method and system for acquiring information with voice input
JP2012230670A (ja) * 2011-04-25 2012-11-22 Honda Motor Co Ltd 戻ることによって誤認識を修正するシステム、方法及びコンピュータプログラム
US9123327B2 (en) 2011-12-26 2015-09-01 Denso Corporation Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2017207610A (ja) * 2016-05-18 2017-11-24 シャープ株式会社 応答制御装置、制御プログラム、情報処理方法、および通信システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7190770B2 (en) 2002-02-18 2007-03-13 Hitachi, Ltd. Method and system for acquiring information with voice input
JP2012230670A (ja) * 2011-04-25 2012-11-22 Honda Motor Co Ltd 戻ることによって誤認識を修正するシステム、方法及びコンピュータプログラム
US9123327B2 (en) 2011-12-26 2015-09-01 Denso Corporation Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2017207610A (ja) * 2016-05-18 2017-11-24 シャープ株式会社 応答制御装置、制御プログラム、情報処理方法、および通信システム

Also Published As

Publication number Publication date
JP3550654B2 (ja) 2004-08-04

Similar Documents

Publication Publication Date Title
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US20020142787A1 (en) Method to select and send text messages with a mobile
US20080201142A1 (en) Method and apparatus for automication creation of an interactive log based on real-time content
US20050288930A1 (en) Computer voice recognition apparatus and method
JPH09321894A (ja) 情報処理装置
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
JP2001197207A (ja) 多言語応対装置
US20010056345A1 (en) Method and system for speech recognition of the alphabet
JP2001075593A (ja) 音声認識装置および方法、並びに記録媒体
JP2002279245A (ja) サービスセンタ及び発注受付方法
JP2003140690A (ja) 情報システム、電子機器、プログラム
JP4079275B2 (ja) 会話支援装置
JP2002091473A (ja) 情報処理装置
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
JP2001350682A (ja) 音声ドメインによるインターネット接続媒介システムと媒介装置及びその媒介方法、並びに音声ドメインのデータベース生成方法
JP2006113439A (ja) 音声自動応答装置及びプログラム
KR20220140301A (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
JP2006301967A (ja) 会話支援装置
JP2007065291A (ja) 語学学習支援方法
KR20220140304A (ko) 학습자의 음성 명령을 인식하는 화상 학습 시스템 및 그 방법
JP4741817B2 (ja) 音声出力装置、キャラクタ画像表示装置、音声出力方法、およびキャラクタ画像表示方法
JP2002162989A (ja) 音響モデル配信システムおよび音響モデル配信方法
JPH09230889A (ja) 音声認識応答装置
JP2004029457A (ja) 音声対話装置、および音声対話プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040408

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees