JPH1117813A - 音声認識方法及び装置、音声応答システム - Google Patents
音声認識方法及び装置、音声応答システムInfo
- Publication number
- JPH1117813A JPH1117813A JP9167718A JP16771897A JPH1117813A JP H1117813 A JPH1117813 A JP H1117813A JP 9167718 A JP9167718 A JP 9167718A JP 16771897 A JP16771897 A JP 16771897A JP H1117813 A JPH1117813 A JP H1117813A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- character
- recognition
- received
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
(57)【要約】
【課題】 背景雑音が大きい環境下で入力された音声の
認識精度を高めることができる音声認識装置を提供す
る。 【解決手段】 複数のPBの各々の押下回数に応じて特
定の文字を表現する手段を備えた携帯電話無線機2から
入力音声と各PBの押下により生成されたPB信号を同
一の音声通信回線を通じて受信するインタフェースユニ
ット10と、受信したPB信号の種別と当該PB信号の
断続回数とから携帯電話無線機2において表現された文
字を判別するPB認識ユニット30と、単語辞書部24
からPB認識ユニット30により判別された文字をその
先頭部分に含む単語候補を特定して音声認識を行う音声
認識ユニット20とを有し、認識結果を対話式によって
携帯電話無線機2に返答してその内容確認を行えるよう
にした。
認識精度を高めることができる音声認識装置を提供す
る。 【解決手段】 複数のPBの各々の押下回数に応じて特
定の文字を表現する手段を備えた携帯電話無線機2から
入力音声と各PBの押下により生成されたPB信号を同
一の音声通信回線を通じて受信するインタフェースユニ
ット10と、受信したPB信号の種別と当該PB信号の
断続回数とから携帯電話無線機2において表現された文
字を判別するPB認識ユニット30と、単語辞書部24
からPB認識ユニット30により判別された文字をその
先頭部分に含む単語候補を特定して音声認識を行う音声
認識ユニット20とを有し、認識結果を対話式によって
携帯電話無線機2に返答してその内容確認を行えるよう
にした。
Description
【0001】
【発明の属する技術分野】本発明は、複数のプッシュボ
タン(PB)の各々の押下回数に応じて特定の文字を表
現する手段を備えた音声入力装置、例えば携帯電話無線
機から受信した入力音声を認識する音声認識装置、及び
この音声認識装置を用いた音声応答システムにおいて、
入力音声の認識精度を高める技術に関する。
タン(PB)の各々の押下回数に応じて特定の文字を表
現する手段を備えた音声入力装置、例えば携帯電話無線
機から受信した入力音声を認識する音声認識装置、及び
この音声認識装置を用いた音声応答システムにおいて、
入力音声の認識精度を高める技術に関する。
【0002】
【従来の技術】音声認識装置は、入力音声をアナログ・
デジタル変換して音響処理や言語処理を行うことにより
認識結果を出力する装置であり、音声入力に基づく情報
検索等に広く応用されている。図4は、従来のこの種の
音声認識装置の機能構成図である。この音声認識装置3
は、ユーザからの発話音声をデジタル信号に変換する音
声入力部21と、入力されたデジタル信号と単語辞書部
24に格納された認識単語に基づいて音声認識を行う音
声認識部23と、認識結果を出力する認識結果出力部2
6とを備えて構成される。
デジタル変換して音響処理や言語処理を行うことにより
認識結果を出力する装置であり、音声入力に基づく情報
検索等に広く応用されている。図4は、従来のこの種の
音声認識装置の機能構成図である。この音声認識装置3
は、ユーザからの発話音声をデジタル信号に変換する音
声入力部21と、入力されたデジタル信号と単語辞書部
24に格納された認識単語に基づいて音声認識を行う音
声認識部23と、認識結果を出力する認識結果出力部2
6とを備えて構成される。
【0003】このような音声認識装置3では、発話の際
の背景雑音が大きい場合は、静かな環境で発声された場
合に比べて音声認識性能が著しく劣化することが経験則
上知られている。そのため、従来より、当初からデジタ
ル信号音声を使って背景雑音を除去ないし抑制したり、
単語辞書部24を作成する際の学習用音声データに、予
め背景雑音が混入しているデータを使用したり、あるい
は、クリーンな音声の認識モデルと雑音の認識モデルと
を合成して雑音にロバストな認識モデルを作成したりし
て、音声入力の際の背景雑音に対する問題の解決が試み
られている。一方、音声認識に際しては、入力音声に対
してリアルタイムな認識結果が要求される場面が多い。
そのため、従来は、DSP(Digital Signal Processo
r)を多数使用してレスポンス速度を改善したり、認識
の解析途中に尤度(入力音声が登録されている単語であ
ると仮定したときの確からしさの度合い)が低くなりそ
うな認識候補を推測し、これを切り捨てて演算量を削減
することも試みられている。
の背景雑音が大きい場合は、静かな環境で発声された場
合に比べて音声認識性能が著しく劣化することが経験則
上知られている。そのため、従来より、当初からデジタ
ル信号音声を使って背景雑音を除去ないし抑制したり、
単語辞書部24を作成する際の学習用音声データに、予
め背景雑音が混入しているデータを使用したり、あるい
は、クリーンな音声の認識モデルと雑音の認識モデルと
を合成して雑音にロバストな認識モデルを作成したりし
て、音声入力の際の背景雑音に対する問題の解決が試み
られている。一方、音声認識に際しては、入力音声に対
してリアルタイムな認識結果が要求される場面が多い。
そのため、従来は、DSP(Digital Signal Processo
r)を多数使用してレスポンス速度を改善したり、認識
の解析途中に尤度(入力音声が登録されている単語であ
ると仮定したときの確からしさの度合い)が低くなりそ
うな認識候補を推測し、これを切り捨てて演算量を削減
することも試みられている。
【0004】
【発明が解決しようとする課題】しかし、従来の背景雑
音対策では、雑音の種類、例えば車の騒音、駅のホーム
の雑音などが予め予定されたものと異なる場合は、認識
性能を向上させるどころか、逆に劣化させてしまう問題
がある。また、レスポンス速度の改善を図るためにDS
Pを大量に使用すると装置価格が高くなり、一方、演算
量を削減するために、ある認識候補の尤度が低いからと
いってすべての認識処理が終わる前に多くの認識候補を
演算対象から外すせば認識誤りの原因となる。そのた
め、例えば対話式によって音声のやりとりを行うような
音声応答システムでは、ユーザとの間の円滑な対話を実
現することができず、特に、このシステムの音声入力装
置として、携帯電話無線機(パーソナル・ハンディフォ
ン・システムを含む)を用いたシステムでは、実用化が
著しく困難であった。
音対策では、雑音の種類、例えば車の騒音、駅のホーム
の雑音などが予め予定されたものと異なる場合は、認識
性能を向上させるどころか、逆に劣化させてしまう問題
がある。また、レスポンス速度の改善を図るためにDS
Pを大量に使用すると装置価格が高くなり、一方、演算
量を削減するために、ある認識候補の尤度が低いからと
いってすべての認識処理が終わる前に多くの認識候補を
演算対象から外すせば認識誤りの原因となる。そのた
め、例えば対話式によって音声のやりとりを行うような
音声応答システムでは、ユーザとの間の円滑な対話を実
現することができず、特に、このシステムの音声入力装
置として、携帯電話無線機(パーソナル・ハンディフォ
ン・システムを含む)を用いたシステムでは、実用化が
著しく困難であった。
【0005】そこで本発明の課題は、背景雑音が大きい
環境下で入力された音声の認識精度を高めることができ
る、改良された音声認識方法を提供することにある。本
発明の他の課題は、上記方法を実施する上で好適となる
音声認識装置を提供することにある。さらに本発明の他
の課題は、背景雑音が大きい環境下で音声入力される場
合が多い携帯電話無線機を用いた場合であっても適切な
音声認識性能が得られる音声応答システムを提供するこ
とにある。
環境下で入力された音声の認識精度を高めることができ
る、改良された音声認識方法を提供することにある。本
発明の他の課題は、上記方法を実施する上で好適となる
音声認識装置を提供することにある。さらに本発明の他
の課題は、背景雑音が大きい環境下で音声入力される場
合が多い携帯電話無線機を用いた場合であっても適切な
音声認識性能が得られる音声応答システムを提供するこ
とにある。
【0006】
【課題を解決するための手段】本発明が提供する音声認
識方法は、複数のPBの各々の押下回数に応じて特定の
文字を表現する手段を備えた音声入力装置、例えば携帯
電話無線機から受信した入力音声を認識する音声認識装
置において使用される方法であって、各PBの押下によ
り生成されたPB信号を受信し、受信したPB信号の種
別と当該PB信号の断続回数とを認識して前記音声入力
装置で表現された文字を判別するとともに、判別した文
字に基づいて前記受信した入力音声の認識対象となる単
語候補を特定することを特徴とする。
識方法は、複数のPBの各々の押下回数に応じて特定の
文字を表現する手段を備えた音声入力装置、例えば携帯
電話無線機から受信した入力音声を認識する音声認識装
置において使用される方法であって、各PBの押下によ
り生成されたPB信号を受信し、受信したPB信号の種
別と当該PB信号の断続回数とを認識して前記音声入力
装置で表現された文字を判別するとともに、判別した文
字に基づいて前記受信した入力音声の認識対象となる単
語候補を特定することを特徴とする。
【0007】本発明の他の音声認識方法は、上記方法と
同様、各PBの押下により生成されたPB信号を受信
し、受信したPB信号の種別と当該PB信号の断続回数
とを認識して前記音声入力装置で表現された文字を判別
するとともに、判別した文字を前記PB信号の受信順に
蓄積しておき、前記受信した入力音声の認識対象となる
単語候補群を前記蓄積された文字の増加に伴って段階的
に絞り込むことを特徴とする。
同様、各PBの押下により生成されたPB信号を受信
し、受信したPB信号の種別と当該PB信号の断続回数
とを認識して前記音声入力装置で表現された文字を判別
するとともに、判別した文字を前記PB信号の受信順に
蓄積しておき、前記受信した入力音声の認識対象となる
単語候補群を前記蓄積された文字の増加に伴って段階的
に絞り込むことを特徴とする。
【0008】また、上記他の課題を解決する本発明の音
声認識装置は、複数のPBの各々の押下回数に応じて特
定の文字を表現する手段を備えた音声入力装置、例えば
携帯電話無線機から入力音声と各PBの押下により生成
されたPB信号を同一の音声通信回線を通じて受信する
受信手段と、前記受信したPB信号の種別と当該PB信
号の断続回数とから前記音声入力装置において表現され
た文字を判別する文字判別手段と、予め用意された音声
認識用の単語候補群から前記文字判別手段により判別さ
れた文字をその先頭部分に含む単語候補を特定する単語
候補特定手段とを有し、前記特定された単語候補を用い
て前記受信した入力音声の認識処理を行うことを特徴と
する。
声認識装置は、複数のPBの各々の押下回数に応じて特
定の文字を表現する手段を備えた音声入力装置、例えば
携帯電話無線機から入力音声と各PBの押下により生成
されたPB信号を同一の音声通信回線を通じて受信する
受信手段と、前記受信したPB信号の種別と当該PB信
号の断続回数とから前記音声入力装置において表現され
た文字を判別する文字判別手段と、予め用意された音声
認識用の単語候補群から前記文字判別手段により判別さ
れた文字をその先頭部分に含む単語候補を特定する単語
候補特定手段とを有し、前記特定された単語候補を用い
て前記受信した入力音声の認識処理を行うことを特徴と
する。
【0009】前記文字判別手段により判別された文字を
該当PB信号の受信順に蓄積する文字蓄積手段をさらに
備え、前記蓄積された文字の増加に伴って前記認識対象
となる単語候補群を段階的に絞り込むように構成しても
よい。
該当PB信号の受信順に蓄積する文字蓄積手段をさらに
備え、前記蓄積された文字の増加に伴って前記認識対象
となる単語候補群を段階的に絞り込むように構成しても
よい。
【0010】さらに、上記他の課題を解決するため、本
発明は、携帯電話無線機向けの音声応答システムを提供
する。このシステムは、複数のPBの各々の押下回数に
応じて特定の文字をディスプレイ表示する手段と、各P
Bの押下により生成されたPB信号を送信する手段とを
備えた携帯電話無線機からの着呼に応答する手段と、前
記呼が確立された携帯電話無線機に対してPBの押下を
指示する手段と、前記指示に応じて前記携帯電話無線機
より受信したPB信号の種別と当該PB信号の断続回数
とを認識して前記ディスプレイ表示された文字を判別す
る文字判別手段と、予め用意された単語候補群から前記
判別された文字を先頭部分に含む単語候補を特定し、特
定した単語候補を用いて前記携帯電話無線機より受信し
た音声の認識処理を行う音声認識手段と、前記音声認識
手段による認識結果を音声信号に変換して前記携帯電話
無線機に提示する手段とを備えて構成される。
発明は、携帯電話無線機向けの音声応答システムを提供
する。このシステムは、複数のPBの各々の押下回数に
応じて特定の文字をディスプレイ表示する手段と、各P
Bの押下により生成されたPB信号を送信する手段とを
備えた携帯電話無線機からの着呼に応答する手段と、前
記呼が確立された携帯電話無線機に対してPBの押下を
指示する手段と、前記指示に応じて前記携帯電話無線機
より受信したPB信号の種別と当該PB信号の断続回数
とを認識して前記ディスプレイ表示された文字を判別す
る文字判別手段と、予め用意された単語候補群から前記
判別された文字を先頭部分に含む単語候補を特定し、特
定した単語候補を用いて前記携帯電話無線機より受信し
た音声の認識処理を行う音声認識手段と、前記音声認識
手段による認識結果を音声信号に変換して前記携帯電話
無線機に提示する手段とを備えて構成される。
【0011】
【発明の実施の形態】以下、本発明の音声認識方法を実
現する装置を含んで構成される音声応答システムの実施
の形態を詳細に説明する。図1は、この音声応答システ
ムの構成図であり、音声入力装置として携帯電話無線機
2を用いた場合の例を示すものである。この携帯電話無
線機2は、例えば、電話番号登録機能を備えた携帯電話
やPHS(パーソナル・ハンディフォン・システム子
機)のように、複数のPBの各々の押下回数に応じて特
定の文字をディスプレイに表示する手段を備えたもので
ある。
現する装置を含んで構成される音声応答システムの実施
の形態を詳細に説明する。図1は、この音声応答システ
ムの構成図であり、音声入力装置として携帯電話無線機
2を用いた場合の例を示すものである。この携帯電話無
線機2は、例えば、電話番号登録機能を備えた携帯電話
やPHS(パーソナル・ハンディフォン・システム子
機)のように、複数のPBの各々の押下回数に応じて特
定の文字をディスプレイに表示する手段を備えたもので
ある。
【0012】本実施形態の音声応答システムは、不特定
者からの上記携帯電話無線機2との間で対話式で音声通
信を行うことが可能な音声認識装置1を有する。この音
声認識装置1は、大別して、インタフェースユニット1
0、音声認識ユニット20、PB認識ユニット30、及
び、音声合成ユニット40を備えて構成される。各ユニ
ットは、例えば通信機能を備えたコンピュータ装置が所
定のプログラムを実行することにより形成される。な
お、上記プログラムは、コンピュータ装置に内蔵される
ハードディスク等の記憶手段に格納されて使用されるの
が通常であるが、コンピュータ装置とは分離した形態で
流通する記録媒体、例えばCD−ROM等に格納され、
使用時に上記記憶手段にインストールされるものであっ
てもよい。
者からの上記携帯電話無線機2との間で対話式で音声通
信を行うことが可能な音声認識装置1を有する。この音
声認識装置1は、大別して、インタフェースユニット1
0、音声認識ユニット20、PB認識ユニット30、及
び、音声合成ユニット40を備えて構成される。各ユニ
ットは、例えば通信機能を備えたコンピュータ装置が所
定のプログラムを実行することにより形成される。な
お、上記プログラムは、コンピュータ装置に内蔵される
ハードディスク等の記憶手段に格納されて使用されるの
が通常であるが、コンピュータ装置とは分離した形態で
流通する記録媒体、例えばCD−ROM等に格納され、
使用時に上記記憶手段にインストールされるものであっ
てもよい。
【0013】各ユニット10〜40の機能は下記のとお
りである。まず、インタフェースユニット10では、図
示しない通信手段を介して携帯電話無線機2から呼(コ
ール)を受信したときに当該携帯電話無線機2との間の
回線を接続する回線接続部11を有する。回線接続部1
1は、回線を接続したときに、その旨を回線制御部12
に通知する。回線制御部12は、携帯電話無線機2から
の情報を受信部13に入力するとともに、音声合成ユニ
ット40からの合成音声を回線接続部11と上記通信手
段を通じて携帯電話無線機2に送信する。
りである。まず、インタフェースユニット10では、図
示しない通信手段を介して携帯電話無線機2から呼(コ
ール)を受信したときに当該携帯電話無線機2との間の
回線を接続する回線接続部11を有する。回線接続部1
1は、回線を接続したときに、その旨を回線制御部12
に通知する。回線制御部12は、携帯電話無線機2から
の情報を受信部13に入力するとともに、音声合成ユニ
ット40からの合成音声を回線接続部11と上記通信手
段を通じて携帯電話無線機2に送信する。
【0014】音声認識ユニット20は、インタフェース
ユニット10より受信した信号のうち、アナログ音声信
号の認識処理を行うものである。具体的には、アナログ
信号を音声入力部21でデジタル信号に変換するととも
に、これを入力音声保存部22に保存する。音声認識部
23は、この保存されたデジタル信号と単語辞書部24
に格納され、単語選択部25で絞り込まれた認識単語に
基づいて音声認識を行う。認識結果は認識結果出力部2
6を通じて音声合成ユニット40に送られる。単語選択
部25には、単語絞り込みに用いる文字をそれが単語中
の何番目に位置するかを表す情報と共に保存する機能を
併有するものである。なお、音声認識ユニット20のう
ち、図4に示した従来の音声認識装置3とほぼ同一機能
の構成要素については、便宜上、同一符号を付してあ
る。
ユニット10より受信した信号のうち、アナログ音声信
号の認識処理を行うものである。具体的には、アナログ
信号を音声入力部21でデジタル信号に変換するととも
に、これを入力音声保存部22に保存する。音声認識部
23は、この保存されたデジタル信号と単語辞書部24
に格納され、単語選択部25で絞り込まれた認識単語に
基づいて音声認識を行う。認識結果は認識結果出力部2
6を通じて音声合成ユニット40に送られる。単語選択
部25には、単語絞り込みに用いる文字をそれが単語中
の何番目に位置するかを表す情報と共に保存する機能を
併有するものである。なお、音声認識ユニット20のう
ち、図4に示した従来の音声認識装置3とほぼ同一機能
の構成要素については、便宜上、同一符号を付してあ
る。
【0015】PB認識ユニット30は、インタフェース
ユニット10より受信した信号のうち、PB信号の種別
と当該PB信号の断続回数とを認識して携帯電話無線機
2で表現された文字を判別するものである。具体的に
は、受信したPB信号をPB入力部でデジタル信号に変
換するとともに、変換したデジタル信号がどのPBのも
のかをPB認識部32で認識する。そして、PB計数部
33でそのPBが押された回数を計数し、携帯電話無線
機2側のディスプレイに表示されている文字が何かを文
字判別部34で判別し、判別結果を単語選択部25に保
存する。なお、デジタル信号に変換されたPB信号の特
徴を格納したPB認識辞書やPBの種別と文字との対応
テーブルを設けておき、PB認識や文字判別の際にこれ
らを使用するようにしてもよい。このように構成すれ
ば、PB認識に要する処理が簡略化され、処理時間の短
縮化が図れて好都合となる。
ユニット10より受信した信号のうち、PB信号の種別
と当該PB信号の断続回数とを認識して携帯電話無線機
2で表現された文字を判別するものである。具体的に
は、受信したPB信号をPB入力部でデジタル信号に変
換するとともに、変換したデジタル信号がどのPBのも
のかをPB認識部32で認識する。そして、PB計数部
33でそのPBが押された回数を計数し、携帯電話無線
機2側のディスプレイに表示されている文字が何かを文
字判別部34で判別し、判別結果を単語選択部25に保
存する。なお、デジタル信号に変換されたPB信号の特
徴を格納したPB認識辞書やPBの種別と文字との対応
テーブルを設けておき、PB認識や文字判別の際にこれ
らを使用するようにしてもよい。このように構成すれ
ば、PB認識に要する処理が簡略化され、処理時間の短
縮化が図れて好都合となる。
【0016】音声合成ユニット40は、音声認識ユニッ
ト20からの認識結果や所用のメッセージを音声信号に
変換する合成音声作成部42と、作成された合成音声を
インタフェースユニット10に出力する合成音声出力部
41とを備えて構成される。
ト20からの認識結果や所用のメッセージを音声信号に
変換する合成音声作成部42と、作成された合成音声を
インタフェースユニット10に出力する合成音声出力部
41とを備えて構成される。
【0017】次に、上記のような音声認識装置1を有す
る音声応答システムの具体的な動作を図2の処理手順図
及び図3のシーケンスチャートを併用して説明する。ま
ず、ユーザが携帯電話無線機2からシステム側に電話を
かける。音声入力装置1は、着呼を確認して回線を接続
し、その携帯電話無線機2との間に呼を確立する(ステ
ップS101,S102)。そして、音声入力のガイダ
ンス「あなたの名前を音声で入力して下さい」を携帯電
話無線機2に向けて出力する(ステップS103)。
る音声応答システムの具体的な動作を図2の処理手順図
及び図3のシーケンスチャートを併用して説明する。ま
ず、ユーザが携帯電話無線機2からシステム側に電話を
かける。音声入力装置1は、着呼を確認して回線を接続
し、その携帯電話無線機2との間に呼を確立する(ステ
ップS101,S102)。そして、音声入力のガイダ
ンス「あなたの名前を音声で入力して下さい」を携帯電
話無線機2に向けて出力する(ステップS103)。
【0018】このガイダンスを聞いたユーザが「すずき
たろうです」と携帯電話機2に発声したとする。音声認
識装置1は、この発声内容を入力して音声認識処理を実
行する(ステップS104,S105)。このときの認
識結果が「いとうたろう」であった場合、認識結果の確
認用合成音「いとうたろうさんですか?」を作成して携
帯電話無線機2に向けて出力する(ステップS10
6)。
たろうです」と携帯電話機2に発声したとする。音声認
識装置1は、この発声内容を入力して音声認識処理を実
行する(ステップS104,S105)。このときの認
識結果が「いとうたろう」であった場合、認識結果の確
認用合成音「いとうたろうさんですか?」を作成して携
帯電話無線機2に向けて出力する(ステップS10
6)。
【0019】ユーザは、認識結果が自分の発話内容と異
なるので、「いいえ」を携帯電話無線機2に入力する。
音声認識装置1は、認識結果が不正解であったことを認
識し(ステップS107:No)、PB押下のガイダンス
「あなたの名前の先頭文字をPBでディスプレイに表示
して下さい」を作成して携帯電話無線機2に向けて出力
する(ステップS108)。
なるので、「いいえ」を携帯電話無線機2に入力する。
音声認識装置1は、認識結果が不正解であったことを認
識し(ステップS107:No)、PB押下のガイダンス
「あなたの名前の先頭文字をPBでディスプレイに表示
して下さい」を作成して携帯電話無線機2に向けて出力
する(ステップS108)。
【0020】このガイダンスを聞いたユーザがPBをカ
ナ入力に割り当てた後、「サ」「サ」「サ」の順に押し
て「ス」の文字をディスプレイに表示させる。音声認識
装置1は、携帯電話無線機2において、「サ」のPBが
選択され、それが3回押されたことを認識してディスプ
レイ表示された文字が「ス」であると判別する(ステッ
プS109,S110)。そして、認識単語候補を
「ス」から始まる単語に絞り、音声認識処理を再実行す
る(ステップS111)。このときの認識結果が「すぎ
もとたろう」であった場合、認識結果の確認用合成音
「すぎもとたろうさんですか?」を作成して携帯電話無
線機2に向けて出力する(ステップS112)。
ナ入力に割り当てた後、「サ」「サ」「サ」の順に押し
て「ス」の文字をディスプレイに表示させる。音声認識
装置1は、携帯電話無線機2において、「サ」のPBが
選択され、それが3回押されたことを認識してディスプ
レイ表示された文字が「ス」であると判別する(ステッ
プS109,S110)。そして、認識単語候補を
「ス」から始まる単語に絞り、音声認識処理を再実行す
る(ステップS111)。このときの認識結果が「すぎ
もとたろう」であった場合、認識結果の確認用合成音
「すぎもとたろうさんですか?」を作成して携帯電話無
線機2に向けて出力する(ステップS112)。
【0021】ユーザは、認識結果が自分の発話内容と異
なるので、「いいえ」を携帯電話無線機2に入力する。
音声認識装置1は、認識結果が不正解であったことを認
識し(ステップS113:No)、ステップS108に戻
る。すなわち、PB押下のガイダンス「あなたの名前の
2番目の文字をPBでディスプレイに表示した下さい」
を作成して携帯電話無線機2に向けて出力する(ステッ
プS108)。このガイダンスを聞いたユーザがPBを
押して「ズ」の文字をディスプレイに表示させると、音
声認識装置1は、携帯電話無線機2においてディスプレ
イ表示された文字「ズ」を判別する(ステップS10
9,S110)。そして、認識単語候補を「スズ」から
始まる単語に絞り、音声認識処理を再実行する(ステッ
プS111)。認識結果が「すずきたろう」であった場
合、認識結果の確認用合成音「すずきたろうさんですか
?」を作成して携帯電話無線機2に向けて出力する(ス
テップS112)。
なるので、「いいえ」を携帯電話無線機2に入力する。
音声認識装置1は、認識結果が不正解であったことを認
識し(ステップS113:No)、ステップS108に戻
る。すなわち、PB押下のガイダンス「あなたの名前の
2番目の文字をPBでディスプレイに表示した下さい」
を作成して携帯電話無線機2に向けて出力する(ステッ
プS108)。このガイダンスを聞いたユーザがPBを
押して「ズ」の文字をディスプレイに表示させると、音
声認識装置1は、携帯電話無線機2においてディスプレ
イ表示された文字「ズ」を判別する(ステップS10
9,S110)。そして、認識単語候補を「スズ」から
始まる単語に絞り、音声認識処理を再実行する(ステッ
プS111)。認識結果が「すずきたろう」であった場
合、認識結果の確認用合成音「すずきたろうさんですか
?」を作成して携帯電話無線機2に向けて出力する(ス
テップS112)。
【0022】ユーザは、認識結果が自分の発話内容と一
致したので、「はい」を携帯電話無線機2に入力する。
これにより音声認識装置1は、認識結果が正解になった
ことを認識し(ステップS113:Yes)、後続処理の
実行を開始する。
致したので、「はい」を携帯電話無線機2に入力する。
これにより音声認識装置1は、認識結果が正解になった
ことを認識し(ステップS113:Yes)、後続処理の
実行を開始する。
【0023】このように、本実施形態の音声応答システ
ムでは、音声認識装置1に、ユーザが携帯電話無線機2
のディスプレイにどのような文字が表示されたかどうか
を判別するPB認識ユニットと、判別した文字ないし文
字列を連動させて音声認識を行う音声認識ユニット20
とを設けたので、背景雑音が混入した入力音声であって
も高精度の認識性能を得ることができるようになる。
ムでは、音声認識装置1に、ユーザが携帯電話無線機2
のディスプレイにどのような文字が表示されたかどうか
を判別するPB認識ユニットと、判別した文字ないし文
字列を連動させて音声認識を行う音声認識ユニット20
とを設けたので、背景雑音が混入した入力音声であって
も高精度の認識性能を得ることができるようになる。
【0024】また、判別した文字ないし文字列を先頭部
分に含む単語候補に絞って音声認識を行うようにしたの
で、単語辞書部24のすべての単語候補を対象とした場
合に比べて認識処理に要する演算量が格段に少なくな
る。これにより、従来のように複数のDSPを使用する
必要がなくなる。また、ユーザは長い文字列を表現する
ためにPBを何回も押す必要がなくなり、操作性も向上
する。従って、例えば対話式によって音声のやりとりを
行う場合に、ユーザとの間の対話が円滑になり、システ
ムの無人化も可能になる。
分に含む単語候補に絞って音声認識を行うようにしたの
で、単語辞書部24のすべての単語候補を対象とした場
合に比べて認識処理に要する演算量が格段に少なくな
る。これにより、従来のように複数のDSPを使用する
必要がなくなる。また、ユーザは長い文字列を表現する
ためにPBを何回も押す必要がなくなり、操作性も向上
する。従って、例えば対話式によって音声のやりとりを
行う場合に、ユーザとの間の対話が円滑になり、システ
ムの無人化も可能になる。
【0025】
【実施例】本発明の音声応答システムでは、携帯電話無
線機2のディスプレイに表示された文字の認識を主とし
た実施、あるいは音声認識を主とした実施が可能であ
る。
線機2のディスプレイに表示された文字の認識を主とし
た実施、あるいは音声認識を主とした実施が可能であ
る。
【0026】(1)ディスプレイに表示された文字の認
識を主とした実施 上記音声認識装置1によらずに携帯電話無線機2のディ
スプレイ表示文字(文字、数字)等と所定の音声応答サ
ービスとを組み合わせてサービスシステムを構築する場
合、予めディスプレイに表示されるべき文字等の組み合
わせと、それに対応する情報とを対応させておき、ユー
ザが該当する文字の組み合わせをディスプレイに表示さ
せることが考えられる。例えば、天気予報のサービスで
あればPBの「011」、時報サービスであれば「02
1」、株式情報サービスであれば「035」と決めたと
き、ユーザは、時報サービスを受けたい場合はPBを
「021」と押す。しかし、この方式では、ユーザがサ
ービスと文字の組み合わせとの対応表をもっていないと
どのPBを押して良いのかわからないし、仮に対応表を
もっていたとしても、表現したい文字等が長くなるとP
Bの組み合わせを探すために時間がかかる。これに対し
て、本発明を適用した場合は、PBの押下によってディ
スプレイに表示される文字ないし文字列を音声認識装置
1が自動的に認識し、その認識結果に応じた音声応答を
行うので、目的の入力内容や数字列の組み合わせ表がな
くとも自由に文字入力ができるようになる。さらに、本
実施形態の音声認識装置1では、認識結果が不正解の場
合は、ユーザに対してPB押下を先頭部分から順に1文
字づつ依頼し、それに基づいて単語候補を絞り込んで認
識処理を行うので、ユーザが長い文字列を表すためにP
Bを何回も押下する必要がなくなり、ユーザの操作上の
労力を最小限にすることもできる。
識を主とした実施 上記音声認識装置1によらずに携帯電話無線機2のディ
スプレイ表示文字(文字、数字)等と所定の音声応答サ
ービスとを組み合わせてサービスシステムを構築する場
合、予めディスプレイに表示されるべき文字等の組み合
わせと、それに対応する情報とを対応させておき、ユー
ザが該当する文字の組み合わせをディスプレイに表示さ
せることが考えられる。例えば、天気予報のサービスで
あればPBの「011」、時報サービスであれば「02
1」、株式情報サービスであれば「035」と決めたと
き、ユーザは、時報サービスを受けたい場合はPBを
「021」と押す。しかし、この方式では、ユーザがサ
ービスと文字の組み合わせとの対応表をもっていないと
どのPBを押して良いのかわからないし、仮に対応表を
もっていたとしても、表現したい文字等が長くなるとP
Bの組み合わせを探すために時間がかかる。これに対し
て、本発明を適用した場合は、PBの押下によってディ
スプレイに表示される文字ないし文字列を音声認識装置
1が自動的に認識し、その認識結果に応じた音声応答を
行うので、目的の入力内容や数字列の組み合わせ表がな
くとも自由に文字入力ができるようになる。さらに、本
実施形態の音声認識装置1では、認識結果が不正解の場
合は、ユーザに対してPB押下を先頭部分から順に1文
字づつ依頼し、それに基づいて単語候補を絞り込んで認
識処理を行うので、ユーザが長い文字列を表すためにP
Bを何回も押下する必要がなくなり、ユーザの操作上の
労力を最小限にすることもできる。
【0027】(2)音声認識を主とした実施 粗悪な音声入力環境のため、音声認識性能を十分に発揮
できない場合、背景の音環境に頑健なディスプレイ表示
文字の認識を音声認識の補助機能として使用する。これ
により、音声認識性能は格段に向上するとともに、認識
対象単語の語彙がディスプレイ表示文字の認識結果から
限定されるので、演算量が削減され、ユーザに対するレ
スポンスタイムの短縮化も図れるようになる。
できない場合、背景の音環境に頑健なディスプレイ表示
文字の認識を音声認識の補助機能として使用する。これ
により、音声認識性能は格段に向上するとともに、認識
対象単語の語彙がディスプレイ表示文字の認識結果から
限定されるので、演算量が削減され、ユーザに対するレ
スポンスタイムの短縮化も図れるようになる。
【0028】なお、本発明の実施形態及び実施例では、
音声入力装置としてディスプレイを有する携帯電話無線
機2を用いた場合について説明したが、複数のPBによ
って文字等を表現することができる音声入力装置であれ
ば本発明を実施できるので、必ずしも上述の構成例に限
定されるものでない。
音声入力装置としてディスプレイを有する携帯電話無線
機2を用いた場合について説明したが、複数のPBによ
って文字等を表現することができる音声入力装置であれ
ば本発明を実施できるので、必ずしも上述の構成例に限
定されるものでない。
【0029】
【発明の効果】以上の説明から明らかなように、本発明
の音声認識方法では、音声認識装置において、受信した
PB信号の種別と当該PB信号の断続回数とから音声入
力装置で表現された文字ないし文字列を判別し、判別結
果に基づいて入力音声の認識に用いられる単語候補を特
定するので、音声入力の前あるいは後にこのシーケンス
を導入することにより入力音声についての正しい文字情
報を獲得することができるようになり、背景雑音が混入
した入力音声であっても性能を劣化させない音声認識が
可能になる。また、特定された単語候補に対してのみ音
声認識がなされるので、音声認識に要する演算量が少な
くなり、その分、レスポンスタイムが短くなる効果があ
る。また、本発明の音声認識装置を用いた携帯電話無線
機向けの音声応答システムによれば、ユーザが押下した
PBの種別及び押下回数から音声入力装置のディスプレ
イに表示された文字ないし文字列を判別し、判別結果を
ユーザに音声メッセージとして返答できるので、ユーザ
との対話が円滑になる効果がある。
の音声認識方法では、音声認識装置において、受信した
PB信号の種別と当該PB信号の断続回数とから音声入
力装置で表現された文字ないし文字列を判別し、判別結
果に基づいて入力音声の認識に用いられる単語候補を特
定するので、音声入力の前あるいは後にこのシーケンス
を導入することにより入力音声についての正しい文字情
報を獲得することができるようになり、背景雑音が混入
した入力音声であっても性能を劣化させない音声認識が
可能になる。また、特定された単語候補に対してのみ音
声認識がなされるので、音声認識に要する演算量が少な
くなり、その分、レスポンスタイムが短くなる効果があ
る。また、本発明の音声認識装置を用いた携帯電話無線
機向けの音声応答システムによれば、ユーザが押下した
PBの種別及び押下回数から音声入力装置のディスプレ
イに表示された文字ないし文字列を判別し、判別結果を
ユーザに音声メッセージとして返答できるので、ユーザ
との対話が円滑になる効果がある。
【図1】本発明を適用した携帯電話無線機向け音声応答
システムの構成概要図。
システムの構成概要図。
【図2】音声応答システムにおいて対話式で音声認識を
行う場合の処理手順を示す図。
行う場合の処理手順を示す図。
【図3】音声応答システムにおいて行われるユーザと音
声認識装置との間の情報の対話内容を表すシーケンスチ
ャート。
声認識装置との間の情報の対話内容を表すシーケンスチ
ャート。
【図4】従来の音声認識装置の機能構成図。
1,3 音声認識装置 2 携帯電話無線機 10 インタフェースユニット 20 音声認識ユニット 21 音声入力部 22 音声認識部 23 単語辞書部 24 単語選択部 30 PB認識ユニット 31 PB入力部 32 PB認識部 33 PB計数部 34 文字判別部 40 音声合成ユニット
Claims (5)
- 【請求項1】 複数のプッシュボタン(以下、PB)の
各々の押下回数に応じて特定の文字を表現する手段を備
えた音声入力装置から受信した入力音声を認識する音声
認識装置において使用される方法であって、 各PBの押下により生成されたPB信号を受信し、受信
したPB信号の種別と当該PB信号の断続回数とを認識
して前記音声入力装置で表現された文字を判別するとと
もに、判別した文字に基づいて前記受信した入力音声の
認識対象となる単語候補を特定することを特徴とする音
声認識方法。 - 【請求項2】 複数のPBの各々の押下回数に応じて特
定の文字を表現する手段を備えた音声入力装置から受信
した入力音声を認識する音声認識装置において使用され
る方法であって、 各PBの押下により生成されたPB信号を受信し、受信
したPB信号の種別と当該PB信号の断続回数とを認識
して前記音声入力装置で表現された文字を判別するとと
もに、判別した文字を前記PB信号の受信順に蓄積して
おき、前記受信した入力音声の認識対象となる単語候補
群を前記蓄積された文字の増加に伴って段階的に絞り込
むことを特徴とする音声認識方法。 - 【請求項3】 複数のPBの各々の押下回数に応じて特
定の文字を表現する手段を備えた音声入力装置から入力
音声と各PBの押下により生成されたPB信号を同一の
音声通信回線を通じて受信する受信手段と、 前記受信したPB信号の種別と当該PB信号の断続回数
とから前記音声入力装置において表現された文字を判別
する文字判別手段と、 予め用意された音声認識用の単語候補群から前記文字判
別手段により判別された文字をその先頭部分に含む単語
候補を特定する単語候補特定手段とを有し、前記特定さ
れた単語候補を用いて前記受信した入力音声の認識処理
を行うことを特徴とする音声認識装置。 - 【請求項4】 前記文字判別手段により判別された文字
を該当PB信号の受信順に蓄積する文字蓄積手段をさら
に備え、前記蓄積された文字の増加に伴って前記認識対
象となる単語候補群を段階的に絞り込むように構成され
た請求項3記載の音声認識装置。 - 【請求項5】 複数のPBの各々の押下回数に応じて特
定の文字をディスプレイ表示する手段と、各PBの押下
により生成されたPB信号を送信する手段とを備えた携
帯電話無線機からの着呼に応答する手段と、 前記呼が確立された携帯電話無線機に対してPBの押下
を指示する手段と、 前記指示に応じて前記携帯電話無線機より受信したPB
信号の種別と当該PB信号の断続回数とを認識して前記
ディスプレイ表示された文字を判別する文字判別手段
と、 予め用意された単語候補群から前記判別された文字を先
頭部分に含む単語候補を特定し、特定した単語候補を用
いて前記携帯電話無線機より受信した音声の認識処理を
行う音声認識手段と、 前記音声認識手段による認識結果を音声信号に変換して
前記携帯電話無線機に提示する手段とを有する携帯電話
無線機向け音声応答システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9167718A JPH1117813A (ja) | 1997-06-24 | 1997-06-24 | 音声認識方法及び装置、音声応答システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9167718A JPH1117813A (ja) | 1997-06-24 | 1997-06-24 | 音声認識方法及び装置、音声応答システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1117813A true JPH1117813A (ja) | 1999-01-22 |
Family
ID=15854911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9167718A Pending JPH1117813A (ja) | 1997-06-24 | 1997-06-24 | 音声認識方法及び装置、音声応答システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1117813A (ja) |
-
1997
- 1997-06-24 JP JP9167718A patent/JPH1117813A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5917889A (en) | Capture of alphabetic or alphanumeric character strings in an automated call processing environment | |
US6601029B1 (en) | Voice processing apparatus | |
US8229747B2 (en) | System and method for spelling recognition using speech and non-speech input | |
CN100403828C (zh) | 一种便携式数字移动通讯设备及其语音控制方法和系统 | |
US20120253823A1 (en) | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing | |
US6687673B2 (en) | Speech recognition system | |
CN107919138B (zh) | 一种语音中的情绪处理方法及移动终端 | |
US5752230A (en) | Method and apparatus for identifying names with a speech recognition program | |
JPH10503033A (ja) | 新ワードのモデル化に基づく音声認識方法及びその装置 | |
US20060020471A1 (en) | Method and apparatus for robustly locating user barge-ins in voice-activated command systems | |
US8374872B2 (en) | Dynamic update of grammar for interactive voice response | |
US20070047708A1 (en) | Voice call reply using voice recognition and text to speech | |
JP2002116793A (ja) | データ入力システム及びその方法 | |
WO2000010160A1 (fr) | Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations | |
EP1316944B1 (en) | Sound signal recognition system and method, and dialog control system and method using it | |
KR100467593B1 (ko) | 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체 | |
JPH08248987A (ja) | 音声認識方法 | |
JP3726783B2 (ja) | 音声認識装置 | |
WO2012174515A1 (en) | Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
JP2000165489A (ja) | 電話機 | |
JPH1117813A (ja) | 音声認識方法及び装置、音声応答システム | |
JP2003140690A (ja) | 情報システム、電子機器、プログラム | |
JP2003177788A (ja) | 音声対話システムおよびその方法 | |
US20040018856A1 (en) | Fast voice dialing apparatus and method | |
EP1895748B1 (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |