JP3112556B2

JP3112556B2 - 音声ダイヤラ

Info

Publication number: JP3112556B2
Application number: JP04100930A
Authority: JP
Inventors: 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1992-04-21
Filing date: 1992-04-21
Publication date: 2000-11-27
Anticipated expiration: 2015-11-27
Also published as: JPH05300213A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声認識機能および
音声分析/合成機能を利用した音声ダイヤラに関する。

【０００２】

【従来の技術】近年、音声認識機能を利用した音声ダイ
ヤラを備えた電話機が種々提案されている。上記音声ダ
イヤラは、予め電話番号に対応付けて登録する登録単語
を発声し、音声認識部によって入力音声の特徴パターン
を抽出して単語標準パターンとして電話番号に対応付け
てメモリに登録しておく。そして、発信時には、目的と
する電話番号に対応付けられている登録単語を発声し、
上記音声認識部での単語標準パターンとのマッチングに
よる認識結果に対応付けられた電話番号を電話回線に発
信するようにしている。

【０００３】ところで、上述のように任意の電話番号に
対応付けられてメモリに登録された登録単語の単語標準
パターンを消去したり修正したりする場合には、入力部
の所定キーを操作して選択した単語標準パターンが消去
あるいは修正したい単語標準パターンであるか否かを確
認する必要がある。そこで、上記選出された単語標準パ
ターンにリンクされたエコーバック音用パラメータを読
み出して、エコーバック音に再生して出力するようにし
ている。

【０００４】また、消去あるいは修正したい単語標準パ
ターンの他の選出方法として、目的とする単語標準パタ
ーンに係る登録単語を発声し、音声認識部によって入力
音声を認識することによって消去/修正の対象となる音
声標準パターンを指定する方法が提案されている(特開
平２−１９３１９５号公報)。

【０００５】

【発明が解決しようとする課題】しかしながら、上記従
来の単語標準パターンの消去/修正方法には、１台の音
声ダイヤラ付電話機を複数のユーザが用いる場合には以
下のような問題点が生ずる。すなわち、上述のエコーバ
ック音に従って所望の単語標準パターンを検索する消去
/修正方法においては、例えば単語標準パターンをユー
ザ番号に対応付けて上記メモリに登録することによって
単語標準パターンを各ユーザ毎に管理している場合に
は、ユーザ番号をキー入力等によって指定して予め検索
対象の単語標準パターンを絞ることが可能であるから検
索時間上さほど問題はない。ところが、ユーザ番号指定
操作を省くために複数ユーザの単語標準パターンを同じ
領域に混在させて登録しておく場合には、先頭の単語標
準パターンから順次エコーバック音によって検索しなけ
ればならないので検索に時間が掛かるという問題があ
る。

【０００６】また、所望の単語標準パターンに係る登録
単語を発声して音声認識部による認識処理によって所望
の単語標準パターンを検索する消去/修正方法において
は、ユーザが消去/修正したい単語標準パターンに係る
登録単語を忘れた場合には、当て推量によって発声を繰
り返して又は上述のようにエコーバック音によって検索
しなければならず、いずれにしても検索に時間が掛かる
という問題がある。

【０００７】そこで、この発明の目的は、ユーザ番号指
定の必要がなく、且つ登録単語を忘れても音声入力によ
って目的とする単語標準パターンを短時間に検索できる
音声ダイヤラを提供することにある。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明の音声ダイヤラは、マイクロホンに入力
された音声を認識して認識結果に対応した電話番号を表
す信号を出力する音声ダイヤラであって、電話番号に対
応付けて登録する登録単語の音声信号に基づく単語標準
パターンを格納する単語パターンメモリと、上記マイク
ロホンから入力された音声信号を分析して得られた特徴
パターンと上記単語パターンメモリに格納された各単語
標準パターンとのマッチング距離を算出して少なくとも
最小マッチング距離を呈する単語標準パターンを入力音
声の認識結果とする音声認識部と、上記電話番号に対応
付けて登録する登録単語の音声信号に基づく話者標準パ
ターンを上記単語標準パターンに関連付けて格納する話
者パターンメモリと、上記マイクロホンから入力された
音声信号を分析して得られた話者特徴パターンと上記話
者パターンメモリに格納された各話者標準パターンとの
マッチング距離を算出して少なくとも最小マッチング距
離を呈する話者標準パターンを入力音声の話者の認識結
果とする話者認識部と、上記音声認識部による認識結果
に係る最小マッチング距離が所定値より小さい場合には
その認識結果を入力音声の正しい認識結果であると確定
する一方、上記音声認識部による認識結果に係る最小マ
ッチング距離が上記所定値以上である場合には上記話者
認識部による認識結果に関連付けられた単語標準パター
ンを上記入力音声の正しい認識結果であると確定する認
識結果確定部と、上記認識結果確定部によって確定され
た単語標準パターンの登録単語を出力する認識結果出力
部を備えたことを特徴としている。

【０００９】また、第２の発明の音声ダイヤラは、第１
の発明の音声ダイヤラにおいて、上記音声認識部は上記
マッチング距離の小さい順に複数の単語標準パターンを
認識結果とし、上記話者認識部は上記マッチング距離の
小さい順に複数の話者標準パターンを認識結果とし、上
記認識結果出力部は上記認識結果確定部によって入力音
声の正しい認識結果であると確定された複数の単語標準
パターンの登録単語を認識候補として出力することを特
徴としている。

【００１０】

【作用】第１の発明では、マイクロホンに向かって電話
番号に対応付けられて登録されている登録単語等の単語
が発声されると、上記マイクロホンからの音声信号が単
語認識部および話者認識部に入力される。そして、上記
単語認識部によって、上記音声信号を分析して得られた
特徴パターンと単語パターンメモリに格納された各単語
標準パターンとのマッチング距離が算出され、少なくと
も最小マッチング距離を呈する単語標準パターンが認識
結果として出力される。一方、上記話者認識部によっ
て、上記音声信号を分析して得られた話者特徴パターン
と話者パターンメモリに格納された各話者標準パターン
とのマッチング距離が算出され、少なくとも最小マッチ
ング距離を呈する話者標準パターンが認識結果として出
力される。

【００１１】そうすると、認識結果確定部によって、上
記音声認識部による認識結果に係る最小マッチング距離
が所定値より小さい場合には、その認識結果が入力音声
の正しい認識結果であると確定される。一方、上記音声
認識部による認識結果に係る最小マッチング距離が上記
所定値以上である場合には、上記話者認識部による認識
結果に関連付けられた単語標準パターンが上記入力音声
の正しい認識結果であると確定される。そして、上記認
識結果確定部によって正しい認識結果が確定されると、
この確定された単語標準パターンの登録単語が認識結果
出力部によって出力される。

【００１２】したがって、目的とする登録単語を忘れた
ユーザが上記マイクロホンに向かって上記目的とする登
録単語の発音に近い発音の単語を発声した場合には、上
記話者認識部によって上記ユーザの発声による話者標準
パターンのうち上記発声単語に最も近い発音の登録単語
(すなわち、目的とする登録単語)の話者語標準パターン
が選出される。こうして、上記目的とする登録単語を忘
れた場合であっても、自動的に上記目的とする登録単語
の単語標準パターンの登録単語が上記認識結果出力部に
よって出力されるのである。

【００１３】また、第２の発明では、上記音声認識部に
よって上記マッチング距離の小さい順に複数の単語標準
パターンが認識結果として出力される。一方、上記話者
認識部によって上記マッチング距離の小さい順に複数の
単語標準パターンが認識結果として出力される。そうす
ると、上記認識結果確定部によって、上記音声認識部に
よる複数の認識結果および上記話者認識部による複数の
認識結果に基づいて、複数の単語標準パターンが上記入
力音声の正しい認識結果であると確定される。そして、
この確定された複数の単語標準パターンの登録単語が認
識候補として認識結果出力部によって出力される。

【００１４】したがって、目的とする登録単語を忘れた
ユーザが上記マイクロホンに向かって出たら目な単語を
発声した場合には、上記話者認識部によって上記ユーザ
の発声による上記目的とする登録単語を含む複数の話者
標準パターンが選出される。こうして、上記目的とする
登録単語を忘れた場合であっても、自動的に上記目的と
する登録単語を含む複数の認識候補が上記認識結果出力
部によって出力されるのである。

【００１５】

【実施例】以下、この発明を図示の実施例により詳細に
説明する。図１は、本実施例の音声ダイヤラのブロック
図である。この音声ダイヤラは、上記音声認識部として
の単語認識部１,単語パターンメモリ２,上記認識結果出
力部としての音声分析/合成部３,エコーバック音メモリ
４,話者認識部８,話者パターンメモリ９,回線接続部１
３および制御部７等から概略構成される。

【００１６】上記単語認識部１は、電話番号に対応付け
て登録する登録単語の音声がマイクロホン１１から入力
されると、この入力された音声信号を分析して単語単位
の特徴パラメータの時系列を得る。そして、この特徴パ
ラメータの時系列を単語標準パターンとして単語パター
ンメモリ２に記憶する。また、上記マイクロホン１１か
ら入力された音声信号を分析して得られた上記特徴パラ
メータ時系列から成る特徴パターンと、上述のようにし
て予め単語パターンメモリ２に格納されている複数の単
語標準パターンとのマッチングを行う。そして、最も近
いマッチング距離を有する単語標準パターンの番号ｋお
よび両パターン間の距離ＷＤ_kを制御部７に送出する。

【００１７】上記音声分析/合成部３は、マイクロホン
１１から入力された音声信号の波形を分析して圧縮し、
得られたパラメータをエコーバック音用パラメータとし
てエコーバック音メモリ４に格納する。また、上記音声
分析/合成部３は、エコーバック音メモリ４に格納され
たエコーバック音用パラメータあるいは合成用メモリ５
に格納された音声合成用パラメータを読み出して音声信
号を生成する。こうして生成された合成音声による音声
ガイダンスあるいはエコーバック音はレシーバ１２から
出力されるのである。

【００１８】上記話者認識部８は、上記登録単語の音声
が上記マイクロホン１１から入力されると、この入力さ
れた音声信号を分析して単語単位の特徴パラメータ(平
均ピッチ周波数,平均パワースペクトルの傾き等)の時系
列を得る。そして、この特徴パラメータ時系列を話者標
準パターンとして話者パターンメモリ９に記憶する。ま
た、上記マイクロホン１１から入力された音声信号を分
析して得られた上記特徴パラメータ時系列から成る話者
特徴パターンと、上述のようにして予め話者パターンメ
モリ９に格納されている複数の話者標準パターンとのマ
ッチングを行う。そして、最も近いマッチング距離を有
する話者標準パターンの番号ｋおよび両パターン間の距
離ＳＰ_kを制御部７に送出する。

【００１９】上記回線接続部１３は、送信時には、上記
制御部７より相手の電話番号を表す信号が入力されると
その電話番号を電話回線１４に送信する。こうして、相
手の電話機と電話回線が接続された後は、マイクロホン
１１から入力された音声信号を電話回線１４に送信する
のである。また、受信時には、上記電話回線１４から受
信した音声信号をレシーバ１２に送出する。

【００２０】上記制御部７は、上述の単語認識部１,音
声分析/合成部３,話者認識部８および回線接続部１３等
を制御して、音声入力によって指定された電話番号を電
話回線１４に発信したり、消去/修正の対象となる単語
標準パターンを検索したりする。また、キー入力部１０
からは、上記制御部７に対する指示等が入力される。

【００２１】上記構成の音声ダイヤラは次のように動作
する。本音声ダイヤラの動作モードには、予め上記単語
標準パターンや話者標準パターンを登録する登録モード
と入力された音声を認識する認識モードとの２つのモー
ドがある。この２つの動作モードおよび後に詳述する他
の動作モードの切り替え制御は、制御７によって行われ
る。以下、各動作モードについて詳細に説明する。

【００２２】＜登録モード＞この登録モードは、さらに
単語標準パターン登録モードおよび話者標準パターン登
録モードの２つの動作モードに分かれる。〔単語標準パターン登録モード〕ユーザは、合成用メモ
リ５に格納された音声合成用パラメータに基づいて音声
分析/合成部３によって生成された合成音声による音声
ガイダンスに従って、電話番号に対応付けて登録する登
録単語をマイクロホン１１に向かって発声する。そし
て、上記マイクロホン１１から出力された音声信号は単
語認識部１,音声分析/合成部３および話者認識部８に入
力され、話者認識部８に入力された音声信号はＡ/Ｄ変
換された後バッファに一旦格納される。

【００２３】そうすると、上記単語認識部１において
は、上述のようにして得られた単語標準パターンを単語
パターンメモリ２に登録する。同時に、上記音声分析/
合成部３においては、上述のようにして得られたエコー
バック音用パラメータをエコーバック音メモリ４に格納
する。その際に、上記制御部７は、上記単語パターンメ
モリ２に格納された単語標準パターンとエコーバック音
メモリ４に格納されたエコーバック音用パラメータとの
リンク情報を内部メモリ(図示せず)に格納する。また、
上記単語標準パターンとキー入力部１０からキー入力さ
れた電話番号とのリンク情報をも上記内部メモリに格納
する。

【００２４】こうして、上記単語標準パターンの登録が
終了すると、制御部７によって動作モードが上記話者標
準パターン登録モードに切り替えられる。

【００２５】〔話者標準パターン登録モード〕そうする
と、上記話者認識部８においては、上述のようにバッフ
ァに格納されている登録単語のディジタル音声信号に基
づいて上述のようにして得られた話者標準パターンを話
者パターンメモリ９に登録する。その際に、上記制御部
７は、上記話者パターンメモリ９に格納された話者標準
パターンと単語パターンメモリ２に格納された単語標準
パターンとのリンク情報を上記内部メモリに格納する。

【００２６】このようにして、上記単語標準パターンお
よび話者標準パターンの登録が終了すると、制御部７に
よって動作モードが上記認識モードに切り替えられる。＜認識モード＞この認識モードは、さらに単語認識モー
ドおよび話者認識モードの２つの動作モードに分かれ
る。

【００２７】〔単語認識モード〕ユーザは、上記マイク
ロホン１１に向かって、所望する電話番号に対応付けら
れている登録単語または消去/修正の対象となる登録単
語を発声する。そうすると、マイクロホン１１からの音
声信号は単語認識部１および話者認識部８に入力され、
話者認識部８に入力された音声信号はＡ/Ｄ変換された
後上記バッファに一旦格納される。そして、単語認識部
１においては上記マッチングを行い、最もマッチング距
離の近い単語標準パターンの番号ｋと両パターン間の距
離ＷＤ_kとを制御部７に送出する。

【００２８】こうして、上記登録単語に係る入力音声の
認識が終了すると、制御部７によって動作モードが上記
話者認識モードに切り替えられる。

【００２９】〔話者認識モード〕そうすると、上記話者
認識部８においては、上述のようにバッファに格納され
た所望する電話番号に対応付けられている登録単語ある
いは消去/修正の対象となる登録単語のディジタル音声
信号に基づいて上記マッチングを行い、最もマッチング
距離の近い話者標準パターンの番号ｋと両パターン間の
距離ＳＰ_kとを制御部７に送出する。

【００３０】以下、上記制御部７は、単語認識部１から
入力された上記番号ｋに基づく最もマッチング距離の近
い特徴パターンと単語標準パターンとの距離ＷＤ_kの値
(すなわち、距離ＷＤの最小値)がある閾値より大きい場
合には、現在入力された音声の認識に失敗したと判断す
る。そして、話者認識部８から入力された上記番号ｋに
基づく最も近いマッチング距離ＳＰ_kを呈する話者標準
パターンに対応付けられている単語標準パターンを、上
記内部メモリに格納されている上記リンク情報を参照し
て求め、この求められた単語標準パターンを上記マイク
ロホン１１から音声入力された登録単語の正しい認識結
果であると確定する。つまり、上記単語認識部１による
登録単語認識に失敗した場合には、話者認識部８によっ
て認識された話者の情報を用いて登録単語を確定するの
である。このように、本実施例においては、制御部７で
上記認識結果確定部を構成するのである。

【００３１】図２は、上記制御部７の制御の下に実施さ
れる上記単語認識部１と話者認識部８によるマッチング
処理動作および単語標準パターン確定処理動作のフロー
チャートである。以下、図２に従って上記マッチング処
理動作および単語標準パターン確定処理動作について詳
細に説明する。動作モードが上記単語認識モードに設定
されて、マッチング処理動作および単語標準パターン確
定処理動作がスタートする。ステップＳ1で、単語標準
パターン番号ｉ(最大値は“Ｉ")に初期値“１"がセット
され、変数ｋに初期値“１"がセットされる。また、変
数ｊには十分大きな定数がセットされる。

【００３２】ステップＳ2で、上記単語認識部１によっ
て、得られた入力音声の特徴パターンｘと“ｉ"番目の
単語標準パターンのマッチング距離ＷＤ(i,x)が算出さ
れる。ステップＳ3で、上記算出されたマッチング距離
ＷＤ(i,x)の値が変数ｊの値より小さいか否かが判別さ
れる。その結果小さい場合にはステップＳ4に進み、そ
うでなければステップＳ4をスキップする。ステップＳ4
で、上記変数ｊにマッチング距離ＷＤ(i,x)の値がセッ
トされる。また、変数ｋの値に単語標準パターン番号ｉ
の値がセットされる。

【００３３】ステップＳ5で、単語標準パターン番号ｉ
の内容が最大値“Ｉ"より小さいか否かが判別される。
その結果“Ｉ"より小さければステップＳ6に進み、そう
でなければステップＳ7に進む。ステップＳ6で、単語標
準パターン番号ｉの内容がインクリメントされてステッ
プＳ2にリターンし、次の単語標準パターンとのマッチ
ングが実施される。ステップＳ7で、変数ｊの内容(すな
わち、マッチング距離ＷＤ(i,x)の最小値：上記ＷＤ_kに
相当)が閾値“ＴＷＤ"より小さいか否かが判別される。
その結果“ＴＷＤ"より小さければステップＳ14に進
み、そうでなければステップＳ8に進む。

【００３４】こうして、上記単語認識部１による登録単
語認識に失敗すると、動作モードが上記話者認識モード
に切り替えられて次のステップに進む。ステップＳ8
で、話者標準パターン番号ｉに初期値“１"がセットさ
れ、変数ｋに初期値“１"がセットされる。また、変数
ｊには十分大きな定数がセットされる。ステップＳ9
で、上記話者認識部８によって、上記バッファに格納さ
れたディジタル音声信号に基づいて得られた入力音声の
話者特徴パターンｙと“ｉ"番目の話者標準パターンと
のマッチング距離ＳＰ(i,y)が算出される。ステップＳ1
0で、上記算出されたマッチング距離ＳＰ(i,y)の値が変
数ｊの値より小さいか否かが判別される。その結果小さ
い場合にはステップＳ11に進み、そうでなければステッ
プＳ11をスキップする。ステップＳ11で、上記変数ｊに
マッチング距離ＳＰ(i,y)の値がセットされ、変数ｋの
値に単語標準パターン番号ｉの値がセットされる。

【００３５】ステップＳ12で、話者標準パターン番号ｉ
の内容が最大値“Ｉ"より小さいか否かが判別される。
その結果“Ｉ"より小さければステップＳ13に進み、そ
うでなければステップＳ14に進む。ステップＳ13で、話
者標準パターン番号ｉの内容がインクリメントされてス
テップＳ9にリターンし、次の話者標準パターンとのマ
ッチングが実施される。

【００３６】ステップＳ14で、変数ｋの値(すなわち、
最小のマッチング距離ＳＰ(i,y)(上記ＳＰ_kに相当)を呈
する話者特徴パターンの番号)に対応付けられた単語標
準パターンが目的とする単語標準パターンであると確定
されて、上記マッチング処理動作および単語標準パター
ン確定処理動作を終了する。このようにして、所望する
電話番号に対応付けられている登録単語あるいは消去/
修正の対象となる登録単語の単語標準パターンが確定さ
れて選出されるのである。

【００３７】つまり、本実施例では、上記マイクロホン
１１から入力された音声信号に基づいて得られた特徴パ
ターンと単語パターンメモリ２に格納されているｉ番目
の単語標準パターンとの重み付け距離ＭＤをＭＤ＝Ａ×ＷＤ(i,x)＋Ｂ×ＳＰ(i,y) 但し、ＷＤ(i,x)の最小値＜ＴＷＤならば、Ａ＝１，Ｂ
＝０ＷＤ(i,x)の最小値≧ＴＷＤならば、Ａ＝０，Ｂ＝１とすると、この重み付け距離ＭＤの値を最小にするｉ番
目の単語標準パターンを選出するのである。

【００３８】以後は、上記マイクロホン１１から入力さ
れた音声が、発信時における上記所望する電話番号に対
応付けられた登録単語を表す音声である場合には、制御
部７は上記確定された単語標準パターンに関連付けられ
ている電話番号を上記内部メモリの内容を参照して得
る。そして、得られた電話番号を表す信号を上記回線接
続部１３に送出する。

【００３９】一方、登録単語更新時において入力された
消去/修正の対象となる登録単語を表す音声である場合
には、制御部７は上記内部メモリに格納されたリンク情
報を参照して音声分析/合成部３を制御し、上記確定さ
れた単語標準パターンにリンクされたエコーバック音用
パラメータを読み出して音声信号を生成する。こうし
て、上記確定された単語標準パターンのエコーバック音
をレシーバ１２から出力して、ユーザに対して上記確定
された単語標準パターンが目的とする登録単語の単語標
準パターンであるかの確認を促すのである。そして、ユ
ーザによって上記レシーバ１２からのエコーバック音が
目的とする単語標準パターンの発声であると確認され
て、上記キー入力部１０から消去/修正の指示がキー入
力されると、その指示に従って制御部７によって上記所
望する単語標準パターンが消去あるいは修正される。

【００４０】また、ユーザによって上記レシーバ１２か
らのエコーバック音が目的とする単語標準パターンの発
声でないと確認されて、上記キー入力部１０からキャン
セルの指示がキー入力された場合には、例えば次のよう
な処理を実施する。すなわち、上記キー入力部１０から
の指示に従って、制御部７によって上記確定された単語
標準パターンおよびこれに対応付けられている話者標準
パターンをマスクして図２に示すフローチャートを再ス
タートするのである。こうすることによって、話者認識
部８による第２位の認識結果に対応付けられた単語標準
パターンが目的とする登録単語の単語標準パターンとし
て確定される。以下、これを繰り返すことによって目的
とする単語標準パターンが検索できるのである。

【００４１】その際におけるエコーバック音による検索
は、話者認識部８による高順位の認識結果に対応付けら
れた単語標準パターンから優先的に検索されることにな
り、エコーバック音による検索範囲を自動的に発声ユー
ザの単語標準パターンに絞り込むのと同じことになる。
したがって、本実施例においては、ユーザ番号指定を実
施する必要がないのである。その結果、複数ユーザの単
語標準パターンを同じ領域に混在させて登録でき、単語
パターンメモリ２を有効に使用できる。

【００４２】次に、上述の動作を具体例を上げて説明す
る。当該音声ダイヤラ付きの電話機を主人,奥さん,子供
の３人で使用し、そのうち奥さんは主人の勤務先の電話
番号の登録単語“お父さん"を４番目の登録単語として
登録し、子供の学校の電話番号の登録単語“太郎"を５
番目の登録単語として登録している。また、主人と子供
は夫々３個の登録単語を登録しているものとする。ここ
で、奥さんは主人の勤務先の電話番号の登録単語を変更
する際に、登録単語が“お父さんの会社"であるか“会
社"であるか分からなくなった場合を例に上げる。

【００４３】(１) 奥さんが上記マイクロホン１１に向
かって「お父さんの会社」と発声した場合発声単語「お父さんの会社」の単語標準パターンｘは４番
目の登録単語“お父さん"の単語標準パターンに近いた
め、単語認識部１による各マッチング距離ＷＤと上記閾
値“ＴＷＤ"との大小関係は、ＴＷＤ＞ＷＤ(4,x)＜…＜ＷＤ(i,x)＜…＜ＷＤ(5,x)＜
… であるとする。そうすると、図２におけるステップＳ7,
Ｓ14で、目的とする登録単語は“お父さん"であると確
定される。そして、奥さんは、上記レシーバ１２から出
力される合成音声「お父さん」によって、変更したい登録
単語“お父さん"が検索されたと判断する。そして、キ
ー入力部１０から登録単語更新の指示を行う。

【００４４】(２) 奥さんが上記マイクロホン１１に向
かって「会社」と発声した場合発声単語「会社」の単語標準パターンｘは両登録単語“お
父さん",“太郎"の単語標準パターンからの距離が遠い
ために、単語認識部１による各マッチング距離ＷＤと上
記閾値“ＴＷＤ"との大小関係は、ＴＷＤ＜…＜ＷＤ(5,x)＜…＜ＷＤ(i,x)＜…＜ＷＤ(4,
x)＜… であるとする。そうすると、図２におけるステップＳ7
で、目的とする登録単語の単語標準パターンの検索に失
敗する。

【００４５】さらに、話者認識部８による各マッチング
距離ＳＰの大小関係は、ＳＰ(5,x)＜ＳＰ(4,x)＜…＜ＳＰ(i,x)＜… であるとする。そうすると、図２におけるステップＳ14
で、目的とする登録単語は“太郎"であると確定され
る。そして、奥さんは、上記レシーバ１２から出力され
る合成音声「太郎」によって、変更したい登録単語“お
父さん"はまだ検索されていないと判断する。そこで、
キー入力部１０から登録単語検索の続行を指示する。

【００４６】そうすると、５番目の登録単語“太郎"に
係る話者標準パターンをマスクして図２のルーチンが再
度実施される。その際における話者認識部８による各マ
ッチング距離ＳＰの大小関係は、ＳＰ(4,x)＜…＜ＳＰ(i,x)＜… となるから、図２におけるステップＳ14で、目的とする
登録単語は“お父さん"であると確定される。そして、
奥さんは、上記レシーバ１２から出力される合成音声
「お父さん」によって、変更したい登録単語“お父さん"
が検索されたと判断する。そして、キー入力部１０から
登録単語更新の指示を行う。

【００４７】このように、本具体例によれば、エコーバ
ック音による２回の検索動作で変更したい登録単語“お
父さん"が検索される。ところが、従来のユーザ番号指
定によらないエコーバック音による検索の場合には、登
録単語“お父さん"は４番目の登録単語であるから、４
回の検索動作で検索されるのである。

【００４８】(３) 奥さんが主人の会社の電話番号の登
録単語を完全に忘れたために、上記マイクロホン１１に
向かって「何を入れたのか忘れたので教えて下さい」と発
声した場合この場合、発声単語「何を入れたのか忘れたので教えて
下さい」の話者標準パターンｙは両登録単語“お父さ
ん",“太郎"の話者標準パターンから極端に遠い距離に
はあるが、話者としては奥さんが一番近いので、話者認
識部８による各マッチング距離ＳＰの大小関係は(２)の
場合と同様に奥さんの話者標準パターンとの距離が最も
小さくなる。

【００４９】したがって、(３)の場合にも(２)の場合と
同じ経過をたどって変更したい登録単語“お父さん"が
検索されるのである。すなわち、最大２回のエコーバッ
ク音による検索動作で目的とする登録単語“お父さん"
が検索できる。このように、本実施例によれば、完全に
登録単語を忘れても少ない検索回数で短時間に目的とす
る登録単語を検索できるのである。

【００５０】このように、本実施例における音声ダイヤ
ラは、単語認識モード時には、単語をマイクロホン１１
に向かって発声すると、単語認識部１は、入力された音
声信号に基づく特徴パターンｘと単語パターンメモリ２
に格納された単語標準パターンとのマッチングを実施
し、最小マッチング距離ＷＤ(k,x)を呈する単語標準パ
ターンの番号ｋとそのマッチング距離ＷＤ(k,x)を制御
部７に送出する。また、話者認識モード時には、話者認
識部８は、上記単語認識モード時にマイクロホン１１に
入力された上記単語の音声信号に基づく話者特徴パター
ンｙと話者パターンメモリ９に格納された話者標準パタ
ーンとのマッチングを実施し、最小マッチング距離ＳＰ
(ｋ,y)を呈する話者標準パターンの番号ｋとそのマッチ
ング距離ＳＰ(k,x)を制御部７に送出する。

【００５１】そして、上記制御部７は、マッチング距離
ＷＤ(k,x)の値が所定値“ＴＷＤ"より小さい場合には、
単語認識部１から入力された番号ｋの単語標準パターン
を入力音声の正しい認識結果であると確定する。一方、
マッチング距離ＷＤ(k,x)の値が上記所定値“ＴＷＤ"以
上である場合には、話者認識部８から入力された番号ｋ
の話者標準パターンに関連付けられた単語標準パターン
を入力音声の正しい認識結果であると確定する。

【００５２】こうすることによって、当該音声ダイヤラ
が設けられた電話機を複数のユーザが使用する場合であ
っても、音声認識部１によって目的とする登録単語の単
語標準パターンを検索できない場合には、自動的にエコ
ーバック音による検索範囲を発声ユーザの単語標準パタ
ーンに絞り込むことができる。したがって、ユーザ番号
指定によらなくとも、自動的に発声ユーザの単語標準パ
ターンの中から短時間に目的とする登録単語の単語標準
パターンを検索することができるのである。

【００５３】また、上述のように、エコーバック音によ
る検索範囲を自動的に発声ユーザの単語標準パターンに
絞り込むことができるので、目的とする登録単語を忘れ
た場合であっても、マイクロホン１１に向かって何らか
の発声を行えば発声ユーザの登録単語のエコーバック音
を得ることができる。したがって、登録単語を忘れても
短時間に目的とする登録単語を検索できるのである。

【００５４】上記実施例においては、図２のフローチャ
ートに基づく一回の単語標準パターン検索において、最
もマッチング距離の小さい単語標準パターンのみを出力
するようにしている。しかしながら、この発明はこれに
限定されるものではなく、マッチング距離の小さい順に
複数の単語標準パターンを正しい認識結果であるとして
確定して、複数の認識候補を出力するようにしてもよ
い。

【００５５】また、上記実施例においては、上述のよう
にして検索された単語標準パターンを音声分析/合成部
３で生成された合成音によるエコーバック音によって確
認するようにしている。しかしながら、この発明はこれ
に限定されるものではなく、検索された単語標準パター
ンの登録単語を表示ディスプレイに表示するようにして
もよい。特に、目的とする登録単語を全く忘れてしまっ
た場合には、上記マッチング距離ＳＰ(i,x)の小さい発
声ユーザの話者標準パターンに係る複数の登録単語を認
識候補として一度に画面表示することによって、より迅
速に目的とする登録単語を検索できる。

【００５６】また、この発明における単語標準パターン
検索のアルゴリズムは図２のフローチャートに限定され
るものではない。

【００５７】

【発明の効果】以上より明らかなように、第１の発明の
音声ダイヤラは、認識結果確定部によって、上記音声認
識部による認識結果に係る最小マッチング距離が所定値
以上である場合には上記話者認識部による認識結果に関
連付けられた単語標準パターンを入力音声の正しい認識
結果であると確定し、確定した単語標準パターンの登録
単語を認識結果出力部によって出力するので、上記音声
認識部による単語標準パターンの検索に失敗した場合に
は自動的に検索範囲を発声ユーザの単語標準パターンに
絞り込むことができる。したがって、この発明の音声ダ
イヤラによれば、ユーザ番号指定によらなくとも自動的
に検索範囲を発声ユーザの単語標準パターンに限定して
目的とする単語標準パターンを短時間に検索できる。

【００５８】さらに、上述のように、上記音声認識部に
よる単語標準パターンの検索に失敗した場合には自動的
に検索範囲を発声ユーザの単語標準パターンに絞り込む
ことができるので、目的とする登録単語を忘れた場合で
も、発音の似た単語を発声することによって目的とする
登録単語の単語標準パターンを短時間に検索できる。

【００５９】また、第２の発明の音声ダイヤラは、上記
認識結果確定部は、上記音声認識部からの複数の単語標
準パターンによる認識結果と上記話者認識部からの複数
の話者標準パターンによる認識結果に基づいて入力音声
の正しい認識結果を確定し、上記認識結果出力部は上記
確定された複数の単語標準パターンの登録単語を認識候
補として出力するので、第１の発明の効果に加えて、目
的とする登録単語を全く忘れた場合でも、何らかの単語
を発声すれば発声ユーザの単語標準パターンによる認識
候補が上記認識出力部によって出力される。したがっ
て、この発明によれば、登録単語を完全に忘れてしまっ
た場合であっても目的とする登録単語の単語標準パター
ンを短時間に検索できる。

【図面の簡単な説明】

【図１】この発明の音声ダイヤラにおける一実施例を示
すブロック図である。

【図２】図１における制御部の制御の下に実施されるマ
ッチング処理動作および単語標準パターン確定処理動作
のフローチャートである。

【符号の説明】１…単語認識部、２…単語パター
ンメモリ、３…音声分析/合成部、４…
エコーバック音メモリ、７…制御部、
８…話者認識部、９…話者パターンメモリ、
１０…キー入力部、１３…回線接続部、
１４…電話回線。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＨ０４Ｍ 1/27 Ｇ１０Ｌ 3/00 ５４５Ｃ５６１Ａ５５１Ａ (56)参考文献特開平３−157696（ＪＰ，Ａ) 特開昭60−45298（ＪＰ，Ａ) 特開昭59−17598（ＪＰ，Ａ) 特開昭63−32596（ＪＰ，Ａ) 特開平３−173248（ＪＰ，Ａ) 特開平２−193195（ＪＰ，Ａ) 特開昭61−248100（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 H04M 1/26 - 1/57

Claims

(57)【特許請求の範囲】

【請求項１】マイクロホンに入力された音声を認識し
て認識結果に対応した電話番号を表す信号を出力する音
声ダイヤラであって、電話番号に対応付けて登録する登録単語の音声信号に基
づく単語標準パターンを格納する単語パターンメモリ
と、上記マイクロホンから入力された音声信号を分析して得
られた特徴パターンと上記単語パターンメモリに格納さ
れた各単語標準パターンとのマッチング距離を算出し、
少なくとも最小マッチング距離を呈する単語標準パター
ンを入力音声の認識結果とする音声認識部と、上記電話番号に対応付けて登録する登録単語の音声信号
に基づく話者標準パターンを、上記単語標準パターンに
関連付けて格納する話者パターンメモリと、上記マイクロホンから入力された音声信号を分析して得
られた話者特徴パターンと上記話者パターンメモリに格
納された各話者標準パターンとのマッチング距離を算出
し、少なくとも最小マッチング距離を呈する話者標準パ
ターンを入力音声の話者の認識結果とする話者認識部
と、上記音声認識部による認識結果に係る最小マッチング距
離が所定値より小さい場合には、その認識結果を入力音
声の正しい認識結果であると確定する一方、上記音声認
識部による認識結果に係る最小マッチング距離が上記所
定値以上である場合には、上記話者認識部による認識結
果に関連付けられた単語標準パターンを上記入力音声の
正しい認識結果であると確定する認識結果確定部と、上記認識結果確定部によって確定された単語標準パター
ンの登録単語を出力する認識結果出力部を備えたことを
特徴とする音声ダイヤラ。
【請求項２】請求項１に記載の音声ダイヤラにおい
て、上記音声認識部は、上記マッチング距離の小さい順に複
数の単語標準パターンを認識結果とし、上記話者認識部は、上記マッチング距離の小さい順に複
数の話者標準パターンを認識結果とし、上記認識結果出力部は、上記認識結果確定部によって入
力音声の正しい認識結果であると確定された複数の単語
標準パターンの登録単語を認識候補として出力すること
を特徴とする音声ダイヤラ。