JP2009104156A

JP2009104156A - 電話通信端末

Info

Publication number: JP2009104156A
Application number: JP2008318704A
Authority: JP
Inventors: Seiichi Kashiwabara; 誠一柏原; Hideyuki Yamagishi; 秀之山岸; Tadashi Oishi; 匡大石; Katsumasa Nagahama; 克昌長濱
Original assignee: Asahi Kasei Homes Corp
Current assignee: Asahi Kasei Homes Corp
Priority date: 2001-12-17
Filing date: 2008-12-15
Publication date: 2009-05-14
Anticipated expiration: 2022-12-17
Also published as: AU2002354201A1; JP4558074B2; JPWO2003052737A1; CN1271595C; TW200301460A; WO2003052737A1; US20050043948A1; CN1615508A; JP4263614B2

Abstract

【課題】生活雑音による誤認識の発生を抑制防止する等、常時音声認識を行う機器に好適な音声認識方法を用いた電話通信端末を提供すること。
【解決手段】音声を音響パラメータ系列に変換し、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデル２２の尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する仮想的なモデル２３の尤度とを算出し、それらの尤度に基づいて音声認識を行うようにした。
【選択図】図７

Description

本発明は、一般の生活環境で使用される機器を音声で制御するための音声認識方法を用いた電話通信端末に関する。

従来のリモートコントロール装置にあっては、１つの機器に対して、１つのリモートコントロール装置が必要とされ、１つのリモートコントロール装置で複数の機器を遠隔制御することは、一般には不可能であった。例えば、テレビ用のリモートコントロール装置を用いてエアコンを遠隔制御することはできない。また、リモートコントロール装置には、制御したい操作内容に応じて、多数のスイッチが設けられており、このスイッチの押下状態に従って、対象機器への制御信号が選択され、対象機器へ送信される。ビデオテープレコーダの場合、受信したいテレビ局の選択ボタン、番組予約のための時間指定のボタン、テープの走行状態を設定するボタン等、必要とされる数多くの操作ボタンがあり、その操作性が煩雑であるという問題点があった。また、対象機器ごとにリモートコントロール装置が必要となるため、利用者はどのリモートコントロール装置がどの対象機器に対応するのかを常に正確に把握しておく必要があり、操作に手間がかかるという問題があった。

上述のような多数のボタンスイッチを排除するとともに、単一のリモートコントロール装置で複数の対象機器を操作制御することを目的としたリモートコントロール装置が、例えば、特許文献１に開示されている。この先行技術においては、音声入力により遠隔制御内容を指示し、この音声認識結果に従って制御信号が発生する。この先行技術の音声認識リモートコントロール装置においては、複数の操作対象機器に対応するために音声認識結果を機器制御コードに変換する書き換え可能なマップが用意されており、このマップの内容が操作対象となる操作機器に応じて書き換えられている。このマップの書き換え作業は、対象機器ごとに変換コードのマップが記憶されているＩＣカードを差し替える作業が必要であり、対象機器が変更される場合においては、対応するＩＣカードを探さなければならないという問題点があった。

特許文献２に記載される音声認識リモートコントロール装置では、機器−単語対応表と制御信号−機器状態対応表を用い、さらに機器状態用メモリに機器の運転状況に応じて発生する禁止すべき操作内容に対し、禁止フラグを記憶することにより、機器制御コードのマップ書き換え作業を不要にした技術が開示されている。
ところが、音声認識技術を用いた単一のリモートコントロール装置で複数の機器を制御する場合、認識させたい単語数が増大するため、入力した音声内容が、必ずしも正確に認識処理されず、指示内容とは異なる内容として認識され、誤動作の原因となり、使いやすさを求めるリモートコントロール装置としての特徴が半減していた。特に、テレビやオーディオといった音響機器を制御する場合、対象機器から発生する音により、音声認識処理が勝手に作動し、使用者が何ら発話していないにもかかわらずに機器操作が行われてしまったり、あるいは、所望とする制御内容を発話しても、音響機器から発生する音により、正しく認識されず、何度も言い直しをしなければならないという問題があった。

上記のような音響機器を制御する場合の音声認識リモートコントロール装置において、特許文献３には、使用者による音声発話を検出したときにテレビ受像機等の放声手段にミューティングをかけることにより、音声認識回路の認識率の向上を図る手段が開示されている。また、特許文献４には、音声入力装置から入力される音声コマンドとオーディオ信号と他のバックグランドノイズからなる信号をスピーカとマイクロフォンとの間の空間内の伝送路をモデル化することにより、オーディオ機器によって送出されたオーディオ信号が音声入力装置の位置で評価され、マイクロフォン信号を補正するため使用されるサウンド補償器を設けることによって、音声認識処理の誤差に対するイミュニティが改良することによって、音声コマンドの検出を改良した技術が開示されている。この場合には、音声認識リモートコントロール装置を使用するに当たり、事前に対象機器に対し、ミューティングを指示するための特別な回路の設置や、マイクロフォンの位置と感度の調整といった専門的な知識が必要であり、汎用的な装置としては、問題点があった。

さらに、上述の従来技術による音声認識リモートコントロール装置では、制御したい対象機器が増加するに伴って、認識させたい単語以外の未知語、不要語やシステムの想定外の発話等による誤認識による誤動作が避けられない。
特開平２−１７１０９８号公報特開平５−７３８５号公報特開昭５７−２０８５９６号公報特開平１０−２８２９９３号公報

したがって、より使い勝手のよい音声認識型のリモートコントロール装置を実現するには、認識結果の不正解やシステムの想定外の発話であることを判定する棄却（リジェクション）の機能が要求される。特に、常時音声認識処理を行っている状況下では、使用環境下における生活雑音、例えば仲間同士での会話、リモートコントロール装置のそばを人が歩く音、ペット等の鳴き声、台所での炊事作業による雑音等を除去できる音声認識技術に至っておらず、結果として、誤認識が多頻度で発生してしまうという問題が依然として残っていた。また、この誤認識を少なくするために、登録された単語とのマッチング判定の許容範囲を厳しくすると、誤認識は減少するが、目的とする単語が発話された場合にもリジェクションされる頻度が高くなり、何度も言い直しが必要となり、利用者に不快感を与える可能性がある。

なお、このような課題は、リモートコントロール装置に限ったものではなく、音声認識を行う機器であれば、電話通信端末等、その他の機器でも同様に存在するものである。
本発明は、上記従来の技術の未解決の課題に着目してなされたものであって、生活雑音による誤認識の発生を抑制防止する等、常時音声認識を行う機器に好適な音声認識方法を用いた電話通信端末を提供することを目的とする。

上記技術的課題を解決するために、本発明の各態様は、以下のような構成からなる。
本発明の第１の態様は、
音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムにより照合することにより音声認識を行う音声認識方法において、前記登録語についての音声単位ラベル系列と並列に登録語以外の不要語を認識するための音声単位ラベル系列を設け、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識させることを特徴とする。換言すれば、音声を音響パラメータ系列に変換し、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する登録語認識用音響モデルの尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する不要語認識用音響モデルの尤度とを算出し、それらの尤度に基づいて音声認識を行うことを特徴とするものである。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出されると共に、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、前記登録語以外の音声が登録語として誤認識されることを防止できる。

また、本発明の第２の態様は、
前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、使用するすべての音声単位モデルを平準化した仮想的な音声単位モデルからなるものとしてもよい。換言すれば、前記不要語認識用音響モデルを、全ての音声単位モデルを平準化した仮想的な音声単位モデルに集約してもよい。

このような構成にすれば、登録語を含む音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度が、全ての音声単位モデルを平準化した仮想的な音声単位モデルの尤度よりも大きく算出され、それらの尤度に基づいて前記音声に含まれる登録語を認識できる。また、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、全ての音声単位モデルを平準化した仮想的な音声単位モデルの尤度が、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度よりも大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止できる。

さらに、本発明の第３の態様は、
また、前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、母音だけの音素で構成される自己ループ型のネットワーク構成であるものでもよい。換言すれば、前記不要語認識用音響モデルが、母音の音素に対応する音素モデルの集合体からなり、その集合体の終点から始点への自己ループを持つことを特徴とするものであって、音響パラメータ系列に対し、母音の音素に対応する音素モデル群の尤度を音響パラメータ毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものでもよい。

このように構成にすれば、登録語を含む音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に含まれる子音の音素の存在によって、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度が、母音だけの音素で構成される自己ループ型のネットワーク構成の尤度よりも大きく算出され、それらの尤度に基づいて前記音声に含まれる登録語を認識できる。また、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に含まれる母音の音素であって、登録語には含まれていないものの存在によって、その音響パラメータに対し、母音だけの音素で構成される自己ループ型のネットワーク構成の尤度が、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度よりも大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止できる。

また、本発明の第４の態様は、
複数の操作対象を音声で遠隔操作できるリモートコントロール装置において、遠隔操作を指示する認識対象語を記憶する記憶手段と、利用者から発せられた音声を入力する手段と、利用者から発せられた音声に含まれる前記認識対象語を前記記憶手段に基づいて認識する音声認識手段と、その音声認識手段にて認識された認識対象語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識方法が第１の態様から第３の態様のいずれか１つに記載の音声認識方法を用いたことを特徴とする。換言すれば、利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、第１の態様から第３の態様のいずれか１つに記載の音声認識方法を用いて認識することを特徴とするものである。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、リモートコントロール装置の誤動作を防止することができる。

さらに、本発明の第５の態様は、
また、利用者に通話させるための音声入力部を有し、且つ、前記音声認識手段で認識された認識対象語に基づいて通信回線への接続状態を制御する通信ユニットを備え、前記音声入力手段と前記通信ユニットの音声入力部とを個別に設けてもよい。
このような構成とすれば、利用者が通話中であって、その通話のために通信ユニットの音声入力部が専有されている場合であっても、利用者の音声を音声認識手段に入力でき、通信ユニットを制御することができる。

また、本発明の第６の態様は、
また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも１つを実行する制御手段を備えたものとしてもよい。
このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。

さらに、本発明の第７の態様は、
利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも１つを実行する制御手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、第１の態様から第３の態様のいずれか１つに記載の音声認識方法を用いて認識するものとしてもよい。なお、音声によるメールの送受信処理としては、例えば、利用者にメール内容を音声入力させ、その音声を音声データに変換し、その音声データを電子メールに添付して送信し、且つ、音声データが添付された電子メールを受信し、その音声データを再生する処理が挙げられる。また、音声による予定管理処理としては、例えば、利用者に予定の内容を音声入力させ、その音声を音声データに変換すると共に、その予定の実行日を入力させ、その実行日に音声データを対応づけて予定を管理する処理が挙げられる。また、音声によるメモ処理としては、利用者にメモ内容を音声入力させ、その音声を音声データに変換し、利用者の要求に応じて音声データを再生する処理が挙げられる。また、音声による報知処理としては、例えば、利用者に報知内容を入力させて、その音声を音声データに変換すると共に、報知タイミングを入力させ、その報知タイミングで音声データを再生する処理が挙げられる。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。

また、本発明の第８の態様は、
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末において、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記音声入出力手段は、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有していることを特徴とする。換言すれば、利用者に電話操作に関する登録語を音声で入力させる音声入力部を有し、その音声入力部で入力させた登録語を認識する音声認識ユニットと、利用者に通話させるための音声入力部を有し且つ前記音声認識ユニットで認識された登録語に基づいて通信回線への接続状態を制御する通信ユニットとを備え、前記音声認識ユニットの音声入力部と前記通信ユニットの音声入力部とを個別に設けたことを特徴とするものである。
このような構成としたため、利用者が通話中であって、その通話のために通信ユニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ユニットに入力でき、通信ユニットを制御することができる。

さらに、本発明の第９の態様は、
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末であって、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記記憶手段は、予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リストとを別々に備え、発信・切断・着信に関するすべての電話操作が前記音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを特徴とする。換言すれば、前記記憶手段は、特定の名称が登録されている名称語彙リストと、任意の電話番号が登録されている番号語彙リストと、通話時の電話操作関連語が登録されている通話操作語彙リストと、着信時の電話操作関連語が登録されている着信操作語彙リストとを個別に記憶し、前記音声認識手段は、当該音声認識手段による認識結果又は通信回線の状態に応じて前記記憶手段に記憶されている語彙リストを選出し、その語彙リストを参照して、前記音声入出力手段で入力された音声に含まれる言葉を認識することを特徴とするものである。
このような構成としたため、状況に応じて語彙リストを適切なものに変更することで、生活雑音等の不要な音声による誤認識の発生を抑制防止できる。

また、本発明の第１０の態様は、
また、電話番号の認識方法が、全桁数の連続発話の入力によって前記記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットワークを用いて所定の桁数の数字又は記号からなる数字列パターンを認識するようにしてもよい。換言すれば、前記記憶手段は、電話番号の全桁に相当する数字列が登録されている連続番号語彙リストを記憶し、前記音声認識手段は、入力音声に含まれる電話番号を認識するときには、前記記憶手段に記憶されている連続番号語彙リストを参照するようにしてもよい。
このような構成にすれば、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。

さらに、本発明の第１１の態様は、
また、前記画面表示手段は、発話タイミングを知らせる発話タイミング表示機能を有しているものであってもよい。換言すれば、前記音声認識手段が登録語を認識可能な状態にあることを報知するようにしてもよい。
このような構成にすれば、画面表示手段で知らされた発話タイミングで発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を適切に認識させることができる。

また、本発明の第１２の態様は、
前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも１つを実行する第２制御手段を備えたものとしてもよい。
このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。

さらに、本発明の第１３の態様は、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルとしてもよい。

また、本発明の第１４の態様は、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、母音の音素だけに対応する音素モデルの集合体であって、その集合体の終点から始点への自己ループを有する音響モデルとしてもよい。

さらに、本発明の第１５の態様は、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルと、母音の音素だけで構成される自己ループ型のネットワーク構成の音響モデルとを並列に設けて構成してもよい。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、電話通信端末の誤動作を防止することができる。

また、本発明の第１６の態様は、
利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声検出手段が登録語を認識可能な状態にあることを報知する発話タイミング報知手段とを備えたことを特徴するものである。
このような構成としたため、登録語を認識可能な状態にあることが報知されたときに発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認識させることができる。
さらに、本発明の第１７の態様は、
前記音声検出手段で検出された音声の大きさを報知する音量報知手段を備えるものでもよい。
このような構成にすれば、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。

以下、本発明の実施形態を図面に基づいて説明する。図１は、本発明の第１実施形態である音声認識リモートコントロール装置の主要ブロック図である。この図に示すリモートコントロール装置は、利用者の音声を認識判断するリモートコントロール本体、つまりリモコン装置本体部１と、その認識結果に基づいて、制御信号を赤外線信号として発信する赤外線発光部２とから構成される。利用者の音声は、リモコン装置本体部１の音声入力装置（マイクロフォン３）から入力され、増幅器４を経由し、Ａ／Ｄ変換器５によって、デジタル化された音響パラメータ（例えば、スペクトラム等）に変換される。ここで、入力されたアナログ音声は、特に限定されるものではないが、通常、８ＫＨｚ〜１６ＫＨｚの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメータは、音声指示認識回路６内部で、音声指示情報メモリ７内に記憶登録されている登録語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメータとの尤度計算を行うことにより、登録語彙リストの中から、最も近い単語を抽出する。言いかえると、音声指示認識回路６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ７内に記憶登録されている登録語彙リスト内の単語（以下、登録語とも呼ぶ。）の尤度が、それらの構成単位（以下、音声単位と呼ぶ。）毎に計算され、当該尤度の積算値が最も大きいものが利用者の音声に最も近い登録語として抽出される。なお、音声指示認識回路６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ７内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジタル化された音響パラメータから登録語が抽出されなかったものとする。

ここで、音声単位としては、音節、音素、半音節、Ｄｉｐｈｏｎｅ（音素の２つ組）、Ｔｒｉｐｈｏｎｅ（音素の３つ組）等を適宜使用すればよいが、以下では説明の都合上、音声単位として音素を用いた場合について説明する。
また、音声指示情報メモリ７内には、各登録語に対応する制御コードが記憶されており、音声指示認識回路６で抽出された、つまり音声認識された登録語に対応する制御コードを当該音声指示情報メモリ７から呼び出し、中央制御回路８を経由して、赤外線発光部２のＩＲＥＤ駆動・制御回路９へ制御コードが伝達される。そして、ＩＲＥＤ駆動・制御回路９で、当該制御コードに対応するＩＲＥＤコードをＩＲＥＤコード情報メモリ１０から呼び出し、ＩＲＥＤ１１から赤外線信号として発信される。

この際、同時に利用者へ音声認識結果を知らせる手段として、認識結果をＬＣＤ表示装置１２に表示させて視覚的に報知したり、又は認識結果を応答音声制御回路１３へ伝達し、当該認識結果に対応する応答音声データを応答音声用情報メモリ１４から呼び出し、その音声データを、Ｄ／Ａ変換器１５及び増幅器１６を経由して、アナログ音声として、拡声器（スピーカ１７）から利用者へ聴覚的に報知したりする。

一方、赤外線発光部２には、フォトセンサ１８が具備されており、ＩＲＥＤコード情報メモリ１０に登録されていない赤外線コードの使用が必要になった場合には、フォトセンサ１８に対し、使用したい赤外線コードを発信することによって、その赤外線コードを、フォトセンサインタフェース回路１９を介して、ＩＲＥＤコード情報メモリ１０に追記することが可能である。
なお、使用するハードウエアとしては、図１記載の基本機能を有していれば、特に限定されるものではなく、以下ではリモコン装置本体部１として、図２に示すように、市販のパソコンを用いた場合について説明する。

図３に、図２の音声認識リモートコントロール装置で実行される処理であって、利用者の音声に応じて赤外線コードを送信等する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理は、利用者が本リモートコントロール装置を始動させたときに実行される処理であって、まず、そのステップＳ１では、マイクロフォン３で検出された音声を読み込み、その音声に含まれる登録語である開始パスワードが含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。つまり、開始パスワードを音声入力することにより、操作したい人が音声リモートコントロール装置に向かったことを合図する。なお、開始パスワードとしては、事前に利用者が好きな言葉や利用者自身の音声等、任意のものを設定することができるが、常時音声認識が作動していても、マイクロフォン３から読み込まれる生活雑音等によって、本装置が誤動作しないための工夫が必要であり、普段あまり使わない言葉等を用いるとよい。好ましくは、３音節以上、２０音節以下であり、さらに好ましくは５音節以上１５音節以下で構成される単語を用いることが好適である。例えば「開けゴマ」等の言葉を用いることができる。

次にステップＳ２に移行して、前記ステップＳ１で開始パスワードが音声に含まれていることが認識されたか否かを判定し、開始パスワードが含まれている場合には（ＹＥＳ）ステップＳ３に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ１に移行する。そのため、マイクロフォン３から開始パスワード以外、つまり開始パスワードを含まない雑音や音声だけが入力されると、不要語として認識され、利用者が側にいないと判断して、正しい開始パスワードが入力されるまで音声入力待ちの状態となる。

前記ステップＳ３では、マイクロフォン３で検出された音声を読み込み、その音声に含まれる登録語である制御対象機器の名称が含まれているか、または制御対象機器の名称以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。ここで、制御対象機器としては、「テレビ」、「ビデオ」、「エアコン」、「オーディオ」、「照明」、「カーテン」、「電話」、「タイマー」、「電子メール」及び「ボイスメモ」等、機器や機能を選択するための言葉（登録語）が用意されており、登録語以外、つまり登録語を含まない言葉や雑音だけが入力されると、不要語として認識され、新たに制御対象機器の名称が入力されるまで待機状態となる。

次にステップＳ４に移行して、前記ステップＳ３で制御できる対象機器の名称が音声に含まれていることが認識されたか否かを判定し、制御できる対象機器の名称が含まれている場合には（ＹＥＳ）ステップＳ６に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ３に移行する。そのため、一旦、マイクロフォン３で検出された音声に開始パスワードが含まれていることが認識されると、利用者が制御したい対象機器を選択するモードとなり、遠隔操作したい制御対象機器の名称等が入力されるまで音声入力待ちの状態となる。なお、所定時間経過しても、認識対象となる登録語が発話入力されない場合には、開始パスワードを認識するモード（ステップＳ１及びＳ２）まで戻り（図３に図示せず。）、開始パスワードが入力されるまで音声入力待ちの状態、つまり待機状態となる。

前記ステップＳ６では、マイクロフォン３で検出された音声を読み込み、その音声に制御対象機器に対する指示内容、つまり登録語が含まれているか、または制御対象機器に対する指示内容以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。すなわち、利用者によって制御対象機器が選択されると、その制御対象機器に対して制御できる指示内容を受け付けるモードとなる。例えば、制御対象機器として「テレビ」が選択されると、図４に示すように、テレビの操作に関する映像がＬＣＤ表示装置１２に表示されて、電源のオン・オフ、チャンネル番号の指定、放送局の指定及び音量の調節等を指示できるモードとなる。

次にステップＳ７に移行して、前記ステップＳ６で対象機器に対する指示内容が音声に含まれていることが認識されたか否かを判定し、対象機器に対する指示内容が含まれている場合には（ＹＥＳ）ステップＳ８に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ６に移行する。つまり、制御可能な指示内容が入力されるまで待機状態となる。
次にステップＳ８に移行して、前記ステップＳ６で認識された指示内容に対応する赤外線コードを赤外線発光部２に送信させる。つまり、指示内容が音声入力されると、その指示内容の認識結果に基づいて、対応する赤外線コードを呼び出し、赤外線発光部２から対象機器へ赤外線コードを送信することになる。このモードでは、制御できる指示内容以外の命令や雑音が入力されると、不要語として認識する。

前記ステップＳ９では、前記ステップＳ６で認識された指示内容が終了を意味する言葉（例えば、「終了」）であるか否かを判定し、終了を意味する言葉である場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）前記ステップＳ３に移行する。つまり、このモードで終了を意味する制御指示、例えば「終了」と音声入力すると、制御できる対象機器を選択するモード（ステップＳ３及びＳ４）に戻る。なお、所定時間が経過しても、認識対象となる機器制御に関する登録語、つまり制御指示が発話入力されない場合にも、前記制御対象機器を選択するモードに戻る（図３に図示せず）。

前記ステップＳ９では、前記ステップＳ６で認識された指示内容が待機を意味する言葉（例えば、「待機」）であるか否かを判定し、待機を意味する言葉である場合には（ＹＥＳ）前記ステップＳ１に移行し、そうでない場合には（ＮＯ）ステップＳ１０に移行する。つまり、この制御対象機器を選択するモードにおいて、音声認識リモートコントロール装置を待機させる命令語、例えば、「待機」と音声入力すると、パスワードを受け付けるモードに戻る。

前記ステップＳ１０では、前記ステップＳ６で認識された指示内容が電源のオフ状態を意味する言葉（例えば、「閉じろゴマ」）であるか否かを判定し、オフ状態を意味する言葉である場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）ステップＳ１０に移行する。つまり、利用者が「閉じろゴマ」と音声入力すると、パソコンの電源をオフとすることが可能であり、完全に本システムを終了することができる。
本システムを再開するときは、すでに中央制御回路８のオペレーションシステムが立ち上がっている場合には、本システムに関わるアプリケーションソフトを起動すればよく、前記オペレーションシステムが休止している場合は、本体システムの電源ボタンのみ物理的に押下することによって可能となる。

図５に、図３のステップＳ１，Ｓ３及びＳ６で実行される音声認識処理であって、これらの音声認識処理での隠れマルコフモデル（以下、ＨＭＭと呼ぶ。）による処理プロセスの原理図を示す。この音声認識処理が実行されると、まずマイクロフォン３で検知された音声を、フーリエ変換若しくはウェーブレット変換でデジタル化されたスペクトルに変換し、そのスペクトルに線形予測分析やケプストラム分析等の音声モデル化手法を用いることによって音声データの特徴化を行う。次に、この特徴化された音声データに対し、予め音声認識処理で読み込んだ語彙ネットワーク２０に登録されている個々の登録語の音響モデル２１の尤度をビタビアルゴリズムで計算する。ここで登録語は、音声単位の直列接続（音声単位ラベル系列）に対応するＨＭＭの直列接続ネットワークでモデル化され、語彙ネットワーク２０は、登録語彙リストに登録されている登録語群に対応する直列接続ネットワーク群としてモデル化されている。また、各登録語は、音素等の音声単位で構成されており、その音声単位毎に尤度が算出され、利用者の発話終了が確認された時点で、登録語彙リストの中から尤度の積算値が最大となる登録語を検出し、その登録語を音声に含まれていると認知した登録語として出力する。

本発明では、図６に示すように、登録語の語彙ネットワーク２２と並列に、単語表記のＨＭＭと同様にして、不要語を認識するための仮想的なモデル２３が設定されている。不要語を認識するための仮想的なモデル２３としては、Ｈ．Ｂｏｕｌａｒｄ，Ｂ．Ｄ’ｈｏｏｒｅａｎｄＪ．−Ｍ．Ｂｏｉｔｅ，”ＯｐｔｉｍｉｚｉｎｇＲｅｃｏｇｎｉｔｉｏｎａｎｄＲｅｊｅｃｔｉｏｎＰｅｒｆｏｒｍａｎｃｅｉｎＷｏｒｄｓｐｏｔｔｉｎｇＳｙｓｔｅｍｓ，”Ｐｒｏｃ．ＩＣＡＳＳＰ，Ａｄｅｌａｉｄｅ，Ａｕｓｔｒａｌｉａ，ｐｐ．Ｉ−３７３−３７６，１９９４．等で提案されているガーベッジモデル法を利用すればよい。これにより、対象制御したい単語以外、つまり登録語を含まない発話や雑音が音声として入力された場合に、この不要語に対応する仮想的なモデルの尤度が全ての登録語の尤度よりも大きくなるようにすることで、最大の尤度を持つ仮想的なモデルが選択され、不要語が入力されたと判断することが可能なシステムを構築できる。また、不要語を認識するための仮想的なモデル２３を用いるため、リジェクション機能を付与しても、計算負荷量をあまり大きくせず、実用的なレベルでの認識処理時間とし、且つ、可搬性のある小型のリモートコントロール装置を形成することができる。

ちなみに、不要語を認識するための仮想的なモデル２３を用いずに、登録語の語彙ネットワーク２２だけで構成される語彙ネットワーク２０だけを用いる従来の方法では、制御したい対象機器が増加するに伴って、認識させたい単語以外の未知語、不要語やシステムの想定外の発話等による誤認識による誤動作が避けられない。特に、常時音声認識処理を行っている状況下では、使用環境下における生活雑音、例えば仲間同士での会話、リモートコントロール装置のそばを人が歩く音、ペット等の鳴き声、台所での炊事作業による雑音によって、誤認識が多頻度で発生してしまうという問題がある。また、この誤認識を少なくするため、登録された単語とのマッチング判定の許容範囲を厳しくすると、誤認識は減少する傾向になるが、目的とする単語が発話された場合にもリジェクションされる頻度が高くなり、何度も言い直しが必要となり、利用者に不快感を与えてしまう。また、不要語も登録語彙リストの中に列挙する方法も考えられるが、想定できる不要語すべてを列挙すると、登録語彙リストが大きくなり、その結果演算量が膨大となるので現実的でない。

図６に、具体的な語彙ネットワーク２０として、図３のステップＳ４で実行される音声認識処理における制御対象機器の名称の語彙ネットワークを示す。この語彙ネットワーク２０には、制御したい対象機器を選択するための登録語群、つまり制御対象機器の名称２２と不要語モデル２３とが表記されている。さらに、詳細には各登録語は、対応する音素ラベル系列で表記された図７のような構成になっている。ここで、不要語モデル２３は、すべての音素モデルを平準化した仮想的な音素モデルとして形成され、不特定話者音素ＨＭＭモデルと同様のトポロジーを有する。なお、使用するすべての音素を平準化した仮想的な音素モデルは、以下のように作成される。すなわち、まず使用するすべての音素をＨＭＭとしてモデル化し、そのＨＭＭを複数個の状態の遷移系列として形成し、それら個々の状態を混合ガウス分布で構成する。そして、その混合ガウス分布から音素間にわたって共有化できるガウス分布の集合体を選び出し、さらに、音素毎の重み付け補正をした混合ガウス分布とし、これを使用するすべての音素を平準化した仮想的な音素モデルとする。また、使用するすべての音素を平準化した仮想的な音素モデルは、１つのクラスタから形成されるものに限られるものではなく、すべての音声単位を複数個（例えば３〜５個程度）のクラスタ群に分割し、そのクラスタ群から形成されるものであってもよい。そのため、利用者によって登録語が発声されると、必然的に登録語の尤度が大きくなるが、登録語以外の単語が発声されると、結果として仮想的な音素モデルの尤度が大きくなり、不要語として認識される確率が高くなる。例えば、「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」等、登録語として制御機器の名称が登録されているときに、図７記載の登録語の語彙ネットワーク２２に表記されていない単語である「焚き火（たきび）」という言葉が入力された場合、もし不要語モデルが設定されていなければ、表記された単語、つまり登録語の中から類似の音素構成となる単語（図７記載の登録語彙リストでは、例えば「テレビ」が挙げられる）の尤度が最大となり誤認識となるが、ここで、不要語モデルが設定されていれば、確率論的に仮想的な音素モデルの尤度が最大となる可能性が高くなり、不要語として認識されることにより、誤認識を大幅に低減することができる。

図８に示す不要語モデルは、母音を構成する音素群の自己ループとして表したものである。つまり、この不要語モデルは、母音の音素に対応するＨＭＭの集合体であり、その集合体の終点から始点に自己ループを持つものであって、デジタル化された音響パラメータ系列に対し、母音の音素に対応するＨＭＭ群の尤度を音響パラメータ毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものである。これは、ほぼすべての単語には母音が含有されており、しかも音素の分類として子音、母音、摩擦音、破裂音等の音素群のうち、母音が音響エネルギーとして大きいことを利用したことを特徴としている。つまり、あらゆる単語の母音だけの連続音として、不要語モデルの尤度は計算されることになる。したがって、利用者によって登録語が発話されると、子音等の母音以外の音素が不要語モデルからはずれるため、不要語モデルの尤度は登録語の尤度よりも低くなり、結果として登録語として認識される確率が高くなる。ところが、登録語以外の単語が発話されると、子音等の母音以外の音素に関して、今度は登録語に対応する音素モデルの方が低い値を戻すため、結果として母音だけの連続音である不要語モデルの尤度が高くなり、不要語として認識される確率が高くなるため、誤認識を低減することができる。この方法により、上記仮想的な音素モデルのラベル系列を得ることが難しい場合や、音素モデルで構成される既存の音声認識ソフトウェアを利用する場合に好適に用いられる。

なお、実際の使用状況に応じて、不要語としての認識率が低い場合や、認識率が高すぎて、目的とする命令語を発話しても、不要語として認識される場合等は、仮想的な音素モデルによる不要語モデル及び母音音素を用いる不要語モデルに対して得られる尤度に適当なファクターを乗じることで、認識率の最適化を図ることができる。

［実施例１］
次に、本発明の第１実施例を説明する。
この実施例では、図７に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル２３を設け、その音素モデル２３と、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２とが並列に設けられた語彙ネットワーク２０を、図３のステップＳ３の音声認識処理に読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「焚き火（たきび）」、「武雄（たけお）」、「ファミコン」を、それぞれ５回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は１００％であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について１０回ずつ発話したところ、語彙全体での正答率は９４％であった。

［実施例２］
次に、本発明の第２実施例を説明する。
この実施例では、図８に示すように、不要語モデルとして、母音の音素、つまり「あ（ａ）」、「い（ｉ）」、「う（ｕ）」、「え（ｅ）」、「お（ｏ）」の音素に対応するＨＭＭ群で構成される自己ループモデル２３’を設け、その自己ループモデル２３’と、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２とが並列に設けられた語彙ネットワーク２０を、図３のステップＳ３の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火（たきび）」、「武雄（たけお）」、「ファミコン」を、それぞれ５回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として認識されない確率は１００％であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について１０回ずつ音声入力したところ、語彙全体での正答率は９０％であった。

［実施例３］
次に、本発明の第３実施例を説明する。
この実施例では、第１実施例と同様、図７に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル２３を設け、その音素モデル２３と、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２３とが並列に設けられた語彙ネットワーク２０を、図３のステップＳ３の音声認識処理ルーチンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備（けいび）」、「えへん」、「承知（しょーち）」、「オーデコロン」を、それぞれ１０回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は９２％であった。

［実施例４］
次に、本発明の第４実施例を説明する。
この実施例では、第２実施例と同様、図８に示すように、不要語モデルとして、母音の音素、つまり「あ（ａ）」、「い（ｉ）」、「う（ｕ）」、「え（ｅ）」、「お（ｏ）」の音素に対応するＨＭＭ群で構成される自己ループモデル２３’を設け、その自己ループモデル２３’と、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２とが並列に設けられた語彙ネットワーク２０を、図３のステップＳ３の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備（けいび）」、「えへん」、「承知（しょーち）」、「オーデコロン」を、それぞれ１０回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は９３％であった。

［実施例５］
次に、本発明の第５実施例を説明する。
この実施例では、図９に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル２３及び、「あ（ａ）」、「い（ｉ）」、「う（ｕ）」、「え（ｅ）」、「お（ｏ）」の音素に対応するＨＭＭ群で構成される自己ループモデル２３’を設け、それらのモデル２２、２３と、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２とが並列に設けられた語彙ネットワーク２０を、図３のステップＳ１０３の音声認識処理ルーチンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備（けいび）」、「えへん」、「承知（しょーち）」、「オーデコロン」を、それぞれ１０回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は１００％であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について１０回ずつ音声入力したところ、全体での正答率は８８％であった。

［実施例６］
次に、本発明の第６実施例を説明する。
この実施例では、図１０に示すように、不要語モデルとして、「あ（ａ）」、「い（ｉ）」、「う（ｕ）」、「え（ｅ）」、「お（ｏ）」の音素に対応するＨＭＭ群２３”、つまり図８の不要語モデルから自己ループを除いたものと、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２とが並列に設けられた語彙ネットワーク２０を、図３のステップＳ３の音声認識処理ルーチンに読み込んだ音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備（けいび）」、「えへん」、「承知（しょーち）」、「オーデコロン」を、それぞれ１０回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は２３％であった。

［比較例１］
次に、本発明の第１比較例を説明する。
この比較例では、図１０に示すように、不要語モデルを認識するための仮想的なモデルを用いずに、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２だけで構成される語彙ネットワーク２０を、図３のステップＳ３の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火（たきび）」、「武雄（たけお）」、「ファミコン」を５回ずつ音声入力したところ、「焚き火」はすべて「テレビ」として誤認識され、「武雄」はすべて「ビデオ」として誤認識され、「ファミコン」はすべて「エアコン」として誤認識された。したがって、不要語として認識される確率、つまり登録語として誤認識されない確率は０％であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について１０回ずつ音声入力したところ、語彙全体での正答率は９８％であった。

［比較例２］
次に、本発明の第２比較例を説明する。
この比較例では、比較例１と同様、図１１に示すように、不要語を認識するための仮想的なモデルを用いずに、表１記載の登録単語リスト、つまり登録語の語彙ネットワーク２２だけで構成される語彙ネットワーク２０を、図３のステップＳ３の音声認識処理ルーチンに読み込んだ状態の図１記載の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備（けいび）」、「えへん」、「承知（しょーち）」、「オーデコロン」を、それぞれ１０回ずつ音声入力した。結果、「あいうえお」は「ビデオ」として誤認識されやすく、「えーと」は「エアコン」として誤認識されやすく、「警備」は「テレビ」として誤認識されやすく、「えへん」は「エアコン」として誤認識されやすく、「承知」は「照明」として誤認識されやすく、「オーデコロン」が「オーディオ」として誤認識されやすかった。そのため、不要語として認識される確率、つまり登録語として誤認識されない確率は０％であった。
なお、本実施形態では、音声指示情報メモリ７が記憶手段に対応し、マイクロフォン３が利用者から発せられた音声を入力する手段に対応し、音声指示認識回路６が音声認識手段に対応し、赤外線発光部２が送信手段に対応する。

次に、本発明の第２実施形態を図面に基づいて説明する。この実施形態は、上記第１実施形態と同様の音声認識処理を、利用者の音声に含まれる登録語を認識して、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を制御する情報端末装置に適用したものである。なお、音声メモ機能とは、利用者にメモ内容を音声入力させ、その音声を録音し、利用者の要求に応じて前記音声を再生する機能である。また、音声タイマ機能とは、利用者に報知内容を音声入力させ、その音声を録音すると共に、報知タイミングを入力させ、その報知タイミングで前記音声を再生する機能である。

図１２は、本発明の第２実施形態であるアナログ電話を活用した情報端末装置の主要ブロック図である。この図に示す情報端末装置は、利用者の音声に含まれる登録語を認識し、電子メールの送受信処理、スケジュール管理処理、音声メモ処理及び音声タイマ処理等を実行する音声認識ユニット５１と、その認識結果に基づいて、通信回線への接続等を行う通信ユニット５２とから構成される。利用者の音声は、音声認識ユニット５１のマイクロフォン５３から入力され、増幅器５４を経由し、Ａ／Ｄ変換器５５によって、デジタル化された音響パラメータに変換される。音声指示認識回路５６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ５７内に記憶登録されている登録語彙リスト内の登録語の尤度が、それらの音声単位毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近いものとして抽出される。なお、音声指示認識回路５６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ５７内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジタル化された音響パラメータから登録語が抽出されなかったものとする。

また、音声指示情報メモリ５７内には、登録語彙リストとして、電子メールの送信機能に関する登録語が記録された電子メール送信用語彙リストと、電子メールの受信機能に関する登録語が登録された電子メール受信用語彙リストと、スケジュール管理機能に関する登録語が登録されたスケジュール管理用語彙リストと、音声メモ機能に関する登録語が登録された音声メモ用語彙リストと、音声タイマ機能に関する登録語が登録された音声タイマ用語彙リストと、登録語であるメールの送信コマンドや受信コマンドに対応する制御コードとが記憶されている。ここで、音声認識回路５６で電子メールの送信開始パスワードが抽出、つまり認識結果として得られると、利用者の音声に応じて電子メールの送信機能を制御する後述する演算処理が実行され、利用者にメール内容を音声入力させ、その音声をマイクロフォン５３で検出し、マイクロフォンインタフェース回路６８を介して、ＲＡＭ６９に音声データとして記憶させると共に、電子メールの送信コマンドが入力されたときには、そのコマンドに対応する電話制御用の制御コードを音声指示情報メモリ５７から呼び出して、通信ユニット５２へ送信し、音声データを電子メールに添付して送信する。また同様に、音声認識回路５６で電子メールの受信開始パスワードが認識結果として得られると、利用者の音声に応じて電子メールの受信機能を制御する後述する演算処理が実行され、電子メールの受信コマンドが入力されたときには、そのコマンドに対応する電話制御用の制御コードを音声指示情報メモリ５７から呼び出して、通信ユニット５２へ送信し、音声データが添付された電子メールを受信すると共に、その音声データを、Ｄ／Ａ変換器６５及び増幅器１６を経由してスピーカ６７で再生する。なお、制御コードは、通信ユニット５２を制御できるものであれば特に限定されるものではないが、一般的にＡＴコマンドが利用されるため、本実施形態でもＡＴコマンドを採用する。

また、音声指示認識回路５６でスケジュール管理機能の開始パスワードが認識結果として得られると、利用者の音声に応じてスケジュール管理機能を制御する後述する演算処理を中央制御回路５８が実行し、利用者にスケジュール内容を音声入力させて、その音声をマイクロフォン５３で検出し、マイクロフォンインタフェース回路６８を介して、ＲＡＭ６９に音声データとして記憶させると共に、そのスケジュールの実行日を入力させ、その実行日に音声データを関連付けてスケジュール管理を行う。また、音声認識回路５６で音声メモ機能の開始パスワードが抽出、つまり認識結果として得られると、利用者の音声に応じて音声メモ機能を制御する後述する演算処理が中央制御回路５８で実行され、利用者にメモ内容を音声入力させ、その音声をマイクロフォン５３で検出し、マイクロフォンインタフェース回路６８を介して、ＲＡＭ６９に音声データとして記憶させると共に、利用者の要求に応じて音声データをＲＡＭ６９から呼び出し、Ｄ／Ａ変換器６５及び増幅器１６を経由してスピーカ６７で再生する。また、音声指示認識回路５６で音声タイマの作成機能の開始パスワードが認識結果として得られると、利用者の音声に応じて音声タイマ機能を制御する後述する演算処理を中央制御回路５８で実行し、利用者に報知内容を入力させて、その音声をマイクロフォンで検出し、マイクロフォンインタフェース回路６８を介して、ＲＡＭ６９に音声データとして記憶させると共に、その音声の報知タイミングを入力させ、その報知タイミングで音声データをＲＡＭ６９から呼び出し、Ｄ／Ａ変換器６５及び増幅器１６を経由してスピーカ６７で再生する。

なお、使用するハードウエアとしては、図１２記載の基本機能を有していれば、特に限定されるものではなく、以下では音声認識ユニット５１として、図１３に示すように、市販のパソコンを用いた場合について説明する。
図１４に、図１３の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを送信等する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。

この演算処理が実行されると、まず、そのステップＳ１０１では、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「電子メール送信」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には（ＹＥＳ）ステップＳ１０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

次に、ステップＳ１０２に移行して、登録語彙リストとして、電子メール送信用語彙リストを読み込み、且つ、図１５に示すように、音声メールランチャを起動して、利用者が指示可能な登録語の一覧をＬＣＤ表示装置６２に表示させる。ＬＣＤ表示装置６２に表示させる登録語としては、例えば、メールを作成したいときに発話するメール作成コマンド（例えば、「メール作成」）が挙げられる。

次にステップＳ１０３に移行して、マイクロフォン５３で検出された音声を読み込み、その音声に含まれるメール作成コマンドが含まれているか、またはメール作成コマンド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、その音声にメール作成コマンドが含まれている場合には（ＹＥＳ）ステップＳ１０４に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

次にステップＳ１０４に移行して、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である相手先リスト選択コマンド（例えば、「相手先リスト」という言葉）が含まれているか、または相手先リスト選択コマンド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、その音声に相手先リスト選択コマンドが含まれている場合には（ＹＥＳ）ステップＳ１０５に移行し、そうでない場合には（ＮＯ）ステップＳ１０６に移行する。

前記ステップＳ１０５では、図１５に示すように、メールアドレスが登録されている人、つまりメールアドレスが記憶装置の所定のデータ領域に格納されている人の名前を記載した一覧をＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である人名を認識する音声認識処理を実行して、その人名に対応するメールアドレスを呼び出してから、ステップＳ１０７に移行する。

一方、前記ステップＳ１０６では、メール送信先のメールアドレスの発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるアルファベットを認識する音声認識処理を実行して、送信先のメールアドレスを認識してから、前記ステップＳ１０７に移行する。
前記ステップＳ１０７では、マイクロフォン５３で検出された音声に対し、登録語である録音開始コマンド（例えば、「録音開始」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音開始コマンドが含まれているか否かを判定し、録音開始コマンドが含まれている場合には（ＹＥＳ）ステップＳ１０８に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

前記ステップＳ１０８では、メール内容の発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を所定時間録音して音声データを生成し、その音声データをメール内容として記憶装置の所定のデータ領域に格納する。
前記ステップＳ１０９では、マイクロフォン５３で検出された音声に対し、登録語である追加録音コマンド（例えば、「追加録音」という言葉）を認識する音声認識処理を実行し、且つ、その音声に追加録音コマンドが含まれているか否かを判定し、追加録音コマンドが含まれている場合には（ＹＥＳ）再びステップＳ１０８に移行し、そうでない場合には（ＮＯ）ステップＳ１１０に移行する。

前記ステップＳ１１０では、マイクロフォン５３で検出された音声を読み込み、その音声に録音内容確認コマンド（例えば、「録音内容の確認」という言葉）が含まれているか否かを判定し、その音声に録音内容確認コマンドが含まれている場合には（ＹＥＳ）ステップＳ１１１に移行し、そうでない場合には（ＮＯ）ステップＳ１１２に移行する。
前記ステップＳ１１１では、前記ステップＳ１０８で生成した音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ６７に再生させてから、ステップＳ１１２に移行する。

前記ステップＳ１１２では、マイクロフォン５３で検出された音声を読み込み、その音声に送信コマンド（例えば、「送信実行の確認」という言葉）が含まれているか否かを判定し、送信コマンドが含まれる場合には（ＹＥＳ）ステップＳ１１３に移行し、そうでない場合には（ＮＯ）ステップＳ１１４に移行する。
前記ステップＳ１１３では、プロバイダに電話をかけるためのＡＴコマンドを記憶装置の所定のデータ領域から読み出し、そのＡＴコマンドを音声通話ユニット１０２に送信し、プロバイダのメールサーバに接続する。

次にステップＳ１１４に移行して、前記ステップＳ１０８で生成した音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データを添付して、前記ステップＳ１０５で読み出したメールアドレス又は前記ステップＳ１０６で入力させたメールアドレスに電子メールを送信する。
次にステップＳ１１５に移行して、回線切断を指示するＡＴコマンドを記憶装置の所定のデータ領域から呼び出し、そのＡＴコマンドを音声通話ユニット５２に送信する。

次にステップＳ１１６に移行して、電子メールの送信が完了した旨のメッセージをＬＣＤ表示装置６２に表示させてから、ステップＳ１１８に移行する。
一方、前記ステップＳ１１７では、前記ステップＳ１０８で生成した音声データ、つまりメール内容を記憶装置の所定のデータデータ領域から削除してから、前記ステップＳ１１８に移行する。

前記ステップＳ１１８では、マイクロフォン５３で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）再び前記ステップＳ１０４に移行する。

図１６に、図１３の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを受信等するための演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ２０１では、マイクロフォン５３で検出された音声を読み込み、その音声に開始パスワード（例えば、「電子メール受信」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には（ＹＥＳ）ステップＳ２０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

次にステップＳ２０２に移行して、登録語彙リストとして、電子メール受信用語彙リストを読み込み、且つ、音声メールランチャを起動して、利用者が指示可能な登録語の一覧をＬＣＤ表示装置６２に表示させる。ＬＣＤ表示装置６２に表示させる登録語としては、例えば、メールを受信したいときに発話するメール受信コマンド（例えば、「メール受信」）等が挙げられる。

次にステップＳ２０３に移行して、マイクロフォン５３で検出された音声を読み込み、その音声にメール受信コマンドが含まれているか否かを判定し、メール受信コマンドが含まれている場合には（ＹＥＳ）ステップＳ２０４に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。
次にステップＳ２０４に移行して、プロバイダに電話をかけるためのＡＴコマンドを記憶装置の所定のデータ領域から呼び出し、そのＡＴコマンドを音声通話ユニット１０２に送信し、プロバイダのメールサーバに接続する。

次にステップＳ２０５に移行して、前記ステップＳ２０４で接続したメールサーバから電子メールを受信し、その電子メールを記憶装置の所定のデータ領域に格納する。
次にステップＳ２０６に移行して、電子メールの受信が完了した旨のメッセージをＬＣＤ表示装置６２に表示させる。
次にステップＳ２０７に移行して、回線切断を指示するＡＴコマンドを記憶装置の所定のデータ領域から呼び出し、そのＡＴコマンドを音声通話ユニット５２に送信する。

次にステップＳ２０８に移行して、前記ステップＳ２０５で受信したメールの一覧をＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるメール選択コマンドを認識する音声認識処理を実行して、利用者にメールの一覧から特定のメールを選択させる。なお、メール選択コマンドとしては、利用者が特定のメールを選択できるものであれば、どのようなものでもよく、例えばメールの一覧としてメール送信者の人名を表示させるときには、その一覧に掲載した人名を用いてもよい。

次にステップＳ２０９に移行して、マイクロフォン５３で検出された音声に対し、登録語である再生コマンド（例えば、「再生」という言葉）を認識する音声認識処理を実行し、且つ、その音声に再生コマンドが含まれているか否かを判定し、再生コマンドが含まれている場合には（ＹＥＳ）ステップＳ２１０に移行し、そうでない場合には（ＮＯ）ステップＳ２１１に移行する。

前記ステップＳ２１０では、前記ステップＳ２０８で選択させたメールに添付されている音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ６７に再生させてから、前記ステップＳ２１１に移行する。
前記ステップＳ２１１では、まずマイクロフォン５３で検出された音声に対し、登録語であるスケジュール登録コマンド（例えば、「スケジュール登録」という言葉）を認識する音声認識処理を実行して、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には（ＹＥＳ）ステップＳ２１２に移行し、そうでない場合には（ＮＯ）ステップＳ２１７に移行する。

前記ステップＳ２１２では、登録語彙リストとして、スケジュール管理用語彙リストを読み込み、且つ、スケジューラを起動して、利用者が指示可能な登録語の一覧をＬＣＤ表示装置６２に表示させる。
次にステップＳ２１３に移行して、前記ステップＳ２０８で選択させたメールにヘッダ情報（例えば、日付を指定する情報等）が記載されているか否かを判定し、ヘッダ情報が記載されている場合には（ＹＥＳ）ステップＳ２１４に移行し、そうでない場合には（ＮＯ）ステップＳ２１５に移行する。

前記ステップＳ２１４では、まず、前記ステップＳ２０８で選択させたメールに添付されている音声データ、つまりメール内容を、前記メールに記載されているヘッダ情報の日付におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。次に、スケジュール内容の大・小項目選択コマンド（例えば、「プライベート」や「待合わせ」という言葉等）の入力を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納してから、前記ステップＳ２１７に移行する。

一方、前記ステップＳ２１５では、スケジュールの実行日の入力を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である年月日入力コマンド（例えば、「○○年○月○日」という言葉）を認識する音声認識処理を実行する。
次にステップＳ２１６に移行して、まず、前記ステップＳ２０８で選択させたメールに添付されている音声データを、前記ステップＳ２１５で認識した年月日におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。次に、スケジュール内容の大・小項目選択コマンド（例えば、「プライベート」や「待合わせ」という言葉等）の入力を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納してから、前記ステップＳ２１７に移行する。

前記ステップＳ２１７では、まず、マイクロフォン５３で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）再び前記ステップＳ２０３に移行する。

図１７に、図１３の情報端末装置で実行される処理であって、利用者の音声に応じてスケジュール管理機能を実行するための演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ３０１では、マイクロフォン３で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「音声スケジュール」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には（ＹＥＳ）ステップＳ３０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

次にステップＳ３０２に移行して、登録語彙リストとして、スケジュール管理用語彙リストを読み込み、且つ、図１８に示すように、音声スケジュールランチャを起動して、利用者が指示可能な登録語の一覧をＬＣＤ表示装置６２に表示させる。ＬＣＤ表示装置６２に表示させる登録語としては、例えば、スケジュールを登録したいときに発話するスケジュール登録コマンド（例えば、「予定設定」）、スケジュールを確認したいときに発話するスケジュール確認コマンド（例えば、「予定確認」）が挙げられる。

次にステップＳ３０３に移行して、スケジュールの実行日の発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である年月日入力コマンド（例えば、「○○年○月○日」という言葉）を認識する音声認識処理を実行する。
次にステップＳ３０４に移行して、マイクロフォン５３で検出された音声に対し、登録語であるスケジュール登録コマンドを認識する音声認識処理を実行し、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には（ＹＥＳ）ステップＳ３０５に移行し、そうでない場合には（ＮＯ）ステップＳ３１０に移行する。

前記ステップＳ３０５では、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるスケジュールの開始・終了時間入力コマンド（例えば、「○時○分」という言葉）を認識する音声認識処理を実行して、利用者にスケジュールの開始時間と終了時間とを入力させる。
次にステップＳ３０６に移行して、スケジュール内容の発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップＳ３０３で認識した年月日におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。

次にステップＳ３０７に移行して、まず、スケジュール内容の大・小項目選択コマンド（例えば、「プライベート」や「待合わせ」という言葉等）の入力を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。次に、その認識結果を前記ステップＳ３０６で生成した音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納する。

次にステップＳ３０８に移行して、まずリマインダー機能の設定コマンド（例えば、「リマインダーの設定」という言葉）の発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声に対し、登録語であるリマインダーの設定コマンドを認識する音声認識処理を実行する。次に、その音声にリマインダーの設定コマンドが含まれているか否かを判定し、リマインダーの設定コマンドが含まれている場合には（ＹＥＳ）ステップＳ３０９に移行し、そうでない場合には（ＮＯ）ステップＳ３２４に移行する。なお、リマインダー機能とは、スケジュール内容を所定のタイミングで報知して、そのスケジュールの存在を利用者に思い出させる機能である。

前記ステップＳ３０９では、まず、リマインダーの通知時間や通知先人名等の入力を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語であるリマインダーの通知時間、通知先人名の設定コマンド（例えば、「○分前」という言葉）を認識する音声認識処理を実行して、利用者にリマインダー機能による報知タイミング等を入力させる。次に、そのリマインダーの通知時間に、前記ステップＳ３０６で生成した音声データ、つまりスケジュール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ６７で再生する演算処理を実行してから、ステップＳ３２４に移行する。

一方、前記ステップＳ３１０では、マイクロフォン５３で検出された音声に対し、登録語であるスケジュール確認コマンドを認識する音声認識処理を実行して、且つ、その音声にスケジュールの確認コマンドが含まれているか否かを判定し、スケジュールの確認コマンドが含まれている場合には（ＹＥＳ）ステップＳ３１１に移行し、そうでない場合には（ＮＯ）ステップＳ３１９に移行する。

前記ステップＳ３１１では、図１９に示すように、前記電子メールを受信等するための演算処理のステップＳ２１４及びＳ２１６、前記ステップＳ３０７で入力させたスケジュール内容の大・小項目を記憶装置の所定のデータ領域から読み出し、その一覧をＬＣＤ表示装置６２に表示させる。
前記ステップＳ３１２では、マイクロフォン５３で検出された音声に対し、登録語である録音内容確認コマンド（例えば、「確認」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音内容確認コマンドが含まれているか否かを判定し、録音内容確認コマンドが含まれている場合には（ＹＥＳ）ステップＳ３１３に移行し、そうでない場合には（ＮＯ）ステップＳ３１４に移行する。

前記ステップＳ３１３では、前記ステップＳ３１１でＬＣＤ表示装置６２に一覧表示させた大・小項目に対応する音声データ、つまりスケジュール内容をスピーカ６７に再生させてから、前記ステップＳ３１４に移行する。
前記ステップＳ３１４では、まず、マイクロフォン５３で検出された音声に対し、登録語であるスケジュール追加登録コマンド（例えば、「予定設定」という言葉）を認識する音声認識処理を実行し、且つ、その音声にスケジュール追加登録コマンドが含まれているか否かを判定し、スケジュール追加登録コマンドが含まれている場合には（ＹＥＳ）ステップＳ３１５に移行し、そうでない場合には（ＮＯ）ステップＳ３１６に移行する。

前記ステップＳ３１５では、新たなスケジュールを登録するためのデータ領域を記憶装置に確保してから、前記ステップＳ３０５に移行する。
一方、前記ステップＳ３１６では、マイクロフォン５３で検出された音声に対し、登録語であるスケジュール訂正コマンド（例えば、「訂正」という言葉）を認識する音声認識処理を実行し、且つ、その音声にスケジュール訂正コマンドが含まれているか否かを判定し、スケジュール訂正コマンドが含まれている場合には（ＮＯ）前記ステップＳ３０５に移行し、そうでない場合には（ＮＯ）ステップＳ３１７に移行する。

前記ステップＳ３１７では、マイクロフォン５３で検出された音声に対し、登録語であるスケジュール削除コマンド（例えば、「削除」という言葉）を認識する音声認識処理を実行し、且つ、その音声にスケジュール削除コマンドが含まれているか否かを判定し、スケジュール削除コマンドが含まれている場合には（ＹＥＳ）ステップＳ３１８に移行し、そうでない場合には（ＮＯ）再びステップＳ３１１に移行する。

前記ステップＳ３１８では、スケジュールが登録されているデータ領域を記憶装置から削除してから、前記ステップＳ３２４に移行する。
一方、前記ステップＳ３１９では、マイクロフォン５３で検出された音声に対し、登録語であるスケジュール検索コマンド（例えば、「予定検索」という言葉）を認識する音声認識処理を実行し、且つ、その音声にスケジュール検索コマンドが含まれているか否かを判定し、スケジュール検索コマンドが含まれている場合には（ＹＥＳ）ステップＳ３２０に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ３０３に移行する。

前記ステップＳ３２０では、スケジュール内容の大・小項目選択コマンドの発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声に含まれるスケジュール内容の大・小項目の選択コマンドを認識する音声認識処理を実行して、利用者に検索対象であるスケジュール内容の大・小項目を入力させる。

次にステップＳ３２１に移行して、マイクロフォン５３で検出された音声に対し、登録語である検索実行コマンド（例えば、「検索実行」という言葉）を認識する音声認識処理を実行し、且つ、その音声に検索実行コマンドが含まれているか否かを判定し、検索実行コマンドが含まれている場合には（ＹＥＳ）ステップＳ３２２に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ３２０に移行する。

次にステップＳ３２２では、前記ステップＳ３２０で認識したスケジュール内容の大・小項目に対応するスケジュールを記憶装置の所定のデータ領域から検索し、その検索結果をＬＣＤ表示装置６２に表示させる。
次にステップＳ３２３に移行して、マイクロフォン５３で検出された音声に再検索コマンド（例えば、「再検索」という言葉）を認識する音声認識処理を実行し、且つ、その音声に再検索コマンドが含まれているか否かを判定し、再検索コマンドが含まれている場合には（ＹＥＳ）ステップＳ３２４に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ３２０に移行する。

前記ステップＳ３２４では、マイクロフォン５３で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）再び前記ステップＳ３０３に移行する。

図２０に、図１３の情報端末装置で実行される処理であって、利用者の音声に応じて音声メモ機能を実行する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ４０１では、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「音声メモ」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には（ＹＥＳ）ステップＳ４０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

次にステップＳ４０２に移行して、登録語彙リストとして、音声メモ用語彙リストを読み込み、且つ、図２１に示すように、音声メモランチャを起動して、利用者が指示可能な登録語の一覧をＬＣＤ表示装置１２に表示させる。ＬＣＤ表示装置６２に表示させる登録語としては、音声メモを作成したいとき、つまり音声を録音したいときに発話する録音コマンド（例えば、「録音開始」）、音声メモを再生したいときに発話する再生コマンド（例えば、「再生開始」）、各音声メモに対応づけられた番号であって、音声メモを選択したいときに発話するメモフォルダ番号選択コマンド（例えば、「１番」、「２番」等）等が挙げられる。

次にステップＳ４０３に移行して、マイクロフォン５３で検出された音声に対し、登録語であるメモフォルダ番号選択コマンドを認識する音声認識処理を実行し、且つ、その音声にメモフォルダ番号選択コマンドが含まれているか否かを判定し、メモフォルダ番号選択コマンドが含まれている場合には（ＹＥＳ）ステップＳ４０４に移行し、そうでない場合には（ＮＯ）ステップＳ４０７に移行する。

前記ステップＳ４０４では、マイクロフォン５３で検出された音声に対し、登録語である録音コマンドを認識する音声認識処理を実行し、且つ、その音声に録音コマンドが含まれているか否かを判定し、録音コマンドが含まれている場合には（ＹＥＳ）ステップＳ４０５に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ４０３に移行する。
前記ステップＳ４０５では、メモ内容の発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップＳ４０３で選択させたメモフォルダに対応するメモ内容として記憶装置の所定のデータ領域に格納する。

次にステップＳ４０６に移行して、マイクロフォン５３で検出された音声に対し、登録語である録音内容の確認コマンド（例えば、「確認」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている場合には（ＹＥＳ）ステップＳ４０８に移行し、そうでない場合には（ＮＯ）ステップＳ４０９に移行する。

一方、前記ステップＳ４０７では、マイクロフォン５３で検出された音声に対し、登録語である再生コマンドを認識する音声認識処理を実行し、且つ、その音声に再生コマンドが含まれているか否かを判定し、再生コマンドが含まれている場合には（ＹＥＳ）前記ステップＳ４０８に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。
前記ステップＳ４０８では、前記ステップＳ４０３で選択させたメモフォルダに対応する音声データ、つまりメモ内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ６７に再生させてから、前記ステップＳ４０９に移行する。

前記ステップＳ４０９では、マイクロフォン５３で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているが含まれているか否かを判定し、終了コマンドが含まれている場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）再び前記ステップＳ４０３に移行する。

図２２に、図１３の情報端末装置で実行される処理であって、利用者の音声に応じて音声タイマ機能を実行する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ５０１では、マイクロフォン５３で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「音声タイマ」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には（ＹＥＳ）ステップＳ５０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

次にステップＳ５０２に移行して、登録語彙リストとして、音声タイマ用語彙リストを読み込み、且つ、音声タイマランチャを起動して、利用者が指示可能な登録語の一覧をＬＣＤ表示装置１２に表示させる。ＬＣＤ表示装置６２に表示させる登録語としては、例えば、報知内容や報知タイミングを設定するときに発話するタイマ設定コマンド（例えば、「タイマー設定」）、タイマを動作させるときに発話するタイマ開始コマンド（例えば「タイマスタート」）等が挙げられる。

次にステップＳ５０３に移行して、マイクロフォン５３で検出された音声に対し、登録語であるタイマ設定コマンドを認識する音声認識処理を実行し、且つ、その音声にタイマ設定コマンドが含まれているか否かを判定し、タイマ設定コマンドが含まれている場合には（ＹＥＳ）ステップＳ５０４に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ５０２に移行する。

前記ステップＳ５０４では、タイマが動作開始してから報知を行うまでの時間、つまり報知タイミングの入力を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を読み込み、その音声から登録語であるタイマ時間設定コマンド（例えば、「○○分」という言葉）を認識する音声認識処理を実行する。
次にステップＳ５０５に移行して、報知内容を録音するか否かの返答を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声に対し、登録語である録音開始確認コマンド（例えば「はい」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音開始確認コマンドが含まれているか否かを判定し、録音開始確認コマンドが含まれている場合には（ＹＥＳ）ステップＳ５０６に移行し、そうでない場合には（ＮＯ）ステップＳ５０２に移行する。

前記ステップＳ５０６では、報知内容の発話を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップＳ５０４で認識した時間、つまり報知タイミングに報知する報知内容として記憶装置の所定のデータ領域に格納する。
次にステップＳ５０７に移行して、前記ステップＳ５０６で録音した音声、つまり報知内容の確認を促すメッセージをＬＣＤ表示装置６２に表示させると共に、マイクロフォン５３で検出された音声に対し、登録語である録音内容の確認コマンド（例えば、「用件確認」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている場合には（ＹＥＳ）ステップＳ５０８に移行し、そうでない場合には（ＮＯ）ステップＳ５０９に移行する。

前記ステップＳ５０８では、前記ステップＳ５０６で生成した音声データ、つまり報知内容をスピーカ６７に再生させてから、前記ステップＳ５０９に移行する。
前記ステップＳ５０９では、マイクロフォン５３で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（ＹＥＳ）この演算処理を終了し、そうでない場合には（ＮＯ）再び前記ステップＳ５０２に移行する。

一方、前記ステップＳ５１０では、マイクロフォン５３で検出された音声に対し、登録語であるタイマ開始コマンドを認識する音声認識処理を実行し、且つ、その音声にタイマ開始コマンドが含まれているか否かを判定し、タイマ開始コマンドが含まれている場合には（ＹＥＳ）ステップＳ５１１に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ５０２に移行する。

前記ステップＳ５１１では、前記ステップＳ５０４で認識した時間、つまり報知タイミングで、前記ステップＳ５０６で生成した音声データ、つまり報知内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ６７で再生する演算処理を実行してから、この演算処理を終了する。
以上、説明してきたように、本実施形態の情報通信端末装置にあっては、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能を利用者の音声に含まれる登録語を認識することで実行するため、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。

また、上記第１実施形態と同様な音声認識処理を用いるため、上記第１実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語モデル２３の尤度が大きく算出され、登録語の語彙ネットワーク２２の尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、情報端末装置の誤動作が防止される。
なお、本実施形態では、マイクロフォン５３は音声検出手段に対応し、音声指示認識回路５６が音声認識手段に対応し、中央制御回路５８が制御手段に対応する。

次に、本発明の第３実施形態を図面に基づいて説明する。この実施形態は、上記第１実施形態と同様の音声認識処理を、利用者の音声に含まれる登録語を認識して、通信回線への接続等を行う電話通信端末に適用したものである。図２３は、本発明の第３実施形態であるアナログ電話又はボイスモデムを活用した電話通信端末の主要ブロック図である。この図に示す電話通信端末は、音声認識を制御する音声認識ユニット１０１と音声通話を制御する音声通話ユニット１０２、つまり利用者の音声に含まれる登録語を認識する音声認識ユニット１０１と、その認識結果に基づいて、通信回線への接続等を行う音声通話ユニット１０２とから構成される。利用者の音声は、音声認識ユニット１０１のマイクロフォン１０３から入力され、増幅器１０４を経由し、Ａ／Ｄ変換器１０５によって、デジタル化された音響パラメータに変換される。ここで、入力されたアナログ音声は、特に限定されるものではないが、通常、８ＫＨｚ〜１６ＫＨｚの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメータは、音声指示認識回路１０６内部で、音声指示情報メモリ１０７内に記憶登録されている登録語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメータとの尤度計算を行うことにより、登録語彙リストの中から、最も近い単語を抽出する。言いかえると、音声指示認識回路１０６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ１０７内に記憶登録されている登録語彙リスト内の単語（以下、登録語とも呼ぶ。）の尤度が、それらの構成単位（以下、音声単位とも呼ぶ。）毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近いものとして抽出される。なお、音声指示認識回路１０６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ１０７内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジタル化された音響パラメータから登録語が抽出されなかったものとする。

ここで、登録語彙リスト内には、登録語彙として登録語と当該登録語以外の不要語とが登録されているものとする。また、音声単位としては、音節、音素、半音節、Ｄｉｐｈｏｎｅ（音素の２つ組）、Ｔｒｉｐｈｏｎｅ（音素の３つ組）等を適宜使用すればよい。
また、音声指示情報メモリ１０７内には、登録語彙リストとして、人名とその人名に対応する電話番号とが記録された人名語彙リストと、任意の電話番号に相当する桁数に応じた連続数字を認識するための番号語彙リストと、電話操作に関する通話操作語彙リストと、電話着信時の応答に関する着信操作語彙リスト、各登録語に対応する制御コードとが記憶されている。例えば、音声指示認識回路１０６で電話操作に関する登録語が抽出、つまり認識結果として得られると、その音声認識された登録語に対応する電話制御用の制御コードを当該音声指示情報メモリ１０７から呼び出し、中央制御回路１０８より音声通話ユニット１０２へ送信される。制御コードは、音声通話ユニット１０２を制御できるものであれば特に限定されるものではないが、一般的にＡＴコマンドが利用されるため、本実施形態でもＡＴコマンドを代表例として採用している。

また、電話発呼動作において、マイクロフォン１０３から人名又は電話番号情報が音声入力されると、その音声に含まれる登録語を認識し、その音声認識結果をＬＣＤ表示部１０９に表示させて視覚的に報知すると同時に、応答音声制御回路１１０で応答音声情報メモリ１１８から呼び出し、Ｄ／Ａ変換器１１１及び増幅器１１２を介して、アナログ音声としてスピーカ１１３から聴覚的に報知する。認識結果が正しいときには、利用者が「電話かけて」等の音声コマンドをマイク１０３から入力すると、中央制御回路１０８で所望とする相手先電話番号への発信制御をＡＴコマンドとして変換し、音声通話ユニット１０２のワンチップマイコン１１４へ送信する。

また、電話回線が接続され、音声通話可能となると、音声通話ユニット１０２のマイクロフォン１１５とスピーカ１１６とを利用して、音声通話すると同時に、必要に応じて音声認識ユニット１０１のマイクロフォン１０３及びスピーカ１０５のボリュームレベルを、音声通話ユニット１０２のマイクロフォン１１５及びスピーカ１１６と独立して調整することができる。

また、音声認識ユニット１０１では、電話制御用の制御コードが中央制御回路１０８より外部インタフェース１１７を経由して音声通話ユニット１０２へ送信したときに、音声通話ユニット１０２から状態信号を受け取ることによって、音声通話ユニット１０２のオンフック状態、オフフック状態、あるいは回線通信状況を把握でき、それらの状態に応じて、次の動作に必要な登録語彙リストを順次変更することにより、不要な言葉による誤認識を低減している。例えば着信時においては、音声通話ユニット１０２で着信を受けたことを知らせるリンギング情報を音声認識ユニット１０１へ伝達させることにより、着信応答に関する着信操作語彙リストを呼び出し、利用者が音声応答するか否かの判断を音声認識ユニット１０１のマイクロフォン１０３を利用して入力することにより、着信時においても音声入力によるハンズフリーで電話通話できることを可能としている。このとき、相手先の電話番号等の相手先情報を得られるならば、人名と電話番号を登録している名称語彙リストと照合し、その照合結果をＬＣＤ表示装置１０９に表示させて視覚的に報知させると同時に、応答音声制御回路１１０を利用して、照合結果に対応する応答音声データを応答音声用情報メモリ１１８から呼び出し、Ｄ／Ａ変換器１１１及び増幅器１１２を経由して、アナログ音声として「○○さんからの電話です」というアナウンスをスピーカ１０３から聴覚的に報知させることが可能となっている。

このように本実施形態では、音声入出力、つまりマイクロフォンとスピーカとを少なくとも２系統設置することにより、通常リンギングに使用されているスピーカ１１６の動作と並行して、より詳細な情報を画面表示以外でも利用者に伝達可能としている。ちなみに、詳細な情報を画面表示で伝達する方法では、利用者が電話機本体から離れている場合、車の運転中で視線を画面に変更ができない場合、あるいは、利用者が視覚障害者である場合等、着信した電話の相手先情報を確認することが難しいケースにも対応可能となっている。

なお、図２４は、公衆電話回線網への接続手段として、携帯電話型の無線方式を利用した変形例であり、図２３と比較して音声通話ユニット１０２の主要ブロック図が異なる。携帯電話型の無線方式を利用する場合、通常、音声通話用の入出力装置、つまり音声通話ユニット１０２のマイクロフォン１１５及びスピーカ１１６は、相手先の音声受信状態によって、ＯＮ−ＯＦＦの制御がされている。したがって、音声入出力装置、つまりマイクロフォン１０３及びスピーカ１１３を音声認識用に別に用意することにより、音声通話方式によって異なる音声通話用の入出力装置の特徴（動作状態）に左右されることなく、音声認識機能付き電話通信端末として、常時使用することが可能となっている。言いかえると、利用者が通話中であって、その通話のために音声通話ユニット１０２のマイクロフォン１１５及びスピーカ１１５が専有されている場合であっても、利用者は音声認識ユニット１０１に音声を入力でき、音声通話ユニット１０２を制御させることができる。ちなみに、音声によってダイヤル信号を自動送出するものであって、ハンドセットで音声入力する方法では、通常、音声入力を常時受け付けられるようにするには、電話機能として、オフフックモードとする必要があり、この場合、常に受話器が上がった状態であり、外からの受信が受け付けられない。

図２５に、中央制御回路１０８で実行される処理であって、利用者が人名を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。つまり図２５は、人名による発呼動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ６０１では、オンフックの状態を検出することにより、音声通話ユニット１０２の初期状態を確認し、電話発呼を受け付ける状態であることを確認する。具体的には、音声通話ユニット１０２から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には（ＹＥＳ）ステップＳ６０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

前記ステップＳ６０２では、利用者からの音声による人名入力を受け付ける。具体的には、登録語彙リストとして、人名と電話番号が記録された人名語彙リストを読み込み、且つ、マイクロフォン１０３で検出された音声を読み込み、その音声に登録語彙リストに登録されている人名が含まれているか、または人名以外の雑音や音声、つまり不要語しか含まれていないかを音声指示認識回路１０６に認識させる。ここで、人名に関しては、予め人名と対応する電話番号を音声指示情報メモリ１０７に人名語彙リストとして記憶させておく。また、入力されたアナログ音声は、特に限定されるものではないが、通常、８ＫＨｚ〜１６ＫＨｚの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメータは、音声指示認識回路１０６内部で、音声指示情報メモリ１０７内に記憶登録されている人名語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメータとの尤度計算を行うことにより、人名語彙リストの中から、最も近い人名を抽出する。言いかえると、音声指示認識回路１０６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ１０７内に記憶登録されている人名語彙リスト内の登録語である人名の尤度が、その音声単位毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近い人名として抽出される。なお、音声指示認識回路６内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ７内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語である人名の尤度よりも大きいときには、デジタル化された音響パラメータから人名が抽出されなかったものとする。

前記ステップＳ６０３では、前記ステップＳ６０２で人名語彙リストに登録されている人名が音声に含まれていることが認識されたか否かを判定し、登録語彙リストに登録されている人名が含まれている場合には（ＹＥＳ）ステップＳ６０４に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ６０２に移行する。
前記ステップＳ６０４では、前記ステップＳ６０２で人名が抽出されると、音声認識ユニット１０２に接続された端末画面（ＬＣＤ表示装置１０９）に、抽出された人名を表示させると共に、応答音声制御回路１１０を用いて、音声アナウンスによって、抽出された人名を報知させる。

次にステップＳ６０５に移行して、図２６に示すように、まずＬＣＤ表示装置１０９にプロセスを進めることを指示する単語、またはプロセスのやり直しを指示する単語の発話を促すメッセージを表示させる。次に、マイクロフォン１０３で検出された音声を読み込み、その音声に含まれる登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを音声指示認識回路１０６に認識させる。そして、マイクロフォン１０３で検出された音声に登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを判定し、プロセスを進めることを指示する単語が含まれている場合には（ＹＥＳ）ステップＳ６０６に移行し、そうでない場合には（ＮＯ）再び前記ステップＳ６０２に移行する。利用者は、抽出された人名が所望の結果であるかどうかを判断し、所望の結果であれば「電話かけて」等の予め登録されたプロセスを進めることを指示する単語を発話し、音声指示認識回路１０６に、入力された音声コマンドの認識処理を行わせる。

前記ステップＳ６０６では、前記ステップＳ６０２で抽出された人名に対応する電話番号を人名語彙リストから読み出すと共に、その電話番号に対応するＡＴコマンドを音声指示情報メモリ１０７から呼び出し、そのＡＴコマンドを音声通話ユニット１０２へ送信する。そして、前記のごとく、「電話かけて」という予め登録された語彙であると認識されると、対応する電話番号を発信するためのＡＴコマンド（ＡＴＤ）が中央制御回路１０８より音声通話ユニット１０２へ伝達され、回線接続のプロセスが実行される。呼び出し音に応答して、相手先のオフフック動作を検知すると、回線接続が完了し、音声通話を実行する。

一方、抽出された人名が、所望とする結果でないときは、予め登録されたプロセスのやり直しを指示する音声コマンド、例えば「もう一回」を発話し、音声指示認識回路１０６で入力された音声の認識処理を行う。前記のごとく、「もう一回」という予め登録された語彙であると認識されると、人名発話を受け付けるステップ（ステップＳ６０２）に戻り、新しい人名の発話を受け付ける状態となる。

図７に、音声指示認識回路１０６で実行される音声認識処理の一例を示す。この音声認識処理のプロセスは、特に限定されるものではないが、本実施形態では、前記第１の実施形態と同様に、隠れマルコフモデル（ＨＭＭ）による処理プロセスを利用している。この音声認識処理が実行されると、まずマイクロフォン１０３で検知された音声を、フーリエ変換もしくはウェーブレット変換でデジタル化されたスペクトルに変換し、そのスペクトルに線形予測分析やケプストラム分析等の音声モデル化手法を用いることによって音声データの特徴化を行う。次に、この特徴化された音声データに対し、予め音声認識処理で読み込んだ語彙ネットワーク１２０に登録されている個々の登録語の音響モデル１２１の尤度をビタビアルゴリズムで計算する。ここで登録語は、音声単位の直列接続（音声単位ラベル系列）に対応するＨＭＭの直列接続ネットワークでモデル化され、語彙ネットワーク１２０は、登録語彙リストに登録されている登録語群に対応する直列接続ネットワーク群としてモデル化されている。また、各登録語は、音素等の音声単位で構成されており、その音声単位ごとに尤度が算出され、利用者の発話終了が確認された時点で、登録語彙リストの中から尤度の積算値が最大である単語を検出し、その登録語を音声に含まれていると認知した登録語として出力する。

また、前記第１実施形態と同様に、不要語を認識するための仮想的なモデル２３が登録語の語彙ネットワーク１２０と並列に設けられている。これにより、登録語を含まない発話や雑音、つまり不要語が音声として入力されたときには、その不要語に対応する仮想的なモデル２３の尤度が登録語の尤度よりも大きく算出され、不要語が入力されたと判断されて、登録語を含まない発話等が登録語として誤認識されることが防止される。

図２７は、中央制御回路１０８で実行される処理であって、利用者が電話番号を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。つまり図２７は、電話番号による発呼動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ７０１では、オンフックの状態を検出することにより、音声通話ユニット１０２の初期状態を確認し、電話発呼を受け付ける状態であることを確認する。具体的には、音声通話ユニット１０２から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には（ＹＥＳ）ステップＳ７０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

前記ステップＳ７０２では、任意の電話番号を受け付ける電話番号確認モードであるか否かを判定し、電話番号確認モードである場合には（ＹＥＳ）ステップＳ７０４に移行し、そうでない場合には（ＮＯ）ステップＳ７０３に移行する。
前記ステップＳ７０３では、マイクロフォン１０３で検出された音声を読み込み、その音声に含まれる登録語である電話番号を受け付けるための予め登録された音声コマンドが含まれていることを音声指示認識回路１０６に認識させ、その音声コマンドが認識された場合、前記ステップＳ７０４に移行する。そして、任意の電話番号を受け付ける電話番号認識モードであるかどうかの確認を利用者が行い、人名認識モード等、電話番号認識モード以外であれば、電話番号を受け付けるための予め登録された音声コマンドを発話する。

前記ステップＳ７０４では、まず、登録語彙リストとして、任意の電話番号に相当する桁数に応じた連続数字を認識するための番号語彙リストを読み込む。次に、図２８に示すように、電話番号の発話を促すメッセージをＬＣＤ表示装置１０９に表示させる。そして、マイクロフォン１０３で検出された音声を読み込み、その音声に含まれる登録語である連続数字が含まれているか音声指示認識回路１０６で認識する。例えば「番号で電話」が前記電話番号を受け付けるための登録された音声コマンドとする。利用者は、「番号で電話」と発話すると、マイクロフォン１０３を通して、音声指示認識回路１０６で入力音声の認識を行い、「番号で電話」と認識されると、音声指示認識回路１０６では、登録語彙リストとして、任意の電話番号を認識できる番号語彙リストを音声指示認識回路のメモリ内にアップロードすることによって、電話番号を受け付けるモードに入る。ここで、利用者は、「０３−３３５６−１２３４」（「−」は発音しない）等、希望する電話番号を連続して発話することにより、音声認識させる。

ここで、任意の電話番号を認識できる番号語彙リストとは、電話が使用される国、地域、電話通信方式、相手先の国、地域、電話方式によって、いくつかパターン化した連続数字列からなるものを意味し、例えば、日本国内から日本国内の固定電話機に電話をかける場合であれば、「０−市外局番−市内局番−加入者番号」のパターンとなり、合計１０桁（一部の地域で９桁）の連続数字列群からなる番号語彙リストを用意する。なお、市外局番と市内局番との間あるいは市内局番と加入者番号との間に、「の」や無声の間を表す音声単位を電話番号パターンに挿入することで、電話番号を発話する発話者の冗長性にも対応することが可能である。

また、日本国内から日本国内の携帯電話やＰＨＳに電話をかける場合であれば、「０Ａ０（Ａは０以外の単数字）」で始まる合計１１桁の連続数字列群からなる語彙リストを用意する。その他、総務省が電話会社ごとに指定している数字列パターンに従った数字列群からなる専用の番号語彙リストも用意する。表２に総務省が発表している日本国内における電話番号パターンのリストを示す。
このように、本実施形態では、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。ちなみに、電話番号を１桁ずつ認識させる方法では、全桁を正しく認識させようとすると、多くの時間がかかってしまう。

各番号語彙リストの音声認識回路１０６へのアロケーション方法は、その音声認識回路１０６で採用される音声認識エンジンの認識精度に応じた方法が適宜採用される。その一つの方法として、音声認識用のマイクロフォン１０３で数字列が音声入力されたときに、その数字列の先頭から認識される数字列（３〜４桁）のパターンを動的に判断し、そのパターンが認識されると同時に選択可能な番号語彙リストへ動的にアロケーションする方法が挙げられる。この方法によれば、例えば、「０（ゼロ）」から始まる電話番号として、最初の３桁の数字列において、１桁目と３桁目とに「０（ゼロ）」の数字が認識されると、日本国内では、携帯電話やＰＨＳ等の電話番号のパターンであるとして、この後に続く数字列を認識するために、８桁の数字列（トータル１１桁）あるいは、特徴的な番号列を認識する番号語彙リストがアロケーションされる。

また、他の方法として、静的に全ての番号語彙リストを一度、音声認識回路１０６に読み込んでおき、利用者によって入力される電話番号の先頭から順に、どの数字と適合するかの尤度計算を経時的な平均値として算出することによって、可能性のあるパターン数個だけを候補として残して、それ以外のパターンは演算から除外し、最終的に発話区間の検出が終了した時点で、どの番号パターンへの尤度が高かったかを算出することによって、確からしい番号の決定する方法等が挙げられる。これらの方法により、膨大な数字列候補の中から、まずパターンによる絞り込みを掛けることで、認識精度の向上と認識に必要な演算量の負荷の低減を実現し、利用者は電話番号として必要な全桁数を連続して発話認識させることが可能となっている。
前記ステップＳ７０５では、前記ステップＳ７０４で認識された電話番号をＬＣＤ表示装置１０９に表示させると共に、その認識結果を応答音声制御回路１１０に伝達し、その電話番号をスピーカ１０５に報知させる。

次にステップＳ７０６に移行して、まずＬＣＤ表示装置１０９にプロセスを進めることを指示する単語、またはプロセスのやり直しを指示する単語の発話を促すメッセージを表示させる。次に、マイクロフォン１０３で検出された音声を読み込み、その音声に含まれる登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを音声指示認識回路１０６に認識させる。そして、マイクロフォン１０３で検出された音声に登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを判定し、プロセスを進めることを指示する単語が含まれている場合には（ＹＥＳ、ステップＳ７０６’）ステップＳ７０７に移行し、そうでない場合には（ＮＯ、ステップＳ７０６”）再び前記ステップＳ７０４に移行する。
前記ステップＳ７０７では、前記ステップＳ７０４で抽出された電話番号に対応するＡＴコマンドを音声指示情報メモリ１０７から呼び出し、そのＡＴコマンドを音声通話ユニット１０２に送信する。

図２９は、中央制御回路１０８で実行される処理であって、利用者が終了を意味する言葉を発話したことに応じてオフフック動作等を行う演算処理のフローチャートを示す。つまり図２９は、通話終了のためのオンフック動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ８０１では、オフフック状態を検出することにより、音声通話ユニット１０２の動作状態が通話モードあることを確認する。具体的には、音声通話ユニット１０２から状態信号を受け取ってオフフック状態であるか否かを判定し、オフフック状態である場合には（ＹＥＳ）ステップＳ８０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

前記ステップＳ８０２では、まず、登録語彙リストとして、通話中及び通話終了における必要な音声コマンドだけを予め登録した通話操作語彙リストを音声指示認識回路１０６内に読み込む。そして、マイクロフォン１０３で検出された音声を読み込み、その音声に含まれる登録語である通話を終了することを指示する音声コマンドが含まれているか音声指示認識回路１０６で認識する。

次にステップＳ８０３に移行して、回線切断を指示するＡＴコマンドを音声指示情報メモリ１０７から呼び出し、そのＡＴコマンドを音声通話ユニット１０２に送信する。そのため、通話を終了することを指示する音声コマンド、例えば「電話切って」と利用者が発話すると、マイクロフォン１０３を経由して、音声指示認識回路１０６で入力音声の認識を行い、「電話切って」と認識されると、中央制御回路１０８よりＡＴコマンド（ＡＴＨ）を使って、回線切断を指示する制御コードを音声通話ユニット１０２へ送信し、回線の切断を完了する。

図３０は、中央制御回路１０８で実行される処理であって、利用者が着信を意味する言葉を発話したことに応じてオフフック動作を行う演算処理のフローチャートを示す。つまり図３０は、着信時におけるオフフック動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップＳ９０１では、オンフック状態を検出することにより、音声通話ユニット１０２の動作状態が待機状態であることを確認する。具体的には、音声通話ユニット１０２から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には（ＹＥＳ）ステップＳ９０２に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。

前記ステップＳ９０２では、音声通話ユニット１０２から着信を知らせるリザルトコードを受け取ったか否かを判定し、リザルトコードを受け取った場合には（ＹＥＳ）着信信号を受けたことを報知するメッセージをＬＣＤ表示装置１０９に表示すると共に、その旨を応答音声制御回路１１０に伝達し、そのメッセージをスピーカ１０５に報知させてからステップＳ９０３に移行し、そうでない場合には（ＮＯ）このフローを繰り返す。つまり、音声通話ユニット１０２が着信を知らせる信号を受け取ると、音声認識ユニットの中央制御回路へ着信を受けたこと知らせるリザルトコードを送信する。着信信号を受けた音声認識ユニットは、ＬＣＤ画面表示装置に着信信号を受けたことを報知する内容を表示すると同時に、応答音声制御回路より、音声にて電話着信のアナウンスをスピーカ１より行う。このとき、着信信号の中に、相手先情報を含んでいれば、その情報とすでに人名語彙リストに登録された相手先との照合を行い、合致した相手先であれば、「○○○さんからの電話です」等とより詳細な情報を利用者へ報知することが音声及び画面表示で行うことが可能である。

さらに、相手先情報をメモリに記憶しておき、通話終了後に、「電話番号を登録しますか」等のアナウンスを行い、「新規登録」や「追加登録」等の予め登録している音声指示に関する語彙を発話指示させ、人名語彙リストに新たな相手先データを音声登録することも可能である。
前記ステップＳ９０３では、まず、登録語彙リストとして、話着信時の応答に関する着信操作語彙リストを音声指示認識回路１０６内に読み込む。次に、ＬＣＤ表示装置１０９にオフフックを指示する語彙、またはオンフックを指示する語彙の発話を促すメッセージを表示させる。また、マイクロフォン１０３で検出された音声を読み込み、その音声に含まれる登録語であるオフフックを指示する語彙が含まれているか音声指示認識回路１０６に認識させる。そして、マイクロフォン１０３で検出された音声に登録語であるオフフックを指示する語彙が含まれているか、またはオンフックを指示する語彙が含まれているかを判定し、オフフックを指示する語彙が含まれている場合には（ＹＥＳ、ステップＳ９０３’）ステップＳ９０４に移行し、オンフックを指示する語彙が含まれている場合には（ＮＯ、ステップＳ９０３”）ステップＳ９０５に移行する。つまり、音声指示認識回路１０６では、電話着信時の応答に関する着信操作語彙リストを読み込み、利用者は、状況に応じて電話に応じるかどうかの判断を行う。電話に出る場合は、予め登録されているオフフックを指示する語彙、例えば「電話取って」なる語彙を発話する。マイクロフォン１０３を経由して入力された音声は、音声指示認識回路により「電話取って」であるかどうかの認識判断を行う。

前記ステップＳ９０４では、オフフックを指示するＡＴコマンドを音声指示情報メモリ１０７から呼び出し、そのＡＴコマンドを音声通話ユニット１０２に送信する。つまり、「電話取って」との認識結果が得られると、中央制御回路１０８よりオフフックを指示するＡＴコマンド（ＡＴＡ）を音声通話ユニットへ送信し、通話状態のモードとし、マイク２とスピーカ２を使用して音声通話する。

一方、前記ステップＳ９０５では、オンフックを指示するＡＴコマンドを音声指示情報メモリ１０７から呼び出し、そのＡＴコマンドを音声通話ユニット１０２に送信する。つまり、電話に出たくない状況の場合は、予め登録されている回線切断を指示する言葉、例えば「電話切って」なる言葉を発話する。マイクロフォン１０３を経由して入力された音声は、音声指示認識回路により「電話切って」であるかどうかの認識判断を行う。そして、「電話切って」との認識結果が得られると、中央制御回路より回線切断を指示するＡＴコマンド（ＡＴＨ）を音声通話ユニットへ送信し、着信信号を切断する。

なお、音声認識ユニットの初期設定により、リンギングの回数が一定値に達すると、自動的にオフフックの制御コードを発信したり、あるいは、留守番電話モードとする制御コードを発信したりすることにより、利用者の希望に応じた対応ができる。
以上の一連の音声認識動作において、本発明の音声認識機能付き電話通信端末では、音声入力の有無に関係なく、音声指示認識回路１０６の内部処理では、常時、音声検出アルゴリズム（ＶＡＤ）が動作している。そして、このＶＡＤによって、マイクロフォン１０３から入力される雑音を含めたすべての音に対し、音声として未入力状態なのか、音声として入力継続中の状態なのか、音声として入力が終了した状態なのかといった判断を繰り返している。

これは、音声指示認識回路１０６では、常時、音声認識アルゴリズムを動作させているため、音声認識に不要な音や言葉まで入力されやすく、それらの不要な音や言葉を、不要なものであるとして認識して、誤動作しないようにリジェクション機能として設けられている。なお、不要な言葉を認識する方法としては、Ｈ．Ｂｏｕｌａｒｄ，Ｂ．ＤｈｏｏｒｅａｎｄＪ．−Ｍ．Ｂｏｉｔｅ，”ＯｐｔｉｍｉｚｉｎｇＲｅｃｏｇｎｉｔｉｏｎａｎｄＲｅｊｅｃｔｉｏｎＰｅｒｆｏｒｍａｎｃｅｉｎＷｏｒｄｓｐｏｔｔｉｎｇＳｙｓｔｅｍｓ，”Ｐｒｏｃ．ＩＣＡＳＳＰ，Ａｄｅｌａｉｄｅ，Ａｕｓｔｒａｌｉａ，ｐｐ．Ｉ−３７３−３７６，１９９４．等で提案されているガーベッジモデル法等を利用すればよい。

また、図２８に示すように、上記ＶＡＤの内部処理における３状態に応じて、つまり音声として未入力状態であるときに緑色となり、音声として入力継続中の状態であるときに黄色となり、音声として入力が終了した状態であるときに赤色となるタイミング報知用映像３０をＬＣＤ表示装置１０９の上側に表示する。また同時に、ＬＣＤ表示装置１０９の右端には、マイクロフォン１０３で検出された音声の大きさに応じて上方へ伸びる、つまり音声が大きいほど長くなるレベルメータ３１を表示する。そして、上記ＶＡＤの内部処理における３状態、つまりタイミング報知用映像３０を音声認識ユニット１０１のＬＣＤ表示装置６２に表示して、利用者に発話し始めるタイミングを報知することで、発話時の不要な音や言葉との音のかぶりを避けることを可能としており、結果として、物理的なボタン操作等が無く、音声入力を可能としている。また、マイクロフォン１０３で検出された音声の大きさをレベルメータ３１によって報知することで、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。

なお、本実施形態では、音声認識ユニット１０１のマイクロフォン１０３及びスピーカ１１３と音声通話ユニット１０２のマイクロフォン１１５及びスピーカ１１６とが音声入出力手段に対応し、音声指示認識回路１０６が音声認識手段に対応し、音声指示情報メモリ１０７が記憶手段に対応し、ＬＣＤ表示装置１０９が画面表示手段に対応し、中央制御回路１０８が制御手段に対応し、マイクロフォン１０３が音声検出手段に対応し、タイミング報知用映像３０が発話タイミング報知手段に対応し、レベルメータ３１が音量報知手段に対応する。

また、上記実施の形態は本発明の音声認識方法、リモートコントロール装置、情報端末装置及び電話通信端末の一例を示したものであり、装置の構成等を限定するものではない。
例えば、上記実施の形態では、リモートコントロール装置、情報端末装置及び電話通信端末をそれぞれ個別に形成する例を示したが、これに限られるものではなく、例えば前記第１実施形態のリモコン装置本体部１又は前記第３実施形態の電話通信端末に、第２実施形態の通信ユニット５２を取り付け、リモコン装置本体部１で音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を実行できるようにしてもよい。そのようにすれば、前記第２実施形態と同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。

また、例えば、前記第１実施形態のリモコン装置本体部１に、前記第３実施形態の音声通話ユニット１０２を取り付け、リモコン装置本体部１に音声認識を行わせ、その音声認識結果に基づいて電話操作を行えるようにしてもよい。そのようにすれば、前記第３実施形態と同様に、利用者が通話中であって、その通話のために音声通話ユニット１０２のマイクロフォン１１５及びスピーカ１１５が専有されている場合であっても、リモコン装置本体部１に音声を入力でき、音声通話ユニット１０２を制御させることができる。

さらに、例えば、前記第１実施形態のリモコン装置本体部１に、前記第２実施形態の通信ユニット５２と前記第３実施形態の音声通話ユニット１０２とを取り付け、リモコン装置本体部１に音声認識を行わせ、その音声認識結果に基づいて電話操作を行えるようにすると共に、その音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を実行できるようにしてもよい。そのようにすれば、前記第２実施形態同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされず、且つ、前記第３実施形態と同様に、利用者が通話中であって、その通話のために音声通話ユニット１０２のマイクロフォン１１５及びスピーカ１１５が専有されている場合であっても、リモコン装置本体部１に音声を入力でき、音声通話ユニット１０２を制御させることができる。

以上、説明したように、本発明に係る音声認識方法は、ビタビアルゴリズムによる照合過程において、登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、その尤度に基づいて前記登録語以外の音声を不要語として認識でき、前記登録語以外の音声が登録語として誤認識されることを防止できる。

また、本発明に係るリモートコントロール装置は、利用者の音声に含まれる認識対象語を前記音声認識方法を用いて認識するため、認識対象語以外の発話や雑音、つまり生活雑音に対して、リジェクション率が高く、誤動作、誤認識を防止することができる。
また、本発明に係る情報通信端末は、利用者の音声に含まれる登録語を前記音声認識方法を用いて認識するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、その尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。

また、本発明に係る電話通信端末は、常時音声認識を可能とする電話通信端末であって、発呼時、電話番号を代表するキーワードや任意の電話番号のどちらを発話しても、誤認識が少なく、また、電話番号自体の認識においては、１桁ずつの発話認識等、発呼者に発話制限をさせずに、連続番号発話で、認識できるようにし、さらに、受信時においても音声入力により、オフフックを可能とすることで、常時、送受信ともにハンズフリーの状態で電話操作が可能となる効果を有する。言いかえると、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有しているため、利用者が通話中であって、その通話のために通信ユニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ユニットに入力でき、通信ユニットを制御することができる。

また、本発明に係る音声認識装置は、登録語を認識可能な状態にあることを報知するため、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認識させることができる。
また、上記第１実施形態と同様な音声認識処理を用いるため、上記第１実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語モデル２３の尤度が大きく算出され、登録語の語彙ネットワーク２２の尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、電話通信端末の誤動作が防止される。

本発明の第１実施形態であるリモートコントロール装置のブロック図である。図１のリモートコントロール装置の概略構成図である。図２のリモートコントロール装置で実行される演算処理のフローチャートである。図３の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図３の演算処理で実行される音声認識処理を説明するための説明図である。図５の音声認識処理で用いられる語彙ネットワークを説明するための説明図である。図６の不要語モデルを、すべての音素モデルを平準化した仮想的な音素モデルとした語彙ネットワークを説明するための説明する説明図である。図６の不要語モデルを、母音を構成する音素群の自己ループとした語彙ネットワークを説明するための説明図である。図６の不要語モデルを、すべての音素モデルを平準化した仮想的な音素モデルと母音を構成する音素群の自己ループとを組み合わせたものとした語彙ネットワークを説明するための説明する説明図である。図６の不要語モデルを、母音を構成する音素群とした語彙ネットワークを説明するための説明図である。不要語モデルを用いない語彙ネットワークを説明するための説明図である。本発明の第２実施形態である情報端末装置のブロック図である。図１２の情報端末装置の概略構成図である。図１３の情報端末装置で実行される演算処理のフローチャートである。図１４の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図１３の情報端末装置で実行される演算処理のフローチャートである。図１３の情報端末装置で実行される演算処理のフローチャートである。図１７の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図１７の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図１３の情報端末装置で実行される演算処理のフローチャートである。図２０の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図１３の情報端末装置で実行される演算処理のフローチャートである。本発明の第３実施形態である音声認識機能付き電話通信端末のブロック図である。本発明の第３実施形態の変形例である音声認識機能付き電話通信端末のブロック図である。図２３の中央制御回路で実行される演算処理のフローチャートである。図２５の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図２３の中央制御回路で実行される演算処理のフローチャートである。図２７の演算処理でＬＣＤ表示装置に表示させる映像を説明するための説明図である。図２３の中央制御回路で実行される演算処理のフローチャートである。図２３の中央制御回路で実行される演算処理のフローチャートである。

符号の説明

１はリモコン装置本体部、２は赤外線発光部、３はマイクロフォン、４は増幅器、５はＡ／Ｄ変換器、６は音声指示認識回路、７は音声指示情報メモリ、８は中央制御回路、９はＩＲＥＤ駆動・制御回路、１０はＩＲＥＤコード情報メモリ、１１はＩＲＥＤ、１２はＬＣＤ表示装置、１３は応答音声制御回路、１４は応答音声用情報メモリ、１５はＤ／Ａ変換器、１６は増幅器、１７はスピーカ、１８はフォトセンサ、１９はフォトセンサインタフェース回路、２０は語彙ネットワーク、２１は登録語の音響モデル、２２は登録語の語彙ネットワーク、２３は不要語を認識するための仮想的なモデル

Claims

公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末において、
音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、
前記音声入出力手段は、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有していることを特徴とする電話通信端末。
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末であって、
音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、
前記記憶手段は、予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リストとを別々に備え、
発信・切断・着信に関するすべての電話操作が前記音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを特徴とする電話通信端末。
請求項１又は２に記載の電話通信端末において、電話番号の認識方法が、全桁数の連続発話の入力によって前記記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットワークを用いて所定の桁数の数字又は記号からなる数字列パターンを認識することを特徴とする電話通信端末。
請求項１から３のいずれか１項に記載の電話通信端末において、
前記画面表示手段は、発話タイミングを知らせる発話タイミング表示機能を有していることを特徴する電話通信端末。
請求項１から４のいずれか１項に記載の電話通信端末において、
前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも１つを実行する第２制御手段を備えたことを特徴とする電話通信端末。
請求項１から５のいずれか１項に記載の電話通信端末において、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルとしたことを特徴とする電話通信端末。
請求項１から５のいずれか１項に記載の電話通信端末において、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
前記不要語を認識するための音声単位ラベル系列は、母音の音素だけに対応する音素モデルの集合体であって、その集合体の終点から始点への自己ループを有する音響モデルとしたことを特徴とする電話通信端末。
請求項１から５のいずれか１項に記載の電話通信端末において、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルと、母音の音素だけで構成される自己ループ型のネットワーク構成の音響モデルとを並列に設けて構成したことを特徴とする電話通信端末。