JP2004053742A

JP2004053742A - 音声認識装置

Info

Publication number: JP2004053742A
Application number: JP2002208386A
Authority: JP
Inventors: Kenji Nakamura; 中村　賢二; Hiroshi Harada; 原田　博司; Yoshiyuki Ogata; 緒方　芳幸; Masakazu Tateyama; 立山　雅一; Tatsuhiro Goshima; 五島　龍宏; Yasuyuki Nishioka; 西岡　靖幸; Yoshiaki Kuroki; 黒木　義明
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-07-17
Filing date: 2002-07-17
Publication date: 2004-02-19
Also published as: US20040015356A1

Abstract

【課題】話者に意識させることなくトレーニングを行うことができ、使用して行くにつれて特定話者方式の認識率と認識スピードを高めることができる音声認識装置を提供することを目的とする。
【解決手段】入力装置３と、表示装置４と、入力装置３と表示装置４が接続され、全体制御を行う信号処理部５と、信号処理部５からの音声信号を分割した音響データと複数の単語音響データとを比較し、分割音響データに一致する単語音響データの識別情報を信号処理部５へ出力する音声認識処理部６とを有する不特定話者方式の音声認識装置であって、音声認識処理部６は、音素モデルから生成される単語音響データと話者が発した名前から生成される音響データとを逐次比較し、単語音響データに合致する音響データが生成されたとき、生成された音響データに対応する音響データ識別子をトレーニング信号として蓄積する。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、不特定話者の音声を認識する音声認識装置に関するものである。
【０００２】
【従来の技術】
近年、電話機やファクシミリ装置、カーナビゲーション装置などの情報処理装置であって、音声入力による本体操作が可能なものが製品化されるようになってきた。いわゆる音声認識技術を応用した製品群である。音声認識技術の方式は、話者を限定しない不特定話者方式（ｓｐｅａｋｅｒ　ｉｎｄｅｐｅｎｄｅｎｔ）と、話者を限定する特定話者方式（ｓｐｅａｋｅｒ　ｄｅｐｅｎｄｅｎｔ）との二つに大別される。不特定話者方式は、音声に含まれる言語的な特徴を抽出し、ニューラルネットワークに代表されるパターン認識技術を応用して話者の発話内容を推定するものである。ところが、話者の発話音声には各個人特有の声質があり、不特定の話者に対して安定した認識率や認識スピードを確保するためには、ＣＰＵの高性能化やメモリの大容量化を図る必要があり、結果として製品のコストアップにつながる。一方、特定話者方式は装置の初回使用時に話者自身の声質を登録（トレーニング）することが必要であり、不特定話者方式と比べると、話者への利便性に欠けると言う問題はあるが、不特定話者方式よりは安価で、認識率が高く、認識スピードが速い装置を構築することができる。このように両方式とも、一長一短の性能を持っており、また、認識する単語数が多くなれば成る程、ＣＰＵの高性能化やメモリの大容量化の必要性が生じてくる。音声認識処理では、あらかじめデータベースの形で音声認識装置内に保存された単語群の中から、話者が発声した単語に該当するものを識別し、結果を話者に返すことが基本的な動作となる。以下、図面を参照しながら従来の特定話者方式での音声認識装置についておおまかな動作説明を行う。
【０００３】
図９は特定話者方式を用いる従来の音声認識装置を示すブロック図であり、図１０は図９の音声認識処理部を示すブロック図、図１１は図１０の単語音響データ格納部を示すブロック図である。
【０００４】
図９〜図１１において、１はマイク（マイクロフォン）、２はスピーカ、３は各種データを入力するための入力装置、４は文字や図形を表示する表示装置、５は入力装置３および表示装置４が接続され、音声認識装置全体の制御を行う信号処理部、６は信号処理部５との間で情報のやり取りを行う音声認識処理部、７は信号処理部５からの音声信号を入力して音響データを出力する音響処理部、８は信号処理部５からの単語識別子と音響処理部７からの音響データを入力して単語識別子と単語音響データを出力する単語音響データ格納部、９は単語音響データ格納部８からの単語識別子と単語音響データを入力して選択された単語識別子を識別情報として出力する単語識別部である。
【０００５】
このように構成された音声認識装置について、その動作を説明する。
【０００６】
話者の発声した単語は、マイク１で電気信号へ変換され、信号処理部５へ入力される。信号処理部５では、入力された音声信号を音声認識処理部６での処理に適した形式の音声信号へ変換する。音声認識処理部６において、音響処理部７は、信号処理部５が出力する音声信号から音響的な特徴量を抽出し、音響データとして単語識別部９へと出力する。単語識別部９では、入力された音響データにもっとも一致するものを単語音響データ格納部８にあらかじめ保持されている音響データの中から探し出す。この結果一致した音響データに関連づけられた単語識別子が識別情報として信号処理部５へと戻される。信号処理部５では、音声認識の結果である識別情報によって話者の発声した単語を認識でき、それに基づいて装置の適切な処理制御を実施したり、表示装置４を介して話者に認識結果をフィードバックする。入力装置３は、話者が認識結果の確認を行うためのキー入力や装置全体の制御を行うための一般的な入力装置である。
【０００７】
前述したように話者特定方式においては単語音響データはトレーニングによって生成される。したがって、装置の初期状態では単語音響データは未定義の状態であるため、音声認識処理の前にこのトレーニングが必須となる。トレーニングとは、話者が認識対象であるすべての単語について発声を行い、それを単語音響データ格納部８に登録する処理である。トレーニングにおいて、話者が発声した特定の認識対象の単語は、マイク１により入力され、信号処理部５によって音声信号に変換されるが、このとき個々の認識対象単語を区別するための単語識別子が付加される。信号処理部５からの音声信号は、音響処理部７で音響データに変換され、単語音響データ１１として単語識別子１０とともに単語音響データ格納部８へ供給される。単語音響データ格納部８ではこの単語音響データ１１と単語識別子１０が互いに関連付けて格納される。こうして全ての音声認識対象の単語に対して同様のトレーニングを繰り返すことにより初めて音声認識が可能になる。
【０００８】
図１２は不特定話者方式を用いる従来の音声認識装置を示すブロック図であり、図１３は図１２の音声認識処理部６を示すブロック図、図１４は図１３の単語辞書格納部を示すブロック図である。
【０００９】
図１２、図１３において、マイク１、スピーカ２、入力装置３、表示装置４、信号処理部５、音声認識処理部６、音響処理部７、単語識別部９は図９、図１０と同様のものなので、同一符号を付し、説明は省略する。１２は単語識別子と単語データを入力し単語辞書として格納する単語辞書格納部、１３は音素データを出力する音素モデル格納部、１４は単語辞書格納部１２からの単語識別子および単語データと音素モデル格納部１３からの音素データとを入力して単語識別子と単語音響データとから成る言語モデルを作成し格納する言語モデル作成格納部である。
【００１０】
このように構成された音声認識装置について、その動作を説明する。
【００１１】
不特定話者方式での音声認識では、単語辞書格納部１２には何も格納されておらず、話者は、使用に当り入力装置３を使い単語データを入力する必要がある。入力された単語データは、信号処理部５に入力され、信号処理部５で単語識別子を付加され、音声認識処理部６の単語辞書格納部１２に入力され保持される。話者の発声した単語は、マイク１で電気信号へ変換され、信号処理部５へ入力される。信号処理部５では、入力された音声信号を音声認識処理部６での処理に適した形式の音声信号へ変換する。音声認識処理部６の音響処理部７は、この音声信号から音響的な特徴量を抽出し音響データとして単語識別部９へと出力する。一方、音素モデル格納部１３には、通常使用される国の言語に合わせた音素モデルが音素データとして格納されており、認識動作が開始されると同時に言語モデル作成格納部１４に音素データが入力される。
【００１２】
言語モデル作成格納部１４では、入力された単語データと音素データで単語音響データを生成し、単語識別子と共に単語識別部９へ出力する。また、これを単語辞書格納部１２に格納された単語データ全てにおいて繰り返す。単語識別部９では、入力された音響データにもっとも一致するものを言語モデル作成格納部１４で順次作成される単語音響データの中から探し出す。この結果一致した単語音響データに関連づけられた単語識別子が識別情報として信号処理部５へと戻される。信号処理部５では、音声認識の結果である識別情報によって話者の発声した単語を認識でき、それに基づいて装置の適切な処理制御を実施したり、表示装置４を介して話者に認識結果をフィードバックする。入力装置３は、話者が認識結果の確認を行うためのキー入力や装置全体の制御を行うための一般的な入力装置である。
【００１３】
このように、不特定話者方式での音声認識装置では、単語辞書それぞれについて音素モデルより単語音響データを生成するため、処理速度の高速化やメモリの大容量化が求められ、また、特定話者方式での音声認識に比べ、認識率、認識スピードが劣ると言った不具合がある。
【００１４】
【発明が解決しようとする課題】
このように、従来の音声認識装置においては、特定話者方式では、認識率が高く認識スピードが速いと言う利点はあるものの、トレーニング作業を行う必要があり、話者に負担がかかるという問題点を有していた。一方、不特定話者方式では、トレーニング作業が不要と言う利点はあるものの、認識率が低く認識スピードが遅いという問題点を有していた。このように、両方式とも一長一短あり、利便性に欠ける等の問題点を有していた。
【００１５】
この音声認識装置では、電話による会話の最初に相手の名前が発せられる頻度が高いことを利用して、話者に意識させることなくトレーニングを行うことができ、使用して行くにつれて特定話者方式の認識率が向上し、認識スピードが高速化することが要求されている。
【００１６】
本発明は、この要求を満たすため、話者に意識させることなくトレーニングを行うことができ、使用して行くにつれて特定話者方式の認識率と認識スピードを高めることができる音声認識装置を提供することを目的とする。
【００１７】
【課題を解決するための手段】
上記課題を解決するために本発明の音声認識装置は、キーボードなどの入力装置と、認識結果を表示する表示装置と、入力装置と表示装置が接続され、音声認識装置全体の制御を行う信号処理部と、信号処理部より入力された音声信号を分割した音響データと内部で保持している複数の単語音響データとを比較し、分割した音響データに一致する単語音響データの単語識別子を含む識別情報を音声認識の結果として信号処理部へ出力する音声認識処理部とを有する不特定話者方式の音声認識装置であって、音声認識処理部は、既に登録されている音素モデルから生成される単語音響データと話者が発した名前から生成される音響データとを逐次比較し、単語音響データに合致する音響データが生成されたとき、生成された音響データに対応する音響データ識別子をトレーニング信号として蓄積する構成を備えている。
【００１８】
これにより、話者に意識させることなくトレーニングを行うことができ、使用して行くにつれて特定話者方式の認識率と認識スピードを高めることができる音声認識装置が得られる。
【００１９】
【発明の実施の形態】
本発明の請求項１に記載の音声認識装置は、キーボードなどの入力装置と、認識結果を表示する表示装置と、入力装置と表示装置が接続され、音声認識装置全体の制御を行う信号処理部と、信号処理部より入力された音声信号を分割した音響データと内部で保持している複数の単語音響データとを比較し、分割した音響データに一致する単語音響データの単語識別子をを含む識別情報音声認識の結果として信号処理部へ出力する音声認識処理部とを有する不特定話者方式の音声認識装置であって、音声認識処理部は、既に登録されている音素モデルから生成される単語音響データと話者が発した名前から生成される音響データとを逐次比較し、単語音響データに合致する音響データが生成されたとき、生成された音響データに対応する音響データ識別子をトレーニング信号として蓄積することとしたものである。
【００２０】
この構成により、話者に意識させずにトレーニングを行うことができるので、話者の負担になるトレーニングを排除することができ、また、不特定話者方式でありながら、特定話者方式の特徴である高い認識率と認識スピードを得ることができるという作用を有する。
【００２１】
請求項２に記載の音声認識装置は、請求項１に記載の音声認識装置において、信号処理部は、名前が発音される前後の言葉を記憶するメモリ部を有し、名前の前の言葉を開始信号、後の言葉を終了信号とすることとしたものである。
【００２２】
この構成により、名前が発音される前後の言葉の一致度が向上し、トレーニング精度を更に向上させることができるという作用を有する。
【００２３】
請求項３に記載の音声認識装置は、請求項２に記載の音声認識装置において、信号処理部は、日本語において名前の前に必ず存在する無音を記憶するメモリ部を有し、無音を検知して開始信号とすることとしたものである。
【００２４】
この構成により、無音を名前の開始信号とすることができるので、メモリ部における必要メモリ量を低減することができると共に、名前のトレーニング精度を更に向上させることができるという作用を有する。
【００２５】
請求項４に記載の音声認識装置は、請求項３に記載の音声認識装置において、信号処理部は、無音を検知する検知部と、検知した無音を開始信号とする制御部とを有することとしたものである。
【００２６】
この構成により、無音検知を信号処理部で行うので、音声認識処理部の負荷を軽減することができ、音声認識処理部におけるトレーニング処理をより向上させることができるという作用を有する。
【００２７】
請求項５に記載の音声認識装置は、請求項４に記載の音声認識装置において、信号処理部は、無音検知のためのスレッショールドレベルを検知部に設けることとしたものである。
【００２８】
この構成により、雑音による誤動作発生を防ぐことができるという作用を有する。
【００２９】
請求項６に記載の音声認識装置は、請求項１に記載の音声認識装置において、音声認識処理部は、単語を単語辞書格納部に格納する際、単語の先頭部分とその他の部分に分け、先頭部分が同じ物をグループ化して格納することとしたものである。
【００３０】
この構成により、先頭部分が同じグループのみを言語モデル化して識別を行うようにすることができるので、識別動作の高速化を図ることができ、単語辞書格納部のメモリ量の削減を図ることができるという作用を有する。
【００３１】
請求項７に記載の音声認識装置は、請求項６に記載の音声認識装置において、音声認識処理部は、あらかじめ単語辞書格納部内の先頭文字と音素モデルから先頭文字の単語音響データを作成し、言語モデル作成格納部に格納することとしたものである。
【００３２】
この構成により、単語辞書格納部からの単語データの呼び出しや言語モデル作成格納部からの音素データの呼び出し、またそれらによる単語音響データの作成時間を省くことができ、更なる高速化が図れるという作用を有する。
【００３３】
請求項８に記載の音声認識装置は、請求項６に記載の音声認識装置において、音声認識処理部は、単語辞書の構成を先頭文字と姓と名前とにブロック分けすることとしたものである。
【００３４】
この構成により、ブロック分けが更に進められ、使用メモリ量をさらに削減することができるという作用を有する。
【００３５】
請求項９に記載の音声認識装置は、請求項１に記載の音声認識装置において、音声認識処理部は、言語モデル作成格納部に格納された各単語音響データに対して、使用されたとき単語識別部より出力される一致度で一番高いものに頻度１を与え、使用のたびに加算して重み付けを行うこととしたものである。
【００３６】
この構成により、重み付けの高い順に単語音響データを並べ替えることができるので、音声認識時の高速化を図ることができるという作用を有する。
【００３７】
請求項１０に記載の音声認識装置は、請求項９に記載の音声認識装置において、音声認識処理部は、或る任意の頻度以上の単語音響データのみを使って認識動作を行わせることとしたものである。
【００３８】
この構成により、或る任意の値以下の頻度を持つ単語音響データは言語モデル作成格納部に出力しないので、音声認識における高速化を図ることができるという作用を有する。
【００３９】
請求項１１に記載の音声認識装置は、請求項９に記載の音声認識装置において、音声認識処理部は、使用頻度の高い順に任意の単語数ごとにブロック化し、使用頻度の高いブロックの単語音響データを出力させ、ブロック毎に表示させることとしたものである。
【００４０】
この構成により、使用頻度が低い音声が入力されても認識が可能で、またブロック毎の識別動作で表示する事により高速な認識動作を行うことができるという作用を有する。
【００４１】
請求項１２に記載の音声認識装置は、請求項９乃至１１のいずれか１に記載の音声認識装置において、信号処理部は時計機能を有し、音声認識処理部は信号処理部から通知される時刻に基づいて使用頻度を算出する期限を設けることとしたものである。
【００４２】
この構成により、使用頻度が最も高いものであっても期限外ならば低位に位置することができるので、ユーザに取って近似点で最も使用頻度が高いものから順に認識動作を行うようにすることができ、より高速化を図ることができるという作用を有する。
【００４３】
請求項１３に記載の音声認識装置は、請求項１に記載の音声認識装置において、信号処理部は、認識動作後に表示装置に表示された結果がユーザの意図する結果と異なった場合には異なったことを示す情報を内蔵するメモリ部に蓄積し、次ぎに同じ発音があった場合に、異なったことを示す情報をもとに、一度間違った情報は二度と表示装置に表示しないこととしたものである。
【００４４】
この構成により、一度間違った情報は二度と表示装置に表示しないので、ユーザにとっての利便性が向上するという作用を有する。
【００４５】
請求項１４に記載の音声認識装置は、請求項１に記載の音声認識装置において、信号処理部は、認識動作後に表示装置に表示された結果がユーザの意図する結果と異なった場合には異なったことを示す情報を音声認識処理部のメモリ部に蓄積し、次ぎに同じ発音があった場合に、異なったことを示す情報をもとに、一度間違った情報は二度と表示装置に表示しないこととしたものである。
【００４６】
この構成により、請求項１３と同様の作用を有すると共に、音声認識処理部のメモリ部に情報を蓄積するので、信号処理部の負荷およびメモリ量を減らすことができるという作用を有する。
【００４７】
請求項１５に記載の音声認識装置は、請求項１に記載の音声認識装置において、音声認識処理部は、仕向け地ごとの或る特定の言葉を単語辞書格納部にあらかじめ持たせることとしたものである。
【００４８】
この構成により、ユーザが装置を使用する最初に或る特定の言葉を発音して、自動的に言語を選択することができるという作用を有する。
【００４９】
以下、本発明の実施の形態について、図１〜図８を参照しながら説明する。
【００５０】
（実施の形態１）
図１は、本発明の実施の形態１による音声認識装置を示すブロック図であり、不特定話者方式での音声認識装置を示す。
【００５１】
図１において、マイク１、スピーカ２、入力装置３、表示装置４、信号処理部５、音声認識処理部６、音響処理部７、単語識別部９、単語辞書格納部１２、音素モデル格納部１３、言語モデル作成格納部１４は図１２、図１３と同様のものなので、同一符号を付し、説明は省略する。１６は音響データ識別子と音響データを格納するメモリ部である。
【００５２】
このように構成された音声認識装置について、電話機を例に取り、話者が意識しない自動トレーニングについて説明する。
【００５３】
通常、話者が他者に電話をかけた際、会話の最初に相手の名前が発せられる頻度は非常に高い傾向にある。例として、日本語では『もしもし中村ですが、松下さんを、お願いします。』、また英語では『Ｈｅｌｌｏｗ．　Ｔｈｉｓ　ｉｓ　Ｎａｋａｍｕｒａ．　Ｍｒ．Ｍａｔｓｕｓｈｉｔａ　Ｐｌｅａｓｅ．』などである。上記日本語の例を取り音声認識部の動作を説明すると、図１において『もしもし中村ですが、松下さんを、お願いします。』なる音声信号がマイク１より信号処理部５に入力される。この音声信号を入力した音響処理部７では、『もしもし中村ですが、松下さんを、お願いします。』の音声をある任意の時間間隔で『もし』『もし』『なか』『むら』『です』『が、』『まつ』『した』『さん』『を、』『おね』『がい』『しま』『す。』と分割し、分割した音響データ（単語音響データ）としてメモリ部１６に出力する。また、その分割した音響データそれぞれに対して、音響データ識別子が信号処理部５より割り振られる。メモリ部１６は、信号処理部５より入力された音響データ識別子に音響処理部７で生成された音響データを対応させ蓄積する。次に、メモリ部１６は、この蓄積された音響データとそれに対応する音響データ識別子を単語認識部９に出力する。
【００５４】
一方、単語辞書格納部１２では、現在電話をしている相手に相当する単語データ『まつした』が単語識別子よりすでに判明しているため、単語識別子と単語データを言語モデル作成格納部１４に出力する。これと同時に音素モデル格納部１３より音素データが言語モデル作成格納部１４に出力され、言語モデル作成格納部１４で単語音響データが作成され、単語識別子と共に、単語識別部９に出力される。単語識別部９では、言語モデル作成格納部１４から出力される単語音響データ『まつした』とメモリ部１６から出力される音響データ『もし』『もし』『なか』『むら』『です』『が、』『まつ』『した』『さん』『を、』『おね』『がい』『しま』『す。』を比較識別し、一致度が高い『まつ』『した』の音響データ識別子を識別情報として信号処理部５に出力する。信号処理部５は、一致度が高い『まつ』『した』の音響データ識別子と制御信号をメモリ部１６に出力し、メモリ部１６はこれを受け、言語モデル作成格納部１４に、音響データ識別子とこれに対応する音響データを出力する。言語モデル作成格納部１４では、入力された音響データ識別子を任意の識別子に置き換え、音響データは時間的に連続になるよう結合され格納保持する。このようにして次に話者が『松下』と発音した場合は、言語モデル作成格納部１４は、格納保持した単語音響データと単語識別子をまず最初に単語識別部９へ出力して認識動作を行わせ、或る任意の一致度以上の場合、単語識別部９は、単語識別子を含む識別情報を信号処理部５へ出力し、信号処理部５は、表示装置４に情報を出力する。或る任意の一致度以下の場合は、従来の音素モデルをもとに単語音響データを作成すると言う複雑な処理を行う。
【００５５】
以上により、不特定話者方式の音声認識装置でありながら、使用するにつれて認識率や認識スピードが向上して行き、話者にとって非常に利便性の優れた音声認識装置を得ることができる。
【００５６】
（実施の形態２）
本発明の実施の形態２による音声認識装置の構成は実施の形態１と同様、図１の構成である。
【００５７】
実施の形態１で説明したように不特定話者方式の音声認識装置で認識率や認識スピードを向上させることができたが、話者の『もしもし中村ですが、松下さんを、お願いします。』を『もし』『もし』『なか』『むら』『です』『が、』『まつ』『した』『さん』『を、』『おね』『がい』『しま』『す。』のように全て分割し処理するには、装置の処理能力が必要とされ、小さな組み込み装置では処理スピードに影響を及ぼす事が考えられる。この問題を解決するため、名前の前後に来る言葉に規則性があることを利用し、これをあらかじ登録しておき、前に来る言葉を開始信号、後に来る言葉を終了信号とする事により、よりトレーニングの精度をあげ処理スピードを向上させる。以下、その動作を説明する。
【００５８】
実施の形態１と同様に、『もしもし中村ですが、松下さんを、お願いします。』を例にとって説明すると、図１において『もしもし中村ですが、松下さんを、お願いします。』なる音声信号がマイク１より信号処理部５に入力される。信号処理部５では、『もしもし中村ですが、松下さんを、お願いします。』の音声を或る任意の時間間隔で『もし』『もし』『なか』『むら』『です』『が、』『まつ』『した』『さん』『を、』『おね』『がい』『しま』『す。』と分割し、メモリ部１６に出力する。また、その分割した音響データそれぞれに対して、音響データ識別子が信号処理部５より割り振られる。メモリ部１６は、信号処理部５より入力された音響データ識別子に音響処理部７で生成された音響データを対応させ蓄積する。次に、メモリ部１６は、この蓄積された音響データとそれに対応する音響データ識別子を単語認識部９に出力する。ここで、単語辞書格納部１２に、あらかじめ名前の前後に発生しやすい言語、例えば『が』に代表される助詞や『さん』に代表される敬称を登録しておき、音素モデル格納部１３から出力される音素データと共に言語モデル作成格納部１４の中で作成し格納しておく。メモリ部１６より『が』の音響データが単語識別部９に入力されたとき、単語識別部９は言語モデル作成格納部１４に作成蓄積されている単語音響データと音響データとで識別動作を行い、或る任意の一致度以上の結果があった場合、信号処理部５に対して識別情報を出力する。信号処理部５は、開始信号として登録している単語識別子と認識信号の比較を行い、一致した場合、これを開始信号として記憶する。終了信号においても同様な動作を行う。これによりトレーニングとして使用する『まつした』の前後の文字『が』、『さん』が特定でき、信号処理部５は開始信号の後と終了信号の前までの音響データを言語モデル作成格納部１４に出力させる制御信号をメモリ部１６に出力する。
【００５９】
これによりメモリ部１６より出力された『まつした』の音響データが言語モデル作成格納部１４に蓄積され、実施の形態１と同様の効果が得られると共に、実施の形態１よりもトレーニングの精度をあげ処理スピードを向上させた音声認識装置を得ることができる。
【００６０】
（実施の形態３）
実施の形態２では、助詞をもとに開始信号を検知し、トレーニングを行ったが、様々な種類の助詞が存在し、登録にはメモリ容量が必要である。この問題を解決するため、特に日本語においてトレーニングする名前の前には必ず休止期間が存在するため、これを認識して開始信号とする事により、より精度の高いトレーニングを行う。構成および動作は、実施の形態２とまったく同様で、単語辞書格納部１２に無音の単語データを登録し、言語モデル作成格納部１４に無音の単語音響データを作成格納しておく。例として、『もしもし中村ですが、松下さんを、お願いします。』において、『もしもし』の次に無音区間が入っても、『もしもし』で開始信号、『中村ですが、』で開始信号、『松下さん』で終了信号、『を、』で開始信号、『お願いします。』で開始信号となり、信号のみに着目すると、開始信号→開始信号→終了信号→開始信号→開始信号となり、信号処理部５で、開始信号→開始信号、終了信号→開始信号を無視し、開始信号→終了信号の部分を検知すれば、トレーニングは可能となる。
【００６１】
このように、トレーニングの精度を向上させ、かつ、単語辞書格納部１２ならびに言語モデル作成格納部１４のメモリ量を削減した音声認識装置を得ることができる。
【００６２】
（実施の形態４）
実施の形態３では、休止期間の検知を音声認識処理部６で行ったが、より処理能力の低い装置に対応するためには、機器のソフト処理を軽減する必要がある。この問題を解決するため、検出部を信号処理部５に設けてハード処理で行うことにより、装置全体の負荷を軽減し、より高速な認識スピードを実現したものである。
【００６３】
図２、図３は、本発明の実施の形態４による音声認識装置を構成する信号処理部５の音声パス部を示すブロック図である。
【００６４】
図２、図３において、１７はフィルタ部、１８はゲインコントロール部、１９はＡ／Ｄ変換部、２０は制御部、２１は電圧レベル検知回路である。
【００６５】
このように構成された音声認識装置について、その動作を説明する。
【００６６】
マイク１に入力された音声は、アナログ音声信号のままフィルタ部１７に入力され、不要な信号成分を除去した後、ゲインコントロール部１８に入力される。ゲインコントロール部１８で任意のレベルに調整され、Ａ／Ｄ変換部１９に入力される。Ａ／Ｄ変換部１９でデジタル音声信号に変換され、次段の音響処理部７に入力される。本実施の形態では、図３の如く、フィルタ部１７とゲインコントロール部１８の間若しくはゲインコントロール部１８とＡ／Ｄ変換部１９の間に、又はＡ／Ｄ変換部１９の後に電圧レベル検知回路２１を設け、無音レベルを検知し、制御部２０に検知信号を出力する。制御部２０は、電圧レベル検知回路２１から出力される検知信号を受け、メモリ部１６に対して信号を出力する。以下は実施の形態３と同じ動作となる。
【００６７】
このようにして、処理能力を軽減させ、認識スピードがより向上した音声認識装置を得ることができる。
【００６８】
（実施の形態５）
実施の形態４では、開始信号をハード処理により検知し、装置の処理を軽減させたが、ハード的な検知なので、周辺のノイズに対し誤った検知を行う恐れが生じる。本実施の形態では、電圧レベル検知回路２１のアナログ部では検知電圧の閾値を持たせ、デジタル部では任意の値を持たせ、閾値以上の電圧若しくは任意の値以上の値を検知した場合にのみ、制御部２０に検知信号を出力する。
【００６９】
これにより、ノイズ耐性を向上させた音声認識装置を得ることができる。
【００７０】
（実施の形態６）
実施の形態１から実施の形態５までは、話者の認識率の向上や認識スピード向上またはトレーニング精度の向上を図り、話者の利便性向上を図ったが、より小さな処理能力の装置に対して更なる認識スピードの高速化を図る必要がある。本実施の形態では、この問題を解決するため、単語辞書格納部１２の格納の仕方を改善し、単語識別部９の識別速度を向上し、話者への利便性を向上する。構成、動作は図１の構成、動作と同じであり、単語辞書格納部１２をもとに、その構成ならびに単語の読み出し方について説明を行う。
【００７１】
図４は、単語辞書格納部１２における単語データの一般的な例を示すデータ図である。各単語にはそれぞれ話者が登録した名前が格納されており、認識動作が行われるに当り、上から順次に全て言語モデル作成格納部１４に出力されて行く。
【００７２】
図５は、本発明の実施の形態６における単語データの配置を示すデータ図である。図５においては、単語の先頭部分とその他の部分とに分けて格納し、先頭部分の文字が同じ物をグループ化する。以下、一連の動作を図１を使い説明すると、話者がマイク１に向かって一例として『まつした』と発音した場合、様々な処理を経て単語識別部９に入力される。これを受け、単語辞書格納部１２から音響データが順次出力されて行くが、まず、先頭文字のみを出力し、言語モデル作成格納部１４に入力される。言語モデル作成格納部１４では、音素モデル格納部１３から出力される音素データをもとに先頭文字のみの単語音響データを作成し、単語識別部９へ出力する。言語モデル作成格納部１４では、音響データが１文字であるため、短時間で単語音響データを作成する事が可能である。単語識別部９は、音響処理部７からの音響データを識別し、単語識別子を識別情報として出力する。これを受けた信号処理部５は、単語辞書格納部１２に対し、識別情報から判別されるグループ番号を出力し、単語辞書格納部１２は、言語モデル作成格納部１４に対し、特定のグループ番号のみの単語データを出力する。
【００７３】
以上のように、単語辞書格納部１２に登録されている特定のグループのみ音響データ化されるため、認識スピードが向上し、名前の格納の仕方により単語辞書格納部１２内のメモリ容量を削減した音声認識装置を得ることができる。
【００７４】
（実施の形態７）
実施の形態６では、単語辞書格納部１２から先頭文字を読み出して識別を行ったが、更なる高速化を図るため、あらかじめ単語辞書格納部１２内の先頭文字と音素モデルとから先頭文字の単語音響データを作成し、言語モデル作成格納部１４に格納しておき、識別動作時、単語辞書格納部１２からの単語データの呼び出しや音素モデル格納部１３からの音素データの呼出し、また、それらによる単語音響データの作成時間を省くことにより、更なる高速化が図れる。
【００７５】
（実施の形態８）
実施の形態６では、先頭文字のみ切り分けて単語辞書格納部１２に格納する構成としたが、単語辞書格納部１２の名前の登録内容は苗字だけではなく、名前も合わせて格納され、メモリ量が増大する恐れがある。本実施の形態は、この問題を解決するものであり、これを図６を用いて説明する。図６は苗字の先頭文字とその他の部分と名前とを分けて格納する場合を示すデータ図である。
【００７６】
図６に示すように、苗字の先頭文字とその他の部分と名前とを分けて格納するようにしたことにより、メモリ量を更に削減した音声認識装置を得ることができる。
【００７７】
（実施の形態９）
実施の形態１における単語辞書格納部１２から音響データを呼び出す方法は、単語辞書格納部１２のアドレスの高位から低位へ、若しくは低位から高位と全てに渡って単純に読み出しを行い、過去一度も使用されていないものまでも言語モデル化し識別しており、この場合は高い処理能力と時間が要求される。この問題を解決するため、単語識別部９の識別動作で生成出力される識別情報に含まれる一致度情報を利用し、信号処理部５で、一致度が一番高い単語識別子を持つ単語データのみに頻度１を与え使用のたびごとに加算して行き、信号処理部内５に格納、蓄積する。この蓄積した頻度情報をもとに、単語辞書格納部１２のメモリ（図示せず）に格納されている単語データを頻度順に並べ替え、次に識別動作を行う際、頻度の高い順に言語モデル作成格納部１４へ出力され、単語音響データに変換された後、単語識別部９で識別動作を行う。単語識別部９は識別情報を出力するが、信号処理部内５は入力された識別情報内の一致度を監視しつつ、或る任意の一致度以下になった場合は、それまで識別情報として蓄積した単語識別子にしたがった単語を表示装置４に出力させる。
【００７８】
このようにして使用頻度の高い単語から識別され、また、表示する単語データの頻度に閾値を設ける事により、より高速な認識動作を行える音声認識装置を得ることができる。
【００７９】
（実施の形態１０）
実施の形態９では、表示させる単語の選別を一致度で行ったが、本実施の形態では、使用頻度そのものに閾値を設け、或る任意の値以下の単語データは言語モデル作成格納部１４に出力しない事により、認識動作の高速化が図れる音声認識装置を得ることができる。
【００８０】
（実施の形態１１）
実施の形態９や実施の形態１０では、装置の使用頻度が高ければ良いが、低い場合には、登録したが表示されないという問題が発生する可能性がある。この問題を解決するため、使用頻度の高い順に任意の単語数ごとにブロック化し、頻度の高いブロックから音響データを出力させ、ブロック毎に表示させる事で、低い頻度の音声データが入力されても確実に表示できる音声認識装置を得ることができる。これを図７に示す。図７は、単語辞書格納部１２の単語データ配列を使用頻度の高い順に示すデータ図である。
【００８１】
（実施の形態１２）
実施の形態９、実施の形態１０や実施の形態１１では、過去に使用頻度が高いが現在はほとんど使用しない単語データがある場合、話者が目的とする単語をすぐに表示できないという問題がある。この問題を解決するため、信号処理部５に時計機能を有し、或る任意の時間が経過した頻度が高い単語データを頻度を下げ配置しなおすことにより、より高速な利便性に優れた音声認識装置を得ることができる。
【００８２】
（実施の形態１３）
不特定話者方式、特定方式を問わず、音声認識装置全般において、ある特定の言語に対して何度も誤認識を繰り返す傾向がある。この問題を解決するため、本実施の形態は、信号処理部５のメモリを使用することにより、一度誤った単語は二度と表示させないようにしたものである。以下、この動作の説明を行うが、本実施の形態による音声認識装置の構成は図１と同じ構成である。
【００８３】
図１にて、マイク１に音声が入力され、マイク１からのアナログ音声信号が信号処理部５に入力される。このアナログ音声信号は、信号処理部５では、最終的にＡ／Ｄ変換され、音響処理部７へデジタル音声信号として出力される。一方、この音声信号を信号処理部５のメモリに蓄積する。その後の動作として、実施の形態１で説明した一連の動作が行われ、単語識別部９は、単語識別子を含む識別情報を信号処理部５に出力する。信号処理部５は、単語識別子を含む識別情報を先にメモリに蓄積した音声信号と関連づけて蓄積する。この識別情報にもとづき表示装置４に単語データを表示させるが、表示装置４に話者の意図しない単語が表示された場合、話者は入力装置３にて表示を消す操作を必ず行う。この操作により信号処理部５はメモリに蓄積した識別情報と単語識別子が誤ったものであると認識し、誤ったことを示す情報も、先に蓄積した音声信号と単語識別子と関連づけて蓄積する。次に、別の機会に話者が前回と同じ発音をした場合、音声信号は前述と同様にＡ／Ｄ変換され、信号処理部５のメモリに蓄積される。信号処理部５はこのとき、以前蓄積した音声信号と同じであるか否かを判別する。同時に音声信号は、音響処理部７へ出力され、その後一連の処理の後、結果的に単語識別部９より単語識別子を含む識別情報が出力される。信号処理部５は、この単語識別子を認識し、前回蓄積した単語識別子と同一であるならば、再び誤認識をしたと判定し、表示装置４に対して単語識別子に対応する単語データの表示は出力せず、次に来る識別情報に含まれる単語識別子に基づいた単語データを表示させる。
【００８４】
このようにして話者が一度誤認識したと判定した単語データは二度と表示させないという利便性に優れた音声認識装置を得ることができる。
【００８５】
（実施の形態１４）
実施の形態１３では、信号処理部５のメモリを使用したが、信号処理部５は、表示装置４への表示や入力装置３の監視の他、様々な制御でメモリを使用しているため、信号処理部５のメモリだけでは容量が足らなくなる恐れがある。本実施の形態は、この問題を解決するため、音響処理部７に繋がるメモリ部１６を使用することにより、実施の形態１３と同じ効果を得るものである。以下その動作の説明を行うが、本実施の形態による音声認識装置の構成は図１の構成である。
【００８６】
マイク１に音声が入力され、マイク１からのアナログ音声信号は信号処理部５に入力される。このアナログ音声信号は、信号処理部５では最終的にＡ／Ｄ変換され、音響処理部７へデジタル音声信号として出力される。音響処理部７で特徴量を抽出し、特徴量はメモリ部１６と単語識別部９に出力され、メモリ部１６はこの特徴量を蓄積する。その後の動作として、実施の形態１で説明した一連の動作が行われ、単語識別部９は、単語識別子を含む識別情報を信号処理部５に出力する。信号処理部５は、この識別情報にもとづき、表示装置４に単語データを表示させるが、表示装置４に話者の意図しない単語が表示された場合、話者は入力装置３にて表示を消す操作を必ず行う。この操作により、信号処理部５は、メモリ部１６に蓄積した音響データと単語識別子が誤ったものであると認識し、それを記憶する。次に、別の機会に話者が前回と同じ発音をした場合、音声信号は前述と同様にＡ／Ｄ変換され、音響処理部７へ出力され、メモリ部１６に蓄積される。信号処理部５は、前回蓄積した音響データと今回蓄積した音響データとが同一であるか否かを判別する。この場合同じ言葉が発せられたので、信号処理部５は同一と判定する。その後の一連の処理の後、結果的に単語識別部９より単語識別子を含む識別情報が出力される。信号処理部５は、この単語識別子を認識し、前回蓄積した単語識別子と同一であるならば、再び誤認識をしたと判定し、表示装置４に対して、単語識別子に対応する単語データの表示は出力せず、次に来る識別情報に含まれる単語識別子に基づいた単語データを表示させる。
【００８７】
このようにして実施の形態１３と同様な効果が得られるが、信号処理部５の負荷を減らし、また、特徴量抽出後のデータであるため、より少ないメモリ量で実現できる音声認識装置を得ることができる。
【００８８】
（実施の形態１５）
音声認識技術を使った装置が各国に広まる中、製造メーカは製造コスト削減のため、仕向け地全ての音素モデルを機器に搭載し、ユーザのキー操作で言語にあった音素モデルを選択する必要がある。しかしながら、今後の音声認識技術と音声合成技術のレベルが進むと、全くキーを持たない装置（つまり入力装置の無い装置）が出てくることが予想され、音素モデルを製造メーカ側で仕向け地に従い搭載しなければならなくなり、製造コストのアップに繋がる。本実施の形態は、この問題を解決するため、仕向け地ごとのある特定の言葉に対して、その言葉を単語辞書格納部１２にあらかじめ持たせることによって、また、音素モデル格納部１３を信号処理部から制御する事によって、ユーザが機器を使用する最初にその言葉を発音する事により自動的な言語選択を可能にするのもである。以下、その動作について図８を参照しながら説明を行う。
【００８９】
図８は、本発明の実施の形態１５による音声認識装置を示すブロック図である。図８の構成が図１と異なるところは、図８では図１の入力装置３が無い点である。
【００９０】
音声認識装置が製品として出荷され話者が使用する前は、通常、単辞書格納部１２には、何もデータがない。また、音素モデルには、それぞれ各国の音素データが格納されている。本実施の形態では、単語辞書格納部１２に、あらかじめ各国の任意の同じ意味の言葉、例えば日本語では『いち』、英語では『Ｏｎｅ』、ドイツでは『Ｅｉｎｅ』等を製品出荷時に格納しておく。話者（ユーザ）は、製品を入手した後、日本語の数字の『いち』に相当する言葉をマイク１より各国の言葉で入力する事によって、これまで説明してきたと同様な動作を繰り返し、単語識別部９よりどの国の言語かの識別情報が出力され、信号処理部５に入力される。信号処理部５は、音素モデル格納部１３に対し、制御信号を出力し、音素モデル格納部１３は、該当する言語に対応する音素モデルが格納されている部分以外のゲートを閉じ、該当する言語に対応する音素モデルのみを出力して行く。また、他の言語に変更する時は、選択された言語で特定の言葉を入力すると、一連の動作により、信号処理部５から制御信号が出力され、音素モデル格納部１３の全ての言語のゲートが開き、変更が行える。
【００９１】
以上により、入力装置を持たない装置においても言語選択が可能な音声認識装置を得ることができる。
【００９２】
【発明の効果】
以上説明したように本発明の請求項１に記載の音声認識装置によれば、キーボードなどの入力装置と、認識結果を表示する表示装置と、入力装置と表示装置が接続され、音声認識装置全体の制御を行う信号処理部と、信号処理部より入力された音声信号を分割した音響データと内部で保持している複数の単語音響データとを比較し、分割した音響データに一致する単語音響データの単語識別子をを含む識別情報音声認識の結果として信号処理部へ出力する音声認識処理部とを有する不特定話者方式の音声認識装置であって、音声認識処理部は、既に登録されている音素モデルから生成される単語音響データと話者が発した名前から生成される音響データとを逐次比較し、単語音響データに合致する音響データが生成されたとき、生成された音響データに対応する音響データ識別子をトレーニング信号として蓄積することにより、話者に意識させずにトレーニングを行うことができるので、話者の負担になるトレーニングを排除することができ、また、不特定話者方式でありながら、特定話者方式の特徴である高い認識率と認識スピードを得ることができるという有利な効果が得られる。
【００９３】
請求項２に記載の音声認識装置によれば、請求項１に記載の音声認識装置において、信号処理部は、名前が発音される前後の言葉を記憶するメモリ部を有し、名前の前の言葉を開始信号、後の言葉を終了信号とすることにより、名前が発音される前後の言葉の一致度が向上し、トレーニング精度を更に向上させることができるという有利な効果が得られる。
【００９４】
請求項３に記載の音声認識装置によれば、請求項２に記載の音声認識装置において、信号処理部は、日本語において名前の前に必ず存在する無音を記憶するメモリ部を有し、無音を検知して開始信号とすることにより、無音を名前の開始信号とすることができるので、メモリ部における必要メモリ量を低減することができると共に、名前のトレーニング精度を更に向上させることができるという有利な効果が得られる。
【００９５】
請求項４に記載の音声認識装置によれば、請求項３に記載の音声認識装置において、信号処理部は、無音を検知する検知部と、検知した無音を開始信号とする制御部とを有することにより、無音検知を信号処理部で行うので、音声認識処理部の負荷を軽減することができ、音声認識処理部におけるトレーニング処理をより向上させることができるという有利な効果が得られる。
【００９６】
請求項５に記載の音声認識装置によれば、請求項４に記載の音声認識装置において、信号処理部は、無音検知のためのスレッショールドレベルを検知部に設けたことにより、雑音による誤動作発生を防ぐことができるという有利な効果が得られる。
【００９７】
請求項６に記載の音声認識装置によれば、請求項１に記載の音声認識装置において、音声認識処理部は、単語を単語辞書格納部に格納する際、単語の先頭部分とその他の部分に分け、先頭部分が同じ物をグループ化して格納することにより、先頭部分が同じグループのみを言語モデル化して識別を行うようにすることができるので、識別動作の高速化を図ることができ、単語辞書格納部のメモリ量の削減を図ることができるという有利な効果が得られる。
【００９８】
請求項７に記載の音声認識装置によれば、請求項６に記載の音声認識装置において、音声認識処理部は、あらかじめ単語辞書格納部内の先頭文字と音素モデルから先頭文字の単語音響データを作成し、言語モデル作成格納部に格納することにより、単語辞書格納部からの単語データの呼び出しや言語モデル作成格納部からの音素データの呼び出し、またそれらによる単語音響データの作成時間を省くことができ、更なる高速化が図れるという有利な効果が得られる。
【００９９】
請求項８に記載の音声認識装置によれば、請求項６に記載の音声認識装置において、音声認識処理部は、単語辞書の構成を先頭文字と姓と名前とにブロック分けすることにより、ブロック分けが更に進められ、使用メモリ量をさらに削減することができるという有利な効果が得られる。
【０１００】
請求項９に記載の音声認識装置によれば、請求項１に記載の音声認識装置において、音声認識処理部は、言語モデル作成格納部に格納された各単語音響データに対して、使用されたとき単語識別部より出力される一致度で一番高いものに頻度１を与え、使用のたびに加算して重み付けを行うことにより、重み付けの高い順に単語音響データを並べ替えることができるので、音声認識時の高速化を図ることができるという有利な効果が得られる。
【０１０１】
請求項１０に記載の音声認識装置によれば、請求項９に記載の音声認識装置において、音声認識処理部は、或る任意の頻度以上の単語音響データのみを使って認識動作を行わせることにより、或る任意の値以下の頻度を持つ単語音響データは言語モデル作成格納部に出力しないので、音声認識における高速化を図ることができるという有利な効果が得られる。
【０１０２】
請求項１１に記載の音声認識装置によれば、請求項９に記載の音声認識装置において、音声認識処理部は、使用頻度の高い順に任意の単語数ごとにブロック化し、使用頻度の高いブロックの単語音響データを出力させ、ブロック毎に表示させることにより、使用頻度が低い音声が入力されても認識が可能で、またブロック毎の識別動作で表示する事により高速な認識動作を行うことができるという有利な効果が得られる。
【０１０３】
請求項１２に記載の音声認識装置によれば、請求項９乃至１１のいずれか１に記載の音声認識装置において、信号処理部は時計機能を有し、音声認識処理部は信号処理部から通知される時刻に基づいて使用頻度を算出する期限を設けたことにより、使用頻度が最も高いものであっても期限外ならば低位に位置することができるので、ユーザに取って近似点で最も使用頻度が高いものから順に認識動作を行うようにすることができ、より高速化を図ることができるという有利な効果が得られる。
【０１０４】
請求項１３に記載の音声認識装置によれば、請求項１に記載の音声認識装置において、信号処理部は、認識動作後に表示装置に表示された結果がユーザの意図する結果と異なった場合には異なったことを示す情報を内蔵するメモリ部に蓄積し、次ぎに同じ発音があった場合に、異なったことを示す情報をもとに、一度間違った情報は二度と表示装置に表示しないことにより、一度間違った情報は二度と表示装置に表示しないので、ユーザにとっての利便性が向上するという有利な効果が得られる。
【０１０５】
請求項１４に記載の音声認識装置によれば、請求項１に記載の音声認識装置において、信号処理部は、認識動作後に表示装置に表示された結果がユーザの意図する結果と異なった場合には異なったことを示す情報を音声認識処理部のメモリ部に蓄積し、次ぎに同じ発音があった場合に、異なったことを示す情報をもとに、一度間違った情報は二度と表示装置に表示しないことにより、請求項１３と同様の有利な効果が得られると共に、音声認識処理部のメモリ部に情報を蓄積するので、信号処理部の負荷およびメモリ量を減らすことができるという有利な効果が得られる。
【０１０６】
請求項１５に記載の音声認識装置によれば、請求項１に記載の音声認識装置において、音声認識処理部は、仕向け地ごとの或る特定の言葉を単語辞書格納部にあらかじめ持たせることにより、ユーザが装置を使用する最初に或る特定の言葉を発音して、自動的に言語を選択することができるという有利な効果が得られる。
【図面の簡単な説明】
【図１】本発明の実施の形態１による音声認識装置を示すブロック図
【図２】本発明の実施の形態４による音声認識装置を構成する信号処理部の音声パス部示すブロック図
【図３】本発明の実施の形態４による音声認識装置を構成する信号処理部の音声パス部示すブロック図
【図４】単語辞書格納部における単語データの一般的な例を示すデータ図
【図５】本発明の実施の形態６における単語データの配置を示すデータ図
【図６】苗字の先頭文字とその他の部分と名前とを分けて格納する場合を示すデータ図
【図７】単語辞書格納部の単語データ配列を使用頻度の高い順に示すデータ図
【図８】本発明の実施の形態１５による音声認識装置を示すブロック図
【図９】特定話者方式を用いる従来の音声認識装置を示すブロック図
【図１０】図９の音声認識処理部を示すブロック図
【図１１】図１０の単語音響データ格納部を示すブロック図
【図１２】不特定話者方式を用いる従来の音声認識装置を示すブロック図
【図１３】図１２の音声認識処理部を示すブロック図
【図１４】図１３の単語辞書格納部を示すブロック図
【符号の説明】
１　マイク
２　スピーカ
３　入力装置
４　表示装置
５　信号処理部
６　音声認識処理部
７　音響処理部
９　単語識別部
１２　単語辞書格納部
１３　音素モデル格納部
１４　言語モデル作成格納部
１６　メモリ部
１７　フィルタ部
１８　ゲインコントロール部
１９　Ａ／Ｄ変換部
２０　制御部
２１　電圧レベル検知回路

Claims

キーボードなどの入力装置と、認識結果を表示する表示装置と、前記入力装置と前記表示装置が接続され、音声認識装置全体の制御を行う信号処理部と、前記信号処理部より入力された音声信号を分割した音響データと内部で保持している複数の単語音響データとを比較し、前記分割した音響データに一致する単語音響データの単語識別子を含む識別情報を音声認識の結果として前記信号処理部へ出力する音声認識処理部とを有する不特定話者方式の音声認識装置であって、
前記音声認識処理部は、既に登録されている音素モデルから生成される単語音響データと話者が発した名前から生成される音響データとを逐次比較し、前記単語音響データに合致する前記音響データが生成されたとき、前記生成された音響データに対応する音響データ識別子をトレーニング信号として蓄積することを特徴とする音声認識装置。
前記信号処理部は、名前が発音される前後の言葉を記憶するメモリ部を有し、名前の前の言葉を開始信号、後の言葉を終了信号とすることを特徴とする請求項１に記載の音声認識装置。
前記信号処理部は、日本語において名前の前に必ず存在する無音を記憶するメモリ部を有し、前記無音を検知して開始信号とすることを特徴とする請求項２に記載の音声認識装置。
前記信号処理部は、無音を検知する検知部と、前記検知した無音を開始信号とする制御部とを有することを特徴とする請求項３に記載の音声認識装置。
前記信号処理部は、無音検知のためのスレッショールドレベルを前記検知部に設けたことを特徴とする請求項４に記載の音声認識装置。
前記音声認識処理部は、単語を単語辞書格納部に格納する際、単語の先頭部分とその他の部分に分け、前記先頭部分が同じ物をグループ化して格納することを特徴とする請求項１に記載の音声認識装置。
前記音声認識処理部は、あらかじめ前記単語辞書格納部内の先頭文字と音素モデルから先頭文字の単語音響データを作成し、言語モデル作成格納部に格納することを特徴とする請求項６に記載の音声認識装置。
前記音声認識処理部は、単語辞書の構成を先頭文字と姓と名前とにブロック分けすることを特徴とする請求項６に記載の音声認識装置。
前記音声認識処理部は、言語モデル作成格納部に格納された各単語音響データに対して、使用されたとき単語識別部より出力される一致度で一番高いものに頻度１を与え、使用のたびに加算して重み付けを行うことを特徴とする請求項１に記載の音声認識装置。
前記音声認識処理部は、或る任意の頻度以上の単語音響データのみを使って認識動作を行わせることを特徴とする請求項９に記載の音声認識装置。
前記音声認識処理部は、使用頻度の高い順に任意の単語数ごとにブロック化し、使用頻度の高いブロックの単語音響データを出力させ、ブロック毎に表示させることを特徴とする請求項９に記載の音声認識装置。
前記信号処理部は時計機能を有し、前記音声認識処理部は前記信号処理部から通知される時刻に基づいて使用頻度を算出する期限を設けることを特徴とする請求項９乃至１１のいずれか１に記載の音声認識装置。
前記信号処理部は、認識動作後に表示装置に表示された結果がユーザの意図する結果と異なった場合には異なったことを示す情報を内蔵するメモリ部に蓄積し、次ぎに同じ発音があった場合に、前記異なったことを示す情報をもとに、一度間違った情報は二度と前記表示装置に表示しないことを特徴とする請求項１に記載の音声認識装置。
前記信号処理部は、認識動作後に表示装置に表示された結果がユーザの意図する結果と異なった場合には異なったことを示す情報を前記音声認識処理部のメモリ部に蓄積し、次ぎに同じ発音があった場合に、前記異なったことを示す情報をもとに、一度間違った情報は二度と前記表示装置に表示しないことを特徴とする請求項１に記載の音声認識装置。
前記音声認識処理部は、仕向け地ごとの或る特定の言葉を単語辞書格納部にあらかじめ持たせることを特徴とする請求項１に記載の音声認識装置。