JPH06161495A

JPH06161495A - 音声認識装置

Info

Publication number: JPH06161495A
Application number: JP34395392A
Authority: JP
Inventors: Tomohiko Beppu; 智彦別府; Fuoogeru Deetoritsuhi; フォーゲルデートリッヒ; Takahiro Watanabe; 孝宏渡邊
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-01-24
Filing date: 1992-12-24
Publication date: 1994-06-07

Abstract

(57)【要約】【目的】単語音声認識との融合が容易な音声認識装置
を提供すること。【構成】入力音声の時間−周波数パターンを２値化す
る周波数分析部１３と２値化部１４とを有して入力音声
の特徴量を抽出する特徴量抽出手段１２と、抽出された
入力音声の特徴量ＢＴＳＰをニューラルネットワークの
入力として話者認識を行う認識処理手段１５とにより構
成し、単語音声認識の場合と同じ２値化特徴量ＢＴＳＰ
に基づき話者認識可能とすることにより、単語音声認識
を融合させたシステムを構築し得るようにした。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声によるパスワード
の設定などのセキュリティ分野、或いは、音声によるＯ
Ａ機器の制御などに適用可能な音声認識装置に関する。

【０００２】

【従来の技術】一般に、人間による基本的な意志伝達手
段は音声であり、古くから、身近にいる人に対しては音
声により意志伝達がなされている。ここに、近年では機
械とのコミュニケーションが注目されているが、人間の
立場から考えると、マン−マシンインターフェースとし
て、音声による対話が望ましい。このため、機械に人間
の言葉を入力するために音声認識の研究が盛んになされ
ているが、現状では、単語認識を目的とし、かつ、使用
者の音声でトレーニング後に使えるようにした特定話者
方式のものが多い。また、単語音声認識とは別に話者が
誰でるかを認識する音声話者認識の研究も行われてい
る。

【０００３】例えば、特開平２−２７３７９８号公報に
よれば、入力として音声の平均的な周波数特性及び平均
的なピッチ周波数を特徴量として、ニューラルネットワ
ークにより話者認識を行うようにした話者認識方式が示
されている。この方式によれば、経時的な認識率の劣化
が少なく、かつ、容易に実時間処理し得る。

【０００４】また、特開平３−１５７６９８号公報によ
れば、同様にニューラルネットワークを用いた話者認識
システムにおいて、登録話者認識用、追加学習用閾値に
基づいて話者判定、追加学習実施判定を行うことで、経
時的な認識率の劣化を少なくしつつ実時間処理を可能に
したものが示されている。

【０００５】例えば、図１８にこの特開平３−１５７６
９８号公報中に示される話者認識システム例を示す。ま
ず、複数のバンドパスフィルタ（ＢＰＦ）１とピッチ抽
出部２と、これらのＢＰＦ１とピッチ抽出部２からの出
力値を各々平均する平均化回路３とにより構成されて入
力音声の特徴量として周波数特性の時間的変化とピッチ
周波数の時間的変化とを抽出する特徴量抽出部４が設け
られている。このような特徴量抽出部４の各平均化回路
３からの出力はニューラルネットワーク部５に入力され
て処理され、その出力を判定回路部６で処理するように
構成されている。

【０００６】一方、人間の立場から考えると、我々自身
がいろいろな人の声でも認識し得ることから、不特定話
者認識が可能な単語音声認識方式が望まれることもあ
り、このような観点から研究したものとして、電気学会
論文誌Ｖol．１０８−Ｃ，Ｎｏ１０，’８８中の８５８
〜８６５頁に示される「２値のＴＳＰを用いた単語音声
認識システムの開発」によれば、音声の特徴量として時
間−周波数パターン（Ｔime Ｓpectrum Ｐattern ＝Ｔ
ＳＰ）を２値化したものを用い、不特定話者による音
声認識を行うようにしたものが報告されている。これ
は、不特定話者方式の課題である話者による特徴量の変
動を吸収するために、ファジー理論でいうメンバーシッ
プ関数の概念を導入したものである。

【０００７】また、別の観点として、音声ないし話者の
認識結果の出力形態に着目すると、例えば特開平３−１
１１８９９号公報に示される音声錠装置のように、入力
音声から話者を認識し、その認識結果により錠の開閉を
行うようにしたもの（即ち、話者認識結果は、錠の開閉
により示されることになる）や、特開平２−３０９３９
８号公報に示される音声による照明制御装置のように、
音声認識結果により照明の制御を行うようにしたもの
（即ち、音声認識結果は照明の変化により示されること
になる）がある。さらに、ディスプレイを備えたコンピ
ュータなどにおいて音声認識を行う場合では、音声認識
結果をディスプレイに表示するようにしたものもある。

【０００８】

【発明が解決しようとする課題】ところが、このような
従来の話者認識方式と単語音声認識方式とでは異なる特
徴量を用いて各々の認識を行うので、両者を融合したシ
ステムを構築するのは困難な状況にある。

【０００９】また、音声認識を行う場合においては、話
者が異なればその単語音声も異なるため、認識率が低下
してしまう可能性がある。その解決手段として、音声の
特徴量を抽出する方式では、できるだけ、話者に依存し
ない特徴量を用いることが考えられるが、まだ、充分な
認識率を得るまでには至っていないものである。また、
予め登録しておく音声辞書のデータが大きくなればパタ
ーンマッチングの演算に時間がかかり過ぎてしまう。一
方、ニューラルネットワークを利用した方式では、ネッ
トワークの持つ記憶容量を大きくする等、高機能化を図
るためには、ネットワーク規模を大きくする必要がある
が、ソフトウエア構成のニューラルネットワークの場合
であれば演算時間が長くかかってしまい、ハードウエア
構成のニューラルネットワークの場合、結線の問題もあ
りネットワークの大規模化には限度があり、学習可能な
データ量にも限度がある。

【００１０】さらに、認識結果の出力形態を考えた場
合、何れによる場合も、単に認識結果を示すだけのもの
であり、マン−マシンコミュニケーションを考慮した出
力形態とはなっていない。人間同士の会話であれば、ノ
イズなどで音声が聞きとりにくく、音声認識が不確かな
ときは、相手に聞きかえすことで、音声認識が不十分で
あったことを示し、音声認識を確実にするとか、認識が
確かであっても重要な情報であれば、やはり、相手に確
認をとるといったように、確実に意志伝達ができるよう
に、相手とのコミュニケーションを図っているのとは程
遠いものとなってしまう。

【００１１】

【課題を解決するための手段】請求項１記載の発明で
は、入力音声の時間−周波数パターンを２値化する周波
数分析部と２値化部とを有して入力音声の特徴量を抽出
する特徴量抽出手段と、抽出された入力音声の特徴量を
ニューラルネットワークの入力として話者認識を行う認
識処理手段とにより構成した。

【００１２】加えて、請求項２記載の発明では、２値化
部により入力音声の２値化した特徴量に基づき単語音声
の認識を行う単語音声認識手段を設けた。この際、請求
項３記載の発明では、抽出された入力音声の特徴量をニ
ューラルネットワークの入力として単語音声の認識を行
う単語音声認識手段とした。

【００１３】一方、請求項４記載の発明では、入力音声
の時間−周波数パターンを２値化する周波数分析部と２
値化部とを有して入力音声の特徴量を抽出する特徴量抽
出手段と、音声の特徴量を格納した音声辞書と、この音
声辞書に格納された音声の特徴量と前記特徴量抽出手段
により抽出された音声の特徴量とを比較してその類似度
を算出する類似度算出手段と、算出された類似度に基づ
き入力音声の認識を行う認識手段と、前記類似度算出手
段により算出された類似度の度合いと前記認識手段によ
る入力音声の認識結果とに応じて報知内容を生成する報
知内容生成手段と、生成された報知内容を認識結果とし
て報知する報知手段とにより構成した。

【００１４】請求項５記載の発明では、入力音声の時間
−周波数パターンを２値化する周波数分析部と２値化部
とを有して入力音声の特徴量を抽出する特徴量抽出手段
と、抽出された入力音声の特徴量をニューラルネットワ
ークの入力としこのニューラルネットワークの出力信号
に応じて前記入力音声の認識を行う認識手段と、前記ニ
ューラルネットワークの出力信号の信号強度と前記認識
手段による入力音声の認識結果とに応じて報知内容を生
成する報知内容生成手段と、生成された報知内容を認識
結果として報知する報知手段とにより構成した。

【００１５】請求項６記載の発明では、これらの請求項
４又は５記載の発明において、報知手段を、音声出力手
段とした。

【００１６】一方、請求項７記載の発明では、入力音声
の時間−周波数パターンを２値化する周波数分析部と２
値化部とを有して入力音声の特徴量を抽出する特徴量抽
出手段と、音声の特徴量を格納した複数の音声辞書と、
これらの音声辞書中の一つを選択する選択手段と、選択
された前記音声辞書に格納された音声の特徴量と前記特
徴量抽出手段により抽出された音声の特徴量とを比較し
てその類似度を算出する類似度算出手段と、算出された
類似度に基づき入力音声の認識を行う認識手段とにより
構成した。

【００１７】この際、請求項８記載の発明では、話者毎
に異ならせた複数の音声辞書とし、また、請求項９記載
の発明では、入力音声に応じて音声辞書の一つを選択す
る選択手段とし、さらに、請求項１０記載の発明では、
話者認識手段を設け、この話者認識手段の認識結果に応
じて音声辞書の一つを選択する選択手段とした。

【００１８】また、請求項１１記載の発明では、入力音
声の時間−周波数パターンを２値化する周波数分析部と
２値化部とを有して入力音声の特徴量を抽出する特徴量
抽出手段と、複数のニューラルネットワークと、これら
のニューラルネットワーク中の一つを選択する選択手段
と、抽出された入力音声の特徴量を選択されたニューラ
ルネットワークの入力としこのニューラルネットワーク
の出力信号に応じて前記入力音声の認識を行う認識手段
とにより構成した。

【００１９】この際、請求項１２記載の発明では、話者
毎に異ならせた複数のニューラルネットワークとし、請
求項１３記載の発明では、入力音声に応じてニューラル
ネットワークの一つを選択する選択手段とし、さらに、
請求項１４記載の発明では、話者認識手段を設け、この
話者認識手段の認識結果に応じてニューラルネットワー
クの一つを選択する選択手段とした。

【００２０】さらに、請求項１５記載の発明では、入力
音声の時間−周波数パターンを２値化する周波数分析部
と２値化部とを有して入力音声の特徴量を抽出する特徴
量抽出手段と、ニューラルネットワークと、このニュー
ラルネットワークの複数種のシナプス荷重を記憶する記
憶手段と、これらのシナプス荷重中の一種を選択する選
択手段と、選択されたシナプス荷重を前記ニューラルネ
ットワーク中に書込む書込み手段と、抽出された入力音
声の特徴量を前記ニューラルネットワークの入力としこ
のニューラルネットワークの出力信号に応じて前記入力
音声の認識を行う認識手段とにより構成した。

【００２１】この際、請求項１６記載の発明では、話者
毎にニューラルネットワークを学習させて得られた話者
毎に異ならせた複数種のシナプス荷重とし、請求項１７
記載の発明では、入力音声に応じてシナプス荷重の一種
を選択する選択手段とし、請求項１８記載の発明では、
話者認識手段を設け、この話者認識手段の認識結果に応
じてシナプス荷重の一種を選択する選択手段とした。

【００２２】

【作用】請求項１記載の発明においては、特徴量抽出手
段により入力音声の時間−周波数パターンを２値化した
ものを話者認識の特徴量として、ニューラルネットワー
ク構成の認識処理手段に入力させて話者認識を行うの
で、単語音声認識の場合と同じ特徴量による話者認識が
可能となり、単語音声認識との融合が可能となる。

【００２３】よって、請求項２又は３記載の発明のよう
に、２値化部により入力音声の２値化した特徴量に基づ
き認識処理を行う単語音声認識手段、特に、ニューラル
ネットワーク構成の単語音声認識手段を設けることによ
り、容易に同じ特徴量を用いて話者認識と単語音声認識
とを行い得るシステムの構築が可能となり、例えば、パ
スワードなどの特定の単語の認識を加えることなどによ
り、より高い精度の話者認識が可能となる。

【００２４】一方、請求項４記載の発明においては、算
出された類似度の度合いと入力音声の認識結果とに応じ
て報知内容を生成する報知内容生成手段を設け、生成さ
れた報知内容を認識結果として報知手段で報知するの
で、音声の類似度が低い場合には認識結果を確認する旨
の報知内容とする、といったようにヒューマンライクな
報知を行うことができ、誤認率が低下するものとなる。

【００２５】請求項５記載の発明においても、同様に、
ニューラルネットワークの出力信号の信号強度と認識手
段による入力音声の認識結果とに応じて報知内容を生成
する報知内容生成手段を設け、生成された報知内容を認
識結果として報知手段で報知するので、ニューラルネッ
トワークの認識による出力信号の信号強度が弱い場合に
は認識結果を確認する旨の報知内容とする、といったよ
うにヒューマンライクな報知を行うことができ、誤認率
が低下するものとなる。

【００２６】請求項６記載の発明においては、報知手段
を音声出力手段としたので、音声のみによる応答が可能
となり、よりヒューマンライクなマン−マシンコミュニ
ケーションが可能となる。

【００２７】また、請求項７記載の発明においては、音
声辞書を複数備えて選択手段でその内の一つを選択使用
するので、個々の音声辞書を小規模化して類似度算出時
間を短縮させ得るとともに、適正な音声辞書を使用する
ことにより認識率を向上させることができる。特に、請
求項８記載の発明においては、複数の音声辞書が話者毎
に異なるものであるので、話者に応じて音声辞書を選択
することで、高い認識率が得られる。また、請求項９記
載の発明においては、選択手段が入力音声に応じて音声
辞書を選択するので、特別な切換え操作を要せず、音声
を入力するだけで音声辞書の切換えが可能となる。特
に、請求項１０記載の発明においては、話者認識手段を
有するので、話者に応じた音声辞書の選択が可能とな
る。

【００２８】また、請求項１１記載の発明においては、
ニューラルネットワークを複数備えて選択手段でその内
の一つを選択使用するので、ニューラルネットワークの
大規模化を回避して、実現容易な規模のニューラルネッ
トワークにより、認識率の高い音声認識を行わせること
ができる。特に、請求項１２記載の発明においては、複
数のニューラルネットワークが話者毎に異なるものであ
るので、話者に応じてニューラルネットワークを選択す
ることで、高い認識率が得られる。また、請求項１３記
載の発明においては、選択手段が入力音声に応じてニュ
ーラルネットワークを選択するので、特別な切換え操作
を要せず、音声を入力するだけでニューラルネットワー
クの切換えが可能となる。特に、請求項１４記載の発明
においては、話者認識手段を有するので、話者に応じた
ニューラルネットワークの選択が可能となる。

【００２９】また、請求項１５記載の発明においては、
ニューラルネットワークは一つとするが、このニューラ
ルネットワークで使用するシナプス荷重を複数種記憶さ
せておき、選択手段でその内の一種を選択使用するの
で、ニューラルネットワークの大規模化を回避して、実
現容易な規模のニューラルネットワークを実質的に多様
化して、認識率の高い音声認識を行わせることができ
る。特に、請求項１６記載の発明においては、複数種の
シナプス荷重を話者毎に学習させたものとしているの
で、話者に応じたシナプス荷重を選択することで、高い
認識率が得られる。また、請求項１７記載の発明におい
ては、選択手段が入力音声に応じてシナプス荷重を選択
するので、特別な切換え操作を要せず、音声を入力する
だけでシナプス荷重の切換えが可能となる。特に、請求
項１８記載の発明においては、話者認識手段を有するの
で、話者に応じたシナプス荷重の選択が可能となる。

【００３０】

【実施例】請求項１記載の発明の一実施例を図１及び図
２に基づいて説明する。まず、音声を入力するためのマ
イクロフォン１１が設けられ、このマイクロフォン１１
には特徴量抽出部（特徴量抽出手段）１２が接続されて
いる。この特徴量抽出部１２中にはフィルタバンクなど
による周波数分析部１３と２値化部１４とが設けられて
いる。これにより、マイクロフォン１１を通して入力さ
れた音声を周波数分析部１３で周波数分析し、パワース
ペクトルに変換する。このパワースペクトルから周波数
上のピークを抽出し、それに基づいて２値化部１４で
「０」と「１」の２値化処理を行うことで、入力音声の
時間−周波数パターンを２値化して特徴量として抽出す
るように構成されている。

【００３１】このように２値化された特徴量は、前述の
文献「２値のＴＳＰを用いた単語認識システムの開発」
において、ＢＴＳＰ（Ｂinary Ｔime Ｓpectrum Ｐatte
rn）として詳細に説明されているものと同じであり、こ
こでは詳細は省略し、以後、入力音声の２値化された特
徴量をＢＴＳＰと称するものとする。

【００３２】特徴量抽出部１２で抽出された特徴量ＢＴ
ＳＰは、ニューラルネットワーク構成の話者認識部（認
識処理手段）１５に入力されて認識処理に供され、この
話者認識部１５より認識結果が出力されるように構成さ
れている。

【００３３】ここに、話者認識部１５の内部のニューラ
ルネットワーク１６の構成例を図２に示す。図示例は、
入力層１７と中間層１８と出力層１９とからなる３層階
層型構造の例を示す。このようなニューラルネットワー
ク１６の学習アルゴリズムとしては誤差逆伝搬法（バッ
クプロパゲーション法）などが利用できる。入力層１７
の各ニューロンに対する入力データは特徴量抽出部１２
で抽出された特徴量ＢＴＳＰである。教師データとして
は、登録する話者を出力層１９の各ニューロンに対応さ
せ、入力データの話者に対応したニューロンの出力を
「１」、その他のニューロンの出力を「０」とするもの
を採用する。これにより、ニューラルネットワーク１６
を学習させ、学習が終了した時点において登録話者によ
る音声入力で、その話者に対応した出力層１９のニュー
ロンの出力のみが「１」となり、出力層１９のその他の
ニューロンの出力は「０」となる。このような出力状態
により登録話者を認識できたことになる。

【００３４】ここに、入力層１７のニューロン数は、特
徴量ＢＴＳＰの時間分解能及び周波数分解能に依存す
る。このため、入力層１７のニューロン数が多ければ多
いほど認識率が向上すると予想されるが、ニューラルネ
ットワーク１６の規模が大きくなることで、その学習に
時間がかかってしまう弊害を生ずる。このような点を考
慮した本出願の発明者の実験によれば、周波数チャネル
を１５、１単語を８ブロックに時分割した１２０の入力
データ（中間層１８のニューロン数は２５とした）で高
い認識率が得られたものである。このようにして、入力
音声の時間−周波数パターンを２値化した特徴量ＢＴＳ
Ｐでも、ニューラルネットワーク１６により話者認識が
可能なことが確認されたものである。

【００３５】もっとも、このようなニューラルネットワ
ーク構成は一例であり、上記のものに限らず、登録話者
数、単語認識／話者認識など実現したい機能や、入力信
号の種類などにより最適な構成は変化するものであり、
条件に応じてニューラルネットワーク構成を適宜変更し
てもよい。具体的には、図３に示したような階層型構造
に限らず、相互結合型、再帰型ネットワーク（リカレン
トネット）などがある。また、ニューラルネットワーク
演算は、ソフトウエアにより実現するものでも、ハード
ウエアにより実現するものでもよい。

【００３６】つづいて、請求項２記載の発明の一実施例
を図４により説明する。前記実施例で示した部分と同一
部分は同一符号を用いて示す（以下の実施例でも同様と
する）。本実施例は、基本的には、前記実施例のような
音声話者認識装置に単語音声認識手段を組入れ、例え
ば、音声によるパスワードなどを登録しておくことによ
り、登録話者以外の部外者を確実にリジェクトでき、セ
キュリティの面でより信頼性の高い音声認識装置となる
ようにしたものである。

【００３７】このため、図４に示すように、特徴量抽出
部１２で抽出された２値化特徴量ＢＴＳＰを入力とする
単語音声認識部（単語音声認識手段）２０が話者認識部
１５と並列的に設けられている。即ち、単語音声認識部
２０と話者認識部１５とでは共通の特徴量ＢＴＳＰに基
づき単語音声認識と話者認識とを行うので、両認識の融
合性に優れ、システム構成が簡単となる。

【００３８】ところで、単語音声認識部２０で認識され
た単語音声は、予め登録しておいたキーワード又はパス
ワードを記憶した記憶データ２１の内容と単語照合部２
２で照合される。単語照合部２２は登録されている単語
であれば「１」を、その他の単語であれば「０」を出力
し、ＡＮＤゲート２３により話者認識部１５からの出力
との論理積がとられる。このような処理を行うことによ
り、同一の音声入力に対して、話者認識でのリジェクト
と単語照合でのリジェクトとの２重チェックを行うこと
ができるので、前述したように、例えばセキュリティシ
ステムなどで音声入力を利用する場合には、より信頼性
の高いものとなる。

【００３９】ちなみに、図１８により前述した従来の話
者認識システムは入力音声の特徴量を抽出してニューラ
ルネットワークで処理している点で、本発明に類似して
いるといえるが、図１８方式の話者認識システムで扱う
特徴量は、周波数依存の高いものであり、周波数情報を
必要としない単語音声認識（単語認識には周波数は必要
でない）では採用しにくいものである。この点、本発明
では、単語音声認識で用いられているＢＴＳＰを特徴量
としているので、上記のように容易に単語音声認識を組
込むことが可能である。よって、セキュリティなどへの
応用を考えた場合、本発明による音声認識装置によれば
信頼性の高いセキュリティシステムを容易に構築できる
ものであり、図１８方式のものとは大きく異なる。

【００４０】また、請求項３記載の発明の一実施例を図
５ないし図７により説明する。本実施例は、特徴量抽出
部１２から特徴量ＢＴＳＰが入力される話者認識部（認
識処理手段）５１と単語音声認識部（単語音声認識手
段）５２とをともにニューラルネットワーク構成とした
ものである。即ち、話者認識部５１は前処理部５３とニ
ューラルネットワーク５４とにより構成され、単語音声
認識部５２は前処理部５５とニューラルネットワーク５
６とにより構成されている。前処理部５３，５５は特徴
量抽出部１２による特徴量ＢＴＳＰを、ニューラルネッ
トワーク５４，５６が学習しやすい形に変換するもの
で、ネットワーク構成、学習方法等によって必要とされ
る処理は異なる。話者認識部５１による話者認識結果と
単語音声認識部５２による音声認識結果とは認識結果出
力部５７に入力されており、認識結果が出力されるよう
に構成されている。

【００４１】この認識結果出力部５７の処理としては、
前記実施例に準ずるものでよい。例えば、話者認識部５
１は入力された音声が、登録されている話者のものであ
れば「１」、その他の話者のものであれば「０」を出力
する。一方、単語音声認識部５２は入力された音声単語
が登録されている単語であれば「１」、その他の単語で
あれば「０」を出力する。これらの両出力のＡＮＤをと
ることにより、前記実施例と同じく、同一音声入力に対
して、話者認識部５１におけるリジェクトと単語音声認
識部５２におけるリジェクトとの２重のチェックを行う
ことができる。

【００４２】ここに、話者認識部５１中のニューラルネ
ットワーク５４は、図２や図３に示したようなニューラ
ルネットワーク１６でよいが、再度、図示すると、例え
ば、図６に示すように構成される。学習方法、その他に
関する詳細は、図２のニューラルネットワーク１６のも
のと同様でよい。

【００４３】一方、単語音声認識部５２中のニューラル
ネットワーク５６に関しても、ニューラルネットワーク
１６，５４と同様に構成し得る。図７に示す例は、図６
のニューラルネットワーク５４と同じ構成とし、入力層
５８と中間層５９と出力層６０とからなる３層階層型構
造の例を示す。このようなニューラルネットワーク５６
の学習アルゴリズムとしても誤差逆伝搬法などが利用で
きる。入力層５８の各ニューロンに対する入力データは
特徴量抽出部１２で抽出された特徴量ＢＴＳＰである。
学習後のニューラルネットワーク５６は音声認識結果を
出力する。教師データとしては、登録する単語を出力層
６０の各ニューロンに対応させ、入力データの単語に対
応したニューロンの出力を「１」、その他のニューロン
の出力を「０」とするものを採用する。これにより、ニ
ューラルネットワーク５６を学習させ、学習が終了した
時点において登録単語の入力で、その単語に対応した出
力層６０のニューロンの出力のみが「１」となり、出力
層６０のその他のニューロンの出力は「０」となる。こ
のような出力状態により登録単語を認識できたことにな
る。

【００４４】ここに、ニューラルネットワーク５６にお
いても、入力層５８のニューロン数は、特徴量ＢＴＳＰ
の時間分解能及び周波数分解能に依存する。このため、
入力層５８のニューロン数が多ければ多いほど認識率が
向上すると予想されるが、ニューラルネットワーク５６
の規模が大きくなることで、その学習に時間がかかって
しまう弊害を生ずる。このような点を考慮した本出願の
発明者の実験によれば、周波数チャネルを１５、１単語
を４ブロックに時分割した６０の入力データ（中間層５
９のニューロン数を２５とした）で高い認識率が得られ
たものである。このようにして、入力音声の時間−周波
数パターンを２値化した特徴量ＢＴＳＰでも、ニューラ
ルネットワーク５６により単語認識が可能なことが確認
されたものである。

【００４５】もっとも、この場合も、このようなニュー
ラルネットワーク５６の構成は一例であり、上記のもの
に限らず、登録単語数などにより最適な構成は変化する
ものであり、条件に応じてニューラルネットワーク構成
を適宜変更してもよい。

【００４６】なお、本実施例では、話者認識用と単語音
声認識用とで別個のニューラルネットワーク５４，５６
を設けたが、ニューラルネットワークの持つ並列計算と
いう特徴を利用して、一つのニューラルネットワークで
共用するようにしてもよい。図８はこの変形例を示すも
ので、話者認識部５１用と単語音声認識部５２用とで共
用するニューラルネットワーク６１として、入力層６２
と中間層６３と出力層６４とからなる３層階層型構造の
例を示す。入力層６２には特徴量抽出部１２からの音声
情報として特徴量ＢＴＳＰが入力される。このニューラ
ルネットワーク６１も前述の場合と同様の学習方法を用
いて単語の学習、話者の学習を行い、各々の特徴量を学
習する。学習後のニューラルネットワーク６１は入力さ
れた音声情報と学習結果とに従い、単語と音声を認識
し、話者認識結果と単語認識結果とを出力する。

【００４７】前述したように、本実施例では、ニューラ
ルネットワークの構成及び学習方法としては多層型の誤
差逆伝播法が用いられている。一方、音声情報処理はそ
の時系列的な変化が重要である場合が知られており、そ
うした場合、ニューラルネットワーク５４，５６の構造
として、時系列信号を学習しやすいネットワーク構成と
して知られている再帰型ネットワーク、タイムディレイ
ニューラルネットワーク（ＴＤＮＮ）などのネットワー
ク構造を用いることもできる。

【００４８】このように話者認識部５１に用いられるニ
ューラルネットワーク５４と単語音声認識部５２に用い
られるニューラルネットワーク５６とは必ずしも同じ構
成、学習法を採る必要はなく、また、個別の構成を採る
必要もない。このため、各々に付随する前処理部５３，
５５も、ニューラルネットワーク５４，５６の構成、学
習法に応じて異なるものを用いることができる。

【００４９】何れにしても、本実施例によれば、特徴抽
出部１２で特徴量としてＢＴＳＰを用い、音声情報の認
識にニューラルネットワーク５４，５６を用いたので、
特徴量ＢＴＳＰを用いることよって音声の持つ情報量を
減らすことができ、単語や話者を登録、記憶させるのに
必要とされる記憶容量を減らし、かつ、登録や照合に必
要とされる処理時間も減らすことができる。一方、特徴
量ＢＴＳＰは不特定話者に対する単語音声認識に優れた
処理方式であり、個人個人の話者間にある音声情報が持
つ特徴の差を減少させるような特徴抽出方式である。こ
のため、話者認識に適さないという難点があるが、本実
施例では、特徴量ＢＴＳＰによって表現された音声情報
の認識をニューラルネットワーク５４，５６に行わせ、
特徴量ＢＴＳＰの持つ限られた情報から、話者認識する
ことのできる情報を取出すことが可能となる。

【００５０】さらに、請求項４及び６記載の発明の一実
施例を図９ないし図１１により説明する。本実施例は、
音声認識結果についての出力形態を工夫したものであ
る。まず、認識処理に用いられる単語音声などの特徴量
を格納した音声辞書２４が設けられている。ついで、周
波数分析部１３と２値化部１４とを備えた特徴量抽出部
１２により抽出された特徴量ＢＴＳＰと前記音声辞書２
４に格納されている単語音声の特徴量とのパターンマッ
チングにより類似度を算出し、最も類似度の高い単語を
選択する認識処理を行うパターンマッチング部（類似度
算出手段及び認識手段）２５が設けられている。このパ
ターンマッチング部２５の出力側には報知内容生成部
（報知内容生成手段）２６を介して音声合成部２７とス
ピーカ２８とによる音声出力手段（報知手段）２９が設
けられている。

【００５１】ここに、前記報知内容生成部２６はパター
ンマッチング部２５により認識された結果及びその根拠
となった類似度の度合いに応じた報知内容を生成するも
のである。例えば、単語認識において「おはようござい
ます」を認識し、かつ、その類似度が高い場合には、報
知内容として「おはようございます」というテキストを
生成し、音声合成部２７及びスピーカ２８を通して、
「おはようございます」と発声する。また、上記のよう
な単語認識機能のみならず、話者認識機能をも持つ場合
においては、認識した話者の名前を付加したテキストを
生成する。例えば、上例で、佐藤さんを話者として認識
した場合、「おはようございます、佐藤さん」というテ
キストを作成し、音声合成部２７及びスピーカ２８を通
して「おはようございます、佐藤さん」と発声させるこ
とも可能である。一方、話者認識において、例えば鈴木
さんを話者として認識した場合でも、その類似度が低い
場合には、「鈴木さんですか」或いは「鈴木さんです
ね」といったようなテキストが作成され、スピーカ２８
より発声される。これにより、話者に確認をとるような
応答となり、話者からの返事「はい、そうです」といっ
た音声入力を受けて再び話者認識を行うことで、認識率
の高いものとなる。さらには、単語認識処理において類
似度が継続して低い場合には、「音声辞書を更新してく
ださい」といったテキストを作成し、スピーカ２８より
発声させることで、音声辞書２４の更新を促すこともで
きる。要は、認識結果を単に出力するだけでなく、類似
度の度合い（認識の確からしさ）が加味された報知内容
とされて出力されるので、よりヒューマンライクな出力
応答となり、優れたマン−マシンコミュニケーションを
実現でき、誤認率も低下するものとなる。特に、本実施
例では出力応答もスピーカ２８を通して音声により行わ
れるので、入出力全てが音声で済む、よりヒューマンラ
イクなものとなる。

【００５２】図１０はこのような処理の概要を示すフロ
ーチャートである。図１１は単語音声認識を例にとり、
認識結果の報知内容をテキストで生成する場合の処理例
を示すフローチャートである。まず、類似度の度合いに
応じた処理を行うため、閾値としてＴｈ１，Ｔｈ２が設
定されている。パターンマッチング部２５における処理
の結果、類似度が閾値Ｔｈ１よりも小さい場合には、認
識が不十分であるとして、テキスト０が選択される。こ
のテキスト０の内容としては、認識が不十分であること
を示し得るものであればよく、例えば「よく聞こえませ
んでした」といったテキストでよい。出力形態として
は、コンピュータのディスプレイでも可能であるが、前
述したように、音声合成部２７で合成した音声をスピー
カ２８を通して発声させるほうが、よりヒューマンライ
クな装置となる。

【００５３】一方、類似度が閾値Ｔｈ１以上であって、
単語認識の結果、認識語がＷ１となった場合には、テキ
スト１を選択する。このレベルでの認識語Ｗ１に相当す
る単語としては、「おはようございます」といった挨拶
語のような、誤認識があっても比較的影響の小さい単語
である。テキスト１の内容としても、これらの認識語Ｗ
１に相当するそのままの語「おはようございます」等が
妥当である。この際、話者認識機能を持つものであれ
ば、「おはようございます、○○さん」といったように
話者の名前を付加したテキストを合成することにより、
よりヒューマンライクなマン−マシンコミュニケーショ
ンが実現される。

【００５４】さらに、類似度が閾値Ｔｈ１以上であって
も、認識語がＷ１ではなく、誤認があるとその影響の大
きな語Ｗ２となった場合を考える。この語Ｗ２として
は、機械に対して具体的に命令を行う場合の単語などが
考えられる。ここに、語Ｗ２の重要性を考慮し、その誤
認率を低下させるため、Ｔｈ２＞Ｔｈ１なる閾値Ｔｈ２
を用いて認識結果の類似度の度合いを判断する。類似度
が閾値Ｔｈ２より大きい時のみ、テキスト２を選択し、
それ以外はテキスト３を選択する。テキスト２として
は、「はい、わかりました」、テキスト３としては、
「もう一度おっしゃつてください」なとが考えられる。
無論、テキストとしては例示した言葉等に限られるもの
ではなく、適宜設定されるものである。

【００５５】さらに、請求項５及び６記載の発明の一実
施例を図１２により説明する。本実施例は、ニューラル
ネットワーク３０を主体とする認識処理手段３１を用い
た音声認識装置に関するものであり、この認識処理手段
３１の出力側に報知内容生成部２６に相当する報知内容
生成部３２を設けたものである。ニューラルネットワー
ク３０は特徴量抽出部１２により抽出された特徴量ＢＴ
ＳＰを入力とするもので、例えば図２や図３に示したニ
ューラルネットワーク１６と同様の構成・動作とされ
る。よって、例えば単語認識の場合であれば、特徴量Ｂ
ＴＳＰの入力に基づく演算の結果、最も大きな出力に対
応した単語を、音声認識結果として出力するものであ
る。

【００５６】このようなニューラルネットワーク３０側
からの出力を受ける報知内容生成部３２では、認識され
た内容（単語）及びその内容に対応した出力信号の信号
強度に応じた報知内容を生成する。その内容は、前記実
施例の場合と同様でよく、例えば、単語認識において
「おはようごさいます」と認識され、その出力値の強度
が強い場合には、音声合成部２７及びスピーカ２８を通
してそのまま「おはようございます」と発声すればよ
い。話者認識機能をも持つ場合であれば、認識した話者
の名前を付加したテキストとし、例えば「おはようござ
います、佐藤さん」のように発声させればよい。一方、
ニューラルネットワーク３０から得られる認識結果につ
いての出力信号の信号強度が弱い場合、前記実施例にお
ける類似度が低い場合と同様な内容の報知内容として出
力させるようにすればよい。また、出力信号の強度が継
続して低い場合には、「追加学習をしてください」とい
った内容のテキストを発声させ、利用者にニューラルネ
ットワーク３０の学習を促すようにすればよい。

【００５７】なお、本実施例の具体的処理としては、図
１１中に示した「類似度」を「出力信号の強度」に置換
えればよい。

【００５８】ついで、請求項７記載の発明の一実施例を
図１３により説明する。本実施例では、複数（ここで
は、単純化させるため、２個とする）の音声辞書２４
ａ，２４ｂを用意しておき、認識処理に際して選択部
（選択手段）３３により何れか一方の音声辞書２４ａ又
は２４ｂを選択し、選択したものを類似度算出用音声辞
書３４として、類似度算出部（類似度算出手段）３５に
よる類似度演算に供するようにしたものである。類似度
算出部３５の出力側には判定部（認識手段）３６が接続
され、算出された類似度に基づき類似度算出用音声辞書
３４内で最も高い類似度を示したもの（単語認識であれ
ば、単語）を認識結果と判定する。

【００５９】ここに、選択手段３３による音声辞書２４
ａ，２４ｂの具体的な選択切換え方式としては、外部に
スイッチを設け、話者自身がこのスイッチを操作して認
識率の高いほうの音声辞書２４ａ又は２４ｂを選択する
ことで行うようにすればよい。特に、請求項８記載の発
明のように複数の音声辞書を話者毎に異ならせて用意し
た場合であれば、話者に自己用の音声辞書を選択させる
ことで、より認識率の高いものとなる。

【００６０】何れにしても、本実施例によれば、複数の
音声辞書２４ａ，２４ｂを用意しておき、その内の一つ
を選択して認識処理を行うので、個々の音声辞書は小規
模のものでよく、よって、辞書の大規模化を回避しつ
つ、認識率の向上するものとなる。

【００６１】また、請求項８ないし１０記載の発明の一
実施例を図１４により説明する。本実施例では、複数の
音声辞書２４ａ，２４ｂを話者毎に異なるものとし、か
つ、特徴量抽出部１２で抽出された特徴量ＢＴＳＰに基
づき入力音声の話者同定を行う話者認識部（話者認識手
段）３７を設け、この話者認識部３７の認識結果により
選択手段３３を切換え動作させ、音声辞書２４ａ又は２
４ｂを選択するようにしたものである。

【００６２】本実施例によれば、音声を入力するだけ
で、話者に応じた音声辞書の選択が可能となり、外部ス
イッチ切換え操作等を要せず、適正な辞書を用いた認識
率の高い認識処理が可能となる。

【００６３】なお、話者認識部３７としては、図１等で
説明したものが好ましいが、例えば単語を限定した話者
認識などのような、従来技術による話者認識手段であっ
ても、充分な認識率が得られているものであり、支障な
い。

【００６４】さらに、請求項１１記載の発明の一実施例
を図１５により説明する。本実施例は、ニューラルネッ
トワーク３０を利用するものであるが、複数個（ここで
は、単純化させるため、２個とする）のニューラルネッ
トワーク３０ａ，３０ｂを用意し、認識処理に際して選
択手段３８で何れか一方のニューラルネットワーク３０
ａ又は３０ｂを選択し、選択されたニューラルネットワ
ーク３０ａ又は３０ｂによりニューラルネットワーク演
算を行うようにしたものである。これらのニューラルネ
ットワーク３０ａ，３０ｂの出力側には最終的な認識処
理を行う判定部（認識手段）３９が設けられている。こ
の判定部３９は、例えば図３に示したような構成のニュ
ーラルネットワークの出力層６０のニューロンに単語を
割当てておき（これは、ニューラルネットワークの学
習、例えばバックプロパゲーションなどにより実現でき
る）、入力された特徴量ＢＴＳＰに対してどのニューロ
ンからの出力信号が大きいかによって、入力音声の単語
の判定を行うものである。

【００６５】ここに、選択手段３８によるニューラルネ
ットワーク３０ａ，３０ｂの具体的な選択切換え方式と
しては、音声辞書２４ａ，２４ｂの選択切換えと同様
に、外部にスイッチを設け、話者がスイッチを操作して
選択するようにすればよい。特に、請求項１２記載の発
明のように複数のニューラルネットワークを話者毎に異
ならせたものを用意した場合であれば、話者に自己用の
ニューラルネットワークを選択させることで、より認識
率の高いものとなる。

【００６６】何れにしても、本実施例によれば、複数の
ニューラルネットワーク３０ａ，３０ｂを用意してお
き、その内の一つを選択して認識処理を行うので、個々
のニューラルネットワークとしては実現容易な規模のも
のでよく、全体としてニューラルネットワークの大規模
化を回避しつつ、実質的に記憶容量の大容量化、認識率
の向上を図れるものとなる。

【００６７】さらに、請求項１２ないし１４記載の発明
の一実施例を図１６により説明する。本実施例では、複
数のニューラルネットワーク３０ａ，３０ｂを話者毎に
異ならせたものとし、かつ、特徴量抽出部１２で抽出さ
れた特徴量ＢＴＳＰに基づき入力音声の話者同定を行う
話者認識部（話者認識手段）４０を設け、この話者認識
部４０の認識結果により選択手段３８を切換え動作さ
せ、ニューラルネットワーク３０ａ又は３０ｂを選択す
るようにしたものである。

【００６８】本実施例によれば、音声を入力するだけ
で、話者に応じたニューラルネットワークの選択が可能
となり、外部スイッチ切換え操作等を要せず、適正なニ
ューラルネットワークを用いた認識率の高い認識処理が
可能となる。

【００６９】さらに、請求項１５ないし１８記載の発明
の一実施例を図１７により説明する。本実施例も、ニュ
ーラルネットワーク３０を利用したものであるが、その
個数を複数個とはせずに、例えば、図２や図３に示した
ような構成において、各ニューロン間がシナプス結合４
１により結合されており、そのシナプス荷重を可変させ
ることにより、一つのニューラルネットワーク３０であ
っても多様性を持ち得る点に着目し、複数種（ここで
は、簡単化するため、２種とする）のシナプス荷重を記
憶したメモリ（記憶手段）４２ａ，４２ｂを設け、認識
処理に際して選択手段４３で何れか一つのシナプス荷重
を選択し、図示しない書込み手段によりそのシナプス荷
重をニューラルネットワーク３０に書込むようにしたも
のである。ここに、各シナプス荷重は、話者毎にニュー
ラルネットワーク３０を学習処理させて得られたもので
ある。これに対応して、特徴量抽出部１２の出力側には
抽出された特徴量ＢＴＳＰから入力音声の話者を同定す
る話者認識部（話者認識手段）４４が設けられ、この話
者認識結果により選択動作をする選択手段４３とされて
いる。

【００７０】本実施例によれば、音声を入力するだけ
で、その話者に適したネットワーク構成となるシナプス
荷重によるニューラルネットワーク３０により演算処理
が行われて認識されるので、認識率の高いものとなる。
本実施例によれば、ニューラルネットワーク３０は一つ
でよいので、ハードウエア構成としニューラルネットワ
ーク数を増やすのが困難な場合に特に効果的となる。

【００７１】

【発明の効果】本発明は、上述したように構成したの
で、請求項１記載の発明によれば、特徴量抽出手段によ
り入力音声の時間−周波数パターンを２値化したものを
話者認識の特徴量として、ニューラルネットワーク構成
の認識処理手段に入力させて話者認識を行うため、単語
音声認識の場合と同じ特徴量による話者認識が可能とな
り、単語音声認識との融合が可能となり、よって、請求
項２又は３記載の発明のように、２値化部により入力音
声の２値化した特徴量に基づき認識処理を行う単語音声
認識手段、特に、認識処理手段側と同じくニューラルネ
ットワーク構成とした単語音声認識手段を付加すること
により、同じ特徴量を用いて容易に話者認識と単語音声
認識とを行い得るシステムを構築でき、例えば、パスワ
ードなどの特定の単語の認識を加えることなどにより、
より高い精度の話者認識システムとなり、信頼性の高い
セキュリティシステムなどを提供し得るものとなる。

【００７２】一方、請求項４記載の発明によれば、算出
された類似度の度合いと入力音声の認識結果とに応じて
報知内容を生成する報知内容生成手段を設け、生成され
た報知内容を認識結果として報知手段で報知するように
したので、音声の類似度が低い場合には認識結果を確認
する旨の報知内容とする、といったようにヒューマンラ
イクな報知を行うことができ、誤認率を低下させること
ができる。

【００７３】請求項５記載の発明においても、同様に、
ニューラルネットワークの出力信号の信号強度と認識手
段による入力音声の認識結果とに応じて報知内容を生成
する報知内容生成手段を設け、生成された報知内容を認
識結果として報知手段で報知するようにしたので、ニュ
ーラルネットワークの認定による出力信号の信号強度が
弱い場合には認識結果を確認する旨の報知内容とする、
といったようにヒューマンライクな報知を行うことがで
き、誤認率を低下させることができる。

【００７４】請求項６記載の発明によれば、請求項４又
は５記載の発明における報知手段を音声出力手段とした
ので、音声のみによる応答が可能となり、よりヒューマ
ンライクなマン−マシンコミュニケーションが可能とな
る。

【００７５】また、請求項７記載の発明によれば、音声
辞書を複数備えて選択手段でその内の一つを選択使用す
るようにしたので、個々の音声辞書を小規模化して類似
度算出時間を短縮させ得るとともに、適正な音声辞書を
使用することにより認識率を向上させることができ、特
に、請求項８記載の発明によれば、複数の音声辞書が話
者毎に異なるものとしたので、話者に応じて音声辞書を
選択することで、高い認識率を得ることができ、また、
請求項９記載の発明によれば、選択手段が入力音声に応
じて音声辞書を選択するようにしたので、特別な切換え
操作を要せず、音声を入力するだけで音声辞書の切換え
が可能となり、特に、請求項１０記載の発明によれば、
話者認識手段を有するので、話者に応じた音声辞書の選
択が可能となる。

【００７６】また、請求項１１記載の発明によれば、ニ
ューラルネットワークを複数備えて選択手段でその内の
一つを選択使用するようにしたので、ニューラルネット
ワークの大規模化を回避して、実現容易な規模のニュー
ラルネットワークにより、認識率の高い音声認識を行わ
せることができ、特に、請求項１２記載の発明によれ
ば、複数のニューラルネットワークが話者毎に異なるの
で、話者に応じてニューラルネットワークを選択するこ
とで、高い認識率が得られ、また、請求項１３記載の発
明によれば、選択手段が入力音声に応じてニューラルネ
ットワークを選択するようにしたので、特別な切換え操
作を要せず、音声を入力するだけでニューラルネットワ
ークの切換えが可能となり、特に、請求項１４記載の発
明によれば、話者認識手段を有するので、話者に応じた
ニューラルネットワークの選択が可能となる。

【００７７】また、請求項１５記載の発明によれば、ニ
ューラルネットワークは１つとするが、このニューラル
ネットワークで使用するシナプス荷重を複数種記憶させ
ておき、選択手段でその内の一種を選択使用するように
したので、ニューラルネットワークの大規模化を回避し
て、実現容易な規模のニューラルネットワークを実質的
に多様化して、認識率の高い音声認識を行わせることが
でき、特に、請求項１６記載の発明によれば、複数種の
シナプス荷重を話者毎に学習させたものとしているの
で、話者に応じたシナプス荷重を選択することで、高い
認識率が得られ、また、請求項１７記載の発明によれ
ば、選択手段が入力音声に応じてシナプス荷重を選択す
るようにしたので、特別な切換え操作を要せず、音声を
入力するだけでシナプス荷重の切換えが可能となり、特
に、請求項１８記載の発明によれば、話者認識手段を有
するので、話者に応じたシナプス荷重の選択が可能とな
る。

【図面の簡単な説明】

【図１】請求項１記載の発明の一実施例を示すブロック
図である。

【図２】話者認識部のニューラルネットワーク構成例を
示す模式的構造図である。

【図３】ニューラルネットワーク構成例の変形例を示す
模式的構造図である。

【図４】請求項２記載の発明の一実施例を示すブロック
図である。

【図５】請求項３記載の発明の一実施例を示すブロック
図である。

【図６】ニューラルネットワーク構成例を示す模式的構
造図である。

【図７】ニューラルネットワーク構成例を示す模式的構
造図である。

【図８】変形例のニューラルネットワーク構成例を示す
模式的構造図である。

【図９】請求項４及び６記載の発明の一実施例を示すブ
ロック図である。

【図１０】その処理を示す概略フローチャートである。

【図１１】具体的処理例を示すフローチャートである。

【図１２】請求項５及び６記載の発明の一実施例を示す
ブロック図である。

【図１３】請求項７記載の発明の一実施例を示すブロッ
ク図である。

【図１４】請求項８ないし１０記載の発明の一実施例を
示すブロック図である。

【図１５】請求項１１記載の発明の一実施例を示すブロ
ック図である。

【図１６】請求項１２ないし１４記載の発明の一実施例
を示すブロック図である。

【図１７】請求項１５ないし１８記載の発明の一実施例
を示すブロック図である。

【図１８】従来例を示すブロック図である。

【符号の説明】

１２特徴量抽出手段１３周波数分析部１４２値化部１５認識処理手段１６ニューラルネットワーク２０単語音声認識手段２５類似度算出手段＆認識手段２６報知内容生成手段２９音声出力手段＝報知手段３０ニューラルネットワーク３１認識処理手段３２報知内容生成手段３３選択手段３５類似度算出手段３６認識手段３７話者認識手段３８選択手段３９認識手段４０話者認識手段４４話者認識手段５１認識処理手段５２単語音声認識手段５４ニューラルネットワーク５６ニューラルネットワーク６１ニューラルネットワーク

Claims

【特許請求の範囲】

【請求項１】入力音声の時間−周波数パターンを２値
化する周波数分析部と２値化部とを有して入力音声の特
徴量を抽出する特徴量抽出手段と、抽出された入力音声
の特徴量をニューラルネットワークの入力として話者認
識を行う認識処理手段とよりなることを特徴とする音声
認識装置。
【請求項２】２値化部により入力音声の２値化した特
徴量に基づき単語音声の認識を行う単語音声認識手段を
設けたことを特徴とする請求項１記載の音声認識装置。
【請求項３】抽出された入力音声の特徴量をニューラ
ルネットワークの入力として単語音声の認識を行う単語
音声認識手段としたことを特徴とする請求項２記載の音
声認識装置。
【請求項４】入力音声の時間−周波数パターンを２値
化する周波数分析部と２値化部とを有して入力音声の特
徴量を抽出する特徴量抽出手段と、音声の特徴量を格納
した音声辞書と、この音声辞書に格納された音声の特徴
量と前記特徴量抽出手段により抽出された音声の特徴量
とを比較してその類似度を算出する類似度算出手段と、
算出された類似度に基づき入力音声の認識を行う認識手
段と、前記類似度算出手段により算出された類似度の度
合いと前記認識手段による入力音声の認識結果とに応じ
て報知内容を生成する報知内容生成手段と、生成された
報知内容を認識結果として報知する報知手段とよりなる
ことを特徴とする音声認識装置。
【請求項５】入力音声の時間−周波数パターンを２値
化する周波数分析部と２値化部とを有して入力音声の特
徴量を抽出する特徴量抽出手段と、抽出された入力音声
の特徴量をニューラルネットワークの入力としこのニュ
ーラルネットワークの出力信号に応じて前記入力音声の
認識を行う認識手段と、前記ニューラルネットワークの
出力信号の信号強度と前記認識手段による入力音声の認
識結果とに応じて報知内容を生成する報知内容生成手段
と、生成された報知内容を認識結果として報知する報知
手段とよりなることを特徴とする音声認識装置。
【請求項６】報知手段を、音声出力手段としたことを
特徴とする請求項４又は４記載の音声認識装置。
【請求項７】入力音声の時間−周波数パターンを２値
化する周波数分析部と２値化部とを有して入力音声の特
徴量を抽出する特徴量抽出手段と、音声の特徴量を格納
した複数の音声辞書と、これらの音声辞書中の一つを選
択する選択手段と、選択された前記音声辞書に格納され
た音声の特徴量と前記特徴量抽出手段により抽出された
音声の特徴量とを比較してその類似度を算出する類似度
算出手段と、算出された類似度に基づき入力音声の認識
を行う認識手段とよりなることを特徴とする音声認識装
置。
【請求項８】話者毎に異ならせた複数の音声辞書とし
たことを特徴とする請求項７記載の音声認識装置。
【請求項９】入力音声に応じて音声辞書の一つを選択
する選択手段としたことを特徴とする請求項７記載の音
声認識装置。
【請求項１０】話者認識手段を設け、この話者認識手
段の認識結果に応じて音声辞書の一つを選択する選択手
段としたことを特徴とする請求項８記載の音声認識装
置。
【請求項１１】入力音声の時間−周波数パターンを２
値化する周波数分析部と２値化部とを有して入力音声の
特徴量を抽出する特徴量抽出手段と、複数のニューラル
ネットワークと、これらのニューラルネットワーク中の
一つを選択する選択手段と、抽出された入力音声の特徴
量を選択されたニューラルネットワークの入力としこの
ニューラルネットワークの出力信号に応じて前記入力音
声の認識を行う認識手段とよりなることを特徴とする音
声認識装置。
【請求項１２】話者毎に異ならせた複数のニューラル
ネットワークとしたことを特徴とする請求項１１記載の
音声認識装置。
【請求項１３】入力音声に応じてニューラルネットワ
ークの一つを選択する選択手段としたことを特徴とする
請求項１１記載の音声認識装置。
【請求項１４】話者認識手段を設け、この話者認識手
段の認識結果に応じてニューラルネットワークの一つを
選択する選択手段としたことを特徴とする請求項１２記
載の音声認識装置。
【請求項１５】入力音声の時間−周波数パターンを２
値化する周波数分析部と２値化部とを有して入力音声の
特徴量を抽出する特徴量抽出手段と、ニューラルネット
ワークと、このニューラルネットワークの複数種のシナ
プス荷重を記憶する記憶手段と、これらのシナプス荷重
中の一種を選択する選択手段と、選択されたシナプス荷
重を前記ニューラルネットワーク中に書込む書込み手段
と、抽出された入力音声の特徴量を前記ニューラルネッ
トワークの入力としこのニューラルネットワークの出力
信号に応じて前記入力音声の認識を行う認識手段とより
なることを特徴とする音声認識装置。
【請求項１６】話者毎にニューラルネットワークを学
習させて得られた話者毎に異ならせた複数種のシナプス
荷重としたことを特徴とする請求項１５記載の音声認識
装置。
【請求項１７】入力音声に応じてシナプス荷重の一種
を選択する選択手段としたことを特徴とする請求項１５
記載の音声認識装置。
【請求項１８】話者認識手段を設け、この話者認識手
段の認識結果に応じてシナプス荷重の一種を選択する選
択手段としたことを特徴とする請求項１６記載の音声認
識装置。