JP2543603B2

JP2543603B2 - 単語認識システム

Info

Publication number: JP2543603B2
Application number: JP1298502A
Authority: JP
Inventors: 和彦岡下; 新吾西村; 正志宮川
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1989-11-16
Filing date: 1989-11-16
Publication date: 1996-10-16
Anticipated expiration: 2011-10-16
Also published as: JPH03157697A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、家電機器を音声操作する等に好適な単語認
識システムに関する。

［従来の技術］従来の単語認識システムは、特開昭63−229496に記載
される如く、以下の手順による。

入力音声に含まれる単語に関する特徴を抽出する。

予め上記と同様の方法で抽出しておいた辞書との距
離を計算する。

上記の計算結果より、入力音声が辞書に登録してお
いたどの単語か判定する。

今回入力話者に認識単語を知らせる。入力話者は、単
語認識システムによる誤認識の有無をチェックする。

上記のチェックにより、誤認識が判明した場合、今
回入力話者の手入力により、今回誤認識した単語の特徴
量を新たな標準パターンとして追加登録する。

これにより、１つの登録単語について、既登録の標準
パターンに加え、追加登録の標準パターンが並存するこ
とになる。

［発明が解決しようとする課題］然しながら、上記従来の単語認識システムでは、下記
〜の問題点がある。

標準パターン作成時から時間が経過するにつれ、認識
率が劣化する。例えば、３ケ月経過により、認識率は10
0.0％から85.0％に劣化する。

実時間処理が困難である。即ち、一定以上の認識率を
確保するためには複雑な特徴量を用いる必要があるが、
複雑な特徴量を抽出するためには複雑な処理装置が必要
であり、処理時間も多大となる。

誤認識の再発防止のため、誤認識に係る登録単語につ
いてその標準パターンを追加登録する毎に、標準パター
ンのメモリ容量が必要になる。

上記にて標準パターンを追加登録する結果、認識時
に距離計算するパターン数が増え、認識処理時間が増大
化する。

本発明は、経時的な認識率の劣化が極めて少なく、か
つ容易に実時間処理できる単語認識システムを得ること
を目的とする。

又、本発明は、認識不能に係る登録単語を追加学習し
て認識不能の再発を防止するに際し、メモリ容量の増加
と認識処理時間の増大化を必要とすることなく、かつ容
易に実時間処理できる単語認識システムを得ることを目
的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワーク
を用いた単語認識システムであって、登録単語に対応す
る出力ユニットの出力値に対し、単語認識用しきい値と
追加学習用しきい値とを設定し、上記出力値が単語認識
用しきい値より大なることを条件に、今回の入力音声単
語を登録単語と判定し、上記出力値が単語認識用しきい
値より大、かつ追加学習用しきい値より小なることを条
件に、今回の入力音声データを用いてニューラルネット
ワークの追加学習を行なうようにしたものである。

請求項２に記載の本発明は、ニューラルネットワーク
を用いた単語認識システムであって、登録単語に対応す
る出力ユニットの出力値に対し、単語認識用しきい値と
追加学習用しきい値とを設定し、上記出力値が単語認識
用しきい値より大なることを条件に、今回の入力音声単
語を登録単語と判定し、（Ａ）上記出力値が単語認識用
しきい値より小なることを条件に、今回の入力音声単語
を認識できなかったことを表示し、この表示に対して今
回の話者により教示される今回の入力単語データと今回
の入力音声データとを用いてニューラルネットワークの
追加学習を行ない、（Ｂ）上記出力値が単語認識用しき
い値より大、かつ追加学習用しきい値より小なることを
条件に、今回の入力音声データを用いてニューラルネッ
トワークの追加学習を行なうようにしたものである。

請求項３に記載の本発明は、前記ニューラルネットワ
ークへの入力として、音声の周波数特性の時間的変化、音声の平均的な線形予測係数、音声の平均的なPARCOR係数、音声の平均的な周波数特性、及びピッチ周波数、高域強調を施された音声波形の平均的な周波数特性、
並びに音声の平均的な周波数特性のうちの１つ以上を使用するようにしたものである。

請求項４に記載の本発明は、前記ニューラルネットワ
ークが階層的なニューラルネットワークであるようにし
たものである。

［作用］請求項１に記載の本発明によれば、下記（１）〜
（５）の作用効果がある。

（１）経時的な認識率の劣化が極めて少ない。このこと
は、後述する実験結果により確認されていることである
が、ニューラルネットワークが音声の時期差による変動
の影響を受けにくい構造をとることが可能なためと推定
される。

（２）ニューラルネットワークを構成する、登録単語に
対応する出力ユニットの出力値に対し、単語認識用しき
い値の他に、追加学習用しきい値を設けた。即ち、上記
出力値が単語認識用しきい値を超えて大なるものであ
り、入力音声単語を登録単語と判定できるものであって
も、該出力値が該単語認識用しきい値より大なる追加学
習用しきい値を超えるものでない場合には、今回の入力
音声データを用いてニューラルネットワークの追加学習
を行なう。これにより、ニューラルネットワークの認識
率が劣化する前に、常に該ニューラルネットワークを更
新し、結果として、経時的な認識率の劣化が極めて少な
い単語認識システムを構成できる。

（３）ニューラルネットワークは、原理的に、ネットワ
ーク全体の演算処理が単純且つ迅速である。

（４）ニューラルネットワークは、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速であ
る。

（５）上記（３）〜（４）により、単語認識システムを
複雑な処理装置によることなく容易に実時間処理でき
る。

又、請求項２に記載の本発明によれば、上記（１）〜
（５）の作用効果に加えて、下記（６）の作用効果があ
る。

（６）ニューラルネットワークにて今回の入力音声単語
が認識不能である時、入力話者の助力により今回の入力
単語データを教示されて該ニューラルネットワークの追
加学習を行ない、認識不能の再発を防止できる。この
際、追加学習は、ニューラルネットワークの各ユニット
の変換関数及び重みを修正することによりなされるもの
であるため、メモリ容量の増加や認識処理時間の増大化
を必要とすることがない。

請求項３に記載の本発明によれば、上記（１）〜
（６）の作用効果に加えて、下記（７）の作用効果があ
る。

（７）ニューラルネットワークへの入力として、請求項
３に記載の〜の各要素のうちの１つの以上を用いる
から、入力を得るための前処理が、従来の複雑な特徴量
抽出に対して、単純となり、この前処理に要する時間が
短くて足りる。

請求項４に記載の本発明によれば、上記（１）〜
（７）の作用効果に加えて、下記（８）の作用効果があ
る。

（８）階層的なニューラルネットワークにあっては、現
在、後述する如くの簡単な学習アルゴリズム（バックプ
ロパゲーション）が確立されており、高い認識率を実現
できるニューラルネットワークを容易に形成できる。

［実施例］第１図は本発明が適用された単語認識システムの一例
を示す模式図、第２図は音声処理部とニューラルネット
ワークの一例を示す模式図、第３図は入力音声を示す模
式図、第４図はバンドパスフィルタの出力を示す模式
図、第５図はニューラルネットワークを示す模式図、第
６図は階層的なニューラルネットワークを示す模式図、
第７図はユニットの構造を示す模式図である。

本発明の具体的実施例の説明に先立ち、ニューラルネ
ットワークの構成、学習アルゴリズムについて説明す
る。

（１）ニューラルネットワークは、その構造から、第５
図（Ａ）に示す階層的ネットワークと第５図（Ｂ）に示
す相互結合ネットワークの２種に大別できる。本発明
は、両ネットワークのいずれを用いて構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムが確立されているためより有用で
ある。

（２）ネットワークの構造階層的ネットワークは、第６図に示す如く、入力層、
中間層、出力層からなる階層構造をとる。各層は１以上
のユニットから構成される。結合は、入力層→中間層→
出力層という前向きの結合だけで、各層内での結合はな
い。

（３）ユニットの構造ユニットは第７図に示す如く脳のニューロンのモデル
化であり構造は簡単である。他のユニットから入力を受
け、その総和をとり一定の規則（変換関数）で変換し、
結果を出力する。他のユニットとの結合には、それぞれ
結合の強さを表わす可変の重みを付ける。

（４）学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望ま
しい出力）に近づけることであり、一般的には第７図に
示した各ユニットの変換関数及び重みを変化させて学習
を行なう。

又、学習のアルゴリズムとしては、例えば、Rumelhar
t,D.E.,McClelland,J.L.and the PDP Research Group,P
ARALLEL DISTRIBUTED PROCESSING,the MIT Press,1986.
に記載されているバックプロパゲーションを用いること
ができる。

以下、本発明の具体的な実施例について説明する。

単語認識システム10は、第１図に示す如く、音声入力
部11、音声処理部12、ニューラルネットワーク13、判定
部14、メモリ部15、ネットワーク制御部16、機器制御部
17、表示制御部18、表示部19、教示部20を有して構成さ
れる。

（１）音声入力部11に登録音声を入力する。

この時、学習単語を、「ショウメイ」、「エアコ
ン」、「カーテン」、「テレビ」、「ドア」の５単語と
する。

又、入力単語を、「ショウメイ」、「エアコン」、
「カーテン」、「テレビ」、「ドア」の５単語とする。

（２）音声処理部12で、上記（１）の入力音声に簡単な
前処理を施す。

前処理結果は、今回の単語認識のためにニューラルネ
ットワーク13に転送されるとともに、追加学習の可能性
に備えて、メモリ部15に転送される。

（３）ニューラルネットワーク13は、下記の学習動作
と下記の評価動作を行なう。

学習登録単語の対応する出力ユニットの目標出力値を
（１）、対応しない出力ユニットの目標出力値を（０）
とする。

特定話者の入力音声に、音声処理部12による前処理を
施し、この前処理結果をニューラルネットワーク13に入
力する。そして、ニューラルネットワーク13の出力値
（出力層を構成する各出力ユニットの出力値）が上記目
標値に近づくように、ニューラルネットワーク13の各ユ
ニットの変換関数及び重みを修正する。

この学習動作を例えば1000回くり返す。

評価今回話者の入力音声に前処理を施し、この前処理を施
した音声をニューラルネットワーク13に入力し、ニュー
ラルネットワークの出力値を得る。

そして、ニューラルネットワーク13の各登録単語に対
応する出力ユニットの出力値（Ｘ）が判定部14に転送さ
れる。

（４）判定部14は、ニューラルネットワーク13の出力値
（Ｘ）に対し、しきい値θ１、θ２（θ１＞θ２）を設
ける。

θ１は追加学習用しきい値、θ２は単語認識用しきい
値である。

判定部14は、上記しきい値を用いて、下記〜の判
定動作を行なう。

［Ｘ＞θ２］であることを条件に、判定部14は、今回の入力音声単語
を登録単語と判定し、この登録単語判定信号を機器制御
部17に出力する。

［Ｘ＜θ２］であることを条件に、判定部14は、今回の入力音声単語
を認識できなかった旨の認識不能信号を表示制御部18に
出力する。

上記の登録単語判定時に限り、判定部14は、更に次
の（ａ）、（ｂ）の処理を行なう。

（ａ）［Ｘ＜θ１］であることを条件に、判定部14は、今回の入力音声デー
タを用いてニューラルネットワーク13の追加学習を行な
うべく、ネットワーク制御部16に追加学習実行信号を出
力する。

（ｂ）［Ｘ＞θ１］である時、判定部14は何もしない。

（５）機器制御部17は、判定部14による上記の判定結
果に基づく登録単語判定信号により、機器を制御する。

この機器は、例えば照明器具であり、上記登録単語判
定信号に基づいて点灯制御を行なう。

（６）ネットワーク制御部16は、判定部14による上記
の判定結果に基づく追加学習実行信号により、ニューラ
ルネットワーク13の追加学習を行なうことを判断する。
この時、ネットワーク制御部16は、メモリ部15より、今
回の入力音声データを取出し、この入力音声データをニ
ューラルネットワーク13に再入力し、この入力に対する
ニューラルネットワーク13の出力値（Ｘ）が今回認識済
の入力単語に対応する前述（３）の登録単語について
の目標値（１）に近づくように、ニューラルネットワー
ク13の各ユニットの変換関数及び重みを修正する。ネッ
トワーク制御部16は、この追加学習動作を例えば1000回
くり返す。

（７）表示制御部18は、判定部14による上記の判定結
果に基づく認識不能信号により、表示部19を駆動し、今
回の入力音声単語を認識できなかったことを表示し、こ
れを話者に知らしめる。

同時に、表示制御部18は、表示部19を駆動し、全登録
単語（前述の５単語）を順次表示する。これに対し、今
回の話者、は教示部20を手操作して、自らが今回入力し
て認識不能であった入力単語を表示部19の表示単語デー
タから特定し、この入力単語データを表示制御部18に送
信する。

表示制御部18は、教示部20から送信された入力単語デ
ータを判断し、この認識不能であった単語についての追
加学習実行信号をネットワーク制御部16に出力する。

（８）ネットワーク制御部16は、表示制御部18による上
記（７）の制御結果に基づく追加学習実行信号により、
ニューラルネットワーク13の追加学習を行なうことを判
断する。この時、ネットワーク制御部16は、今回の話者
により教示された今回の入力単語データと、メモリ部15
より取出した今回の入力音声データとに基づき、今回の
入力音声データをニューラルネットワーク13に再入力
し、この入力に対するニューラルネットワーク13の出力
値（Ｘ）が今回認識不能であった入力単語に対応する前
述（３）の登録単語についての目標値（１）に近づく
ように、ニューラルネットワーク13の各ユニットの変換
関数及び重みを修正する。ネットワーク制御部16はこの
追加学習動作を例えば1000回くり返す。

以下、第２図に示す如く、階層的なニューラルネット
ワーク13を用い、ニューラルネットワーク13の入力とし
て音声の一定時間内における平均的な周波数特性の時間
的変化を用いた場合の具体的実施例について説明する。

尚、音声処理部12は、第２図に示す如く、ローパスフ
ィルタ21、バンドパスフィルタ22、平均化回路23の結合
にて構成される。

入力音声の音声信号の高域成分を、ローパスフィルタ
21にてカットする。そして、この入力音声を第３図に示
す如く、４つのブロックに時間的に等分割する。

音声波形を、第２図に示す如く、複数（ｎ個）チャン
ネルのバンドパスフィルタ22に通し、各ブロック即ち各
一定時間毎に第４図（Ａ）〜（Ｄ）のそれぞれに示す如
くの周波数特性を得る。

この時、バンドパスフィルタ22の出力信号は、平均化
回路23にて、各ブロック如、即ち一定時間で平均化され
る。

以上の前処理により、「音声の一定時間内における平
均的な周波数特性の時間的変化」が得られた。

平均化回路23の出力は、直接的にニューラルネットワ
ーク13に転送され、或いはメモリ部15を経由して間接的
にニューラルネットワーク13に転送される。

ニューラルネットワーク13は、３層の階層的なニュー
ラルネットワークにて構成される。入力層31は、前処理
の４ブロック、ｎチャンネルに対応する４×ｎユニット
にて構成される。出力層32は、前述した登録単語数（５
単語）に対応する５ユニットにて構成される。

出力層32の目標値は、登録単語「ショウメイ」に対応
する出力ユニットについては（1,0,0,0,0）、「エアコ
ン」に対応する出力ユニットについては（0,1,0,0,
0）、「カーテン」に対応する出力ユニットについては
（0,0,1,0,0）、「テレビ」に対応する出力ユニットに
ついては（0,0,0,1,0）、「ドア」に対応する出力ユニ
ットについては（0,0,0,0,1）である。

実験（１）学習用の話者である特定話者（１人）による入力
時、認識率は100％であった。

（２）不特定話者（20人）による入力時、前述の追加学
習なしの場合、認識率は92.0％であった。

（３）不特定話者（20人）による入力時、前述の追加学
習ありの場合、認識率は99.0％であった。

次に、上記実施例の作用について説明する。

（１）経時的な認識率の劣化が極めて少ない。このこと
は、後述する実験結果により確認されていることである
が、ニューラルネットワーク13が音声の時期差による変
動の影響を受けにくい構造をとることが可能なためと推
定される。

（２）ニューラルネットワーク13を構成する、登録単語
に対応する出力ユニットの出力値に対し、単語認識用し
きい値の他に、追加学習用しきい値を設けた。即ち、上
記出力値が単語認識用しきい値を超えて大なるものであ
り、入力音声単語を登録単語と判定できるものであって
も、該出力値が該単語認識用しきい値より大なる追加学
習用しきい値を超えるものでない場合には、今回の入力
音声データを用いてニューラルネットワーク13の追加学
習を行なう。これにより、ニューラルネットワーク13の
認識率が劣化する前に、常に該ニューラルネットワーク
13を更新し、結果として、経時的な認識率の劣化が極め
て少ない単語認識システムを構成できる。

（３）ニューラルネットワーク13は、原理的に、ネット
ワーク全体の演算処理が単純且つ迅速である。

（４）ニューラルネットワーク13は、原理的に、それを
構成している各ユニットが独立に動作しており、並列的
な演算処理が可能である。従って、演算処理が迅速であ
る。

（５）上記（３）〜（４）により、単語認識システム10
を複雑な処理装置によることなく容易に実時間処理でき
る。

（６）ニューラルネットワーク13にて今回の入力音声単
語が認識不能である時、入力話者の助力により今回の入
力単語データを教示されて該ニューラルネットワーク13
の追加学習を行ない、認識不能の再発を防止できる。こ
の際、追加学習は、ニューラルネットワーク13の各ユニ
ットの変換関数及び重みを修正することによりなされる
ものであるため、メモリ容量の増加や認識処理時間の増
大化を必要とすることがない。

（７）ニューラルネットワーク13への入力として、「音
声の周波数特性の時間的変化」を用いたから、入力を得
るための前処理が従来の複雑な特徴量抽出に比して、単
純となりこの前処理に要する時間が短くて足りる。

この時、上記ニューラルネットワークへの入力とし
て、更に、「音声の一定時間内における平均的な周波数
特性の時間的変化」を用いたから、ニューラルネットワ
ーク13における処理が単純となり、この処理に要する時
間がより短くて足りる。

（８）階層的なニューラルネットワーク13を用いたか
ら、現在、既に確立している簡単な学習アルゴリズム
（バックプロパゲーション）を用いて、高い認識率を達
成できる。

尚、本発明の実施においては、ニューラルネットワー
クへの入力として、音声の周波数特性の時間的変化、音声の平均的な線形予測係数、音声の平均的なPARCOR係数、音声の平均的な周波数特性、及びピッチ周波数、高域強調を施された音声波形の平均的な周波数特性、
並びに音声の平均的な周波数特性のうちの１つ以上を使用できる。

そして、上記の要素が更に「音声の一定時間内にお
ける平均的な周波数特性の時間的変化」として用いられ
たように、上記の要素は「音声の一定時間内における
平均的な線形予測係数の時間的変化」、上記の要素は
「音声の一定時間内における平均的なPARCOR係数の時間
点変化」、上記の要素は「音声と一定時間内における
平均的な周波数特性、及びピッチ周波数の時間的変
化」、上記の要素は、「高域強調を施された音声波形
の一定時間内における平均的な周波数特性の時間的変
化」として用いることができる。

尚、上記の線形予測係数は、以下の如く定義され
る。

即ち、音声波形のサンプル値｛χ_ｎ｝の間には、一般
に高い近接相関があることが知られている。そこで次の
ような線形予測が可能であると仮定する。

ここで、χ_t:時刻ｔにおける音声波形のサンプル値、
｛α_ｉ｝（ｉ＝1,…,p）：（ｐ次）の線形予測係数さて、本発明の実施においては、線形予測誤差ε_ｔの
２乗平均値が最小となるように線形予測係数｛α_ｉ｝を
求める。

具体的には（ε_ｔ）^２を求め、その時間平均を（▲
▼）^２と表わして、∂（▲▼）²/∂α_ｉ＝0,i＝
1,2,…,pとおくことによって、次の式から｛α_ｉ｝が求
められる。

又、上記のPARCOR係数は以下の如く定義される。

即ち、［k_n］（ｎ＝1,…,p）を（ｐ次の）PARCOR係数
（偏自己相関係数）とする時、PARCOR係数k_n+1は、線形
予測による前向き残差ε_t ^(f)と後向き残差ε_t-(n+1) ^(b)
間の正規化相関係数として、次の式によって定義され
る。

ここで、｛α_ｉ｝：前向き予測係数、｛β_ｊ｝：後向き予測係数又、上記の音声のピッチ周波数とは、声帯波の繰り
返し周期（ピッチ周期）の逆数である。尚、ニューラル
ネットワークへの入力として、個人差がある声帯の基本
的なパラメータであるピッチ周波数を付加したから、特
に大人／小人、男性／女性間の話者の認識率を向上する
ことができる。

又、上記の高域強調とは、音声波形のスペクトルの
平均的な傾きを補償して、低域にエネルギが集中するこ
とを防止することである。然るに、音声波形のスペクト
ルの平均的な傾きは話者に共通のものであり、話者の認
識には無関係である。ところが、このスペクトルの平均
的な傾きが補償されていない音声波形をそのままニュー
ラルネットワークへ入力する場合には、ニューラルネッ
トワークが学習する時にスペクトルの平均的な傾きの特
徴の方を抽出してしまい、話者の認識に必要なスペクト
ルの山と谷を抽出するのに時間がかかる。これに対し、
ニューラルネットワークへの入力を高域強調する場合に
は、話者に共通で、認識には無関係でありながら、学習
に影響を及ぼすスペクトルの平均的な傾きを補償できる
ため、学習速度が速くなるのである。

［発明の効果］以上のように本発明によれば、経時的な認識率の劣化
が極めて少なく、かつ容易に実時間処理できる単語認識
システムを得ることができる。

又、本発明によれば、認識不能に係る登録単語を追加
学習して認識不能の再発を防止するに際し、メモリ容量
の増加と認識処理時間の増大化を必要とすることによ
り、かつ容易に実時間処理できる単語認識システムを得
ることができる。

【図面の簡単な説明】

第１図は本発明が適用された単語認識システムの一例を
示す模式図、第２図は音声処理部とニューラルネットワ
ークの一例を示す模式図、第３図は入力音声を示す模式
図、第４図はバンドパスフィルタの出力を示す模式図、
第５図はニューラルネットワークを示す模式図、第６図
は階層的なニューラルネットワークを示す模式図、第７
図はユニットの構造を示す模式図である。 10……話者認識システム、 11……音声入力部、 12……音声処理部、 13……ニューラルネットワーク、 14……判定部、 15……メモリ部、 16……ネットワーク制御部、 17……機器制御部、 18……表示制御部、 19……表示部、 20……教示部。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭58−37700（ＪＰ，Ａ) 特開昭61−114299（ＪＰ，Ａ) 特開昭61−292696（ＪＰ，Ａ) 特開昭61−102698（ＪＰ，Ａ) 特開昭62−89098（ＪＰ，Ａ) 特開昭63−261400（ＪＰ，Ａ) 日本音響学会誌44巻10号（昭和63年) Ｐ．798〜804 昭和63年電気・情報関連学会連合大会 31−１Ｐ．５−65〜68

Claims

(57)【特許請求の範囲】

【請求項１】ニューラルネットワークを用いた単語認識
システムであって、登録単語に対応する出力ユニットの
出力値に対し、単語認識用しきい値と追加学習用しきい
値とを設定し、上記出力値が単語認識用しきい値より大
なることを条件に、今回の入力音声単語を登録単語と判
定し、上記出力値が単語認識用しきい値より大、かつ追
加学習用しきい値より小なることを条件に、今回の入力
音声データを用いてニューラルネットワークの追加学習
を行なう単語認識システム。
【請求項２】ニューラルネットワークを用いた単語認識
システムであって、登録単語に対応する出力ユニットの
出力値に対し、単語認識用しきい値と追加学習用しきい
値とを設定し、上記出力値が単語認識用しきい値より大
なることを条件に、今回の入力音声単語を登録単語と判
定し、（Ａ）上記出力値が単語認識用しきい値より小な
ることを条件に、今回の入力音声単語を認識できなかっ
たことを表示し、この表示に対して今回の話者により教
示される今回の入力単語データと今回の入力音声データ
とを用いてニューラルネットワークの追加学習を行な
い、（Ｂ）上記出力値が単語認識用しきい値より大、か
つ追加学習用しきい値より小なることを条件に、今回の
入力音声データを用いてニューラルネットワークの追加
学習を行なう単語認識システム。
【請求項３】前記ニューラルネットワークへの入力とし
て、音声の周波数特性の時間的変化、音声の平均的な線形予測係数、音声の平均的なPARCOR係数、音声の平均的な周波数特性、及びピッチ周波数、音域強調を施された音声波形の平均的な周波数特性、
並びに音声の平均的な周波数特性のうちの１つ以上を使用する請求項１または２に記載の
単語認識システム。
【請求項４】前記ニューラルネットワークが階層的なニ
ューラルネットワークである請求項１または２に記載の
単語認識システム。