JPH08227410A

JPH08227410A - ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置

Info

Publication number: JPH08227410A
Application number: JP7236061A
Authority: JP
Inventors: Hideto Tomabechi; 英人苫米地
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 1994-12-22
Filing date: 1995-08-22
Publication date: 1996-09-03
Also published as: US6026358A

Abstract

(57)【要約】【課題】ニューラルネットワークを利用して、連続音
声を音素または単語単位で認識することができる音声認
識装置を提供する。【解決手段】ニューロン素子網２２は、音声入力層３
２、環境層３３、中間層３４、音声出力層３７、仮説出
力層３８を備える。学習する音素を、ＦＦＴ装置２１で
スペクトル解析し、時間ｔの音声ベクトル列を音声入力
層３２に入力、中間層３４の時間ｔ−１でのベクトル状
態を環境層３３に入力、教師信号として時間ｔ＋１のベ
クトル列を音声出力層３７に入力、音素を仮説する符号
列を仮説出力層３８に入力することで、ベクトル列の時
系列的関係と、その関係を有する音素（符号列）が仮説
的に学習される。音声認識時にはスペクトル、ケプスト
ラム、自己連想型ＮＮの中間層出力による音声ベクトル
列が音声入力層３２に入力され、時系列的な関係も考慮
した符号列が仮説出力層３８から出力される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ニューラルネット
ワークの学習方法、ニューラルネットワークおよびニュ
ーラルネットワークを利用した音声認識装置に関する。

【０００２】

【従来の技術】人間の脳神経系の仕組みを工学的に実現
し、情報処理を行おうとするニューラルネットワークが
注目されている。このニューラルネットワークは、デー
タの伝搬を行う複数のニューロン素子から成るニューロ
ン素子網とその学習を制御する学習制御部から構成され
ている。このニューロン素子網は、一般に、データが入
力される入力層と、入力されたデータに対してデータが
出力される出力層、およびこの両層間に配置された１ま
たは複数の中間層から構成されている。そして、ニュー
ロン素子網の各層間におけるニューロン素子は、他のニ
ューロン素子に対して所定の強さ（結合重み）で結合さ
れており、この結合重みの値の違いにより出力信号が変
化するようになっている。

【０００３】このような階層構造に構成された従来のニ
ューラルネットワークでは、各ニューロン素子相互間の
結合重みを学習制御部により変化させることによって
「学習」という処理が行われる。学習は、入力層と出力
層の入出力数に対応して与えられるアナログまたは２値
のデータ（パターン）によって行われる。いま、データ
としてｇ１〜ｇ６が与えられ、この内、ｇ１〜ｇ３を入
力層から学習パターンとして入力した場合に、出力層か
らある出力信号ｐ１〜ｐ３が出力されたものとする。こ
の入力信号に対する出力信号の正解がｇ４〜ｇ６である
場合、これらｇ４〜ｇ６を一般に教師信号と呼んでい
る。そして、出力信号ｐ１〜ｐ３と教師信号ｇ４〜ｇ６
との誤差が最小になるように、または一致するように各
ニューロン素子の結合重みを修正する処理を、複数の学
習パターンに対して実行することによって学習が行われ
る。

【０００４】このような、教師信号に出力信号が一致す
るように、ニューロン素子網における各ニューロン素子
間の結合重みを修正する具体的方法として、従来から誤
差逆伝播法（以下、ＢＰ法という。）がよく用いられて
いる。ＢＰ法は、出力層での出力値と教師信号との誤差
を最小にするために、このニューラルネットワークを構
成する全ての層間における各ニューロン素子相互間の結
合重みを修正するものである。すなわち、出力層におけ
る誤差は、各中間層のニューロン素子で生じる個々の誤
差が積算されたものであると判断し、単に出力層からの
誤差だけでなく、その原因となっている各中間層のニュ
ーロン素子の誤差も最小となるように結合重みを修正す
る。そのために出力層、各中間層のニューロン素子毎の
全ての誤差を計算処理する。

【０００５】この計算処理は、出力層のニューロン素子
の個々の誤差値を初期条件として与えて、ｎ番目の中間
層の各ニューロン素子の誤差値、（ｎ−１）番目の中間
層の誤差、……、といったように、逆の方向に計算処理
を行う。このようにして求めた各ニューロン素子の持つ
誤差値と、その時点での結合重みを用いて、結合重みの
修正値を算出する。以上の、学習処理を教師信号との誤
差が一定値以下となるまで、または所定回数だけ、全て
の学習パターンについて繰り返すことにより、学習が終
了する。このようなニューラルネットワークを使用し
て、各種データの文字や図形等のパターン認識、音声の
分析や合成処理、運動の時系列パターン発生の予測等を
行うことが研究されている。

【０００６】

【発明が解決しようとする課題】しかし、従来のニュー
ラルネットワークでは、音声認識や文字認識、形状認識
等を行う場合について、必ずしも学習が有効に行われる
形式でニューロン素子網の各層を利用していなかった。
このため、例えば、音声認識装置に従来のニューラルネ
ットワークを利用した場合、入力スペクトルのサイズを
ニューラルネットワークのサイズにあらかじめセグメン
トしてあわせておく必要があり、発話速度と個々の音韻
の長さが自由に変化する連続音声認識に応用することが
困難であった。現在は、音韻をニューラルネットワーク
のサイズにセグメント加工した後、音韻毎に単独で音声
認識が行われているのみである。

【０００７】また、音声認識用ニューラルネットワーク
の最初の位置にあらかじめ入力スペクトルを適合させて
おく必要がある。従って既存の手法では、音韻の開始タ
イミングが自由に変化する連続音声認識に対応すること
ができない。さらに、従来のニューラルネットワークに
対する音声認識では、音韻のスペクトルはそれぞれ単独
で与えられている。しかしながら、連続音声認識時にお
ける各音素の状態はそれぞれの前に現れる音素の状態に
より影響を受けているため、音素毎の単独の認識をおこ
なう既存のニューラルネットワークによる認識では、前
に提示された音素情報を利用することができず連続音声
認識には適当ではなかった。

【０００８】そこで、本発明は、複数のベクトル列Ｆｎ
の集合が特定の意味Ａを表すデータを処理するニューラ
ルネットワークの新しい学習方法を提供することを第１
の目的とする。また本発明は、複数のベクトル列Ｆｎの
集合が特定の意味Ａを表すデータを処理する新しい形式
のニューラルネットワークを提供することを第２の目的
とする。さらに本発明は、連続音声を音素または単語単
位で認識することができる音声認識装置を提供すること
を第３の目的とする。

【０００９】

【課題を解決するための手段】請求項１記載の発明で
は、複数のベクトル列Ｆｎ（ｎ＝１、２、３、…）の集
合が特定の意味Ａを表すデータについて、ベクトル列Ｆ
ｎをデータ入力層に入力し、ベクトル列Ｆｎ＋１を第１
教師信号として第１出力層に入力し、特定の意味Ａを第
２教師信号として第２出力層に入力して、学習を行うこ
とで前記第１の目的を達成する。請求項２記載の発明で
は、複数のベクトル列Ｆｎ（ｎ＝１、２、３、…）の集
合が特定の意味Ａを表すデータについて、中間層と結合
し、この中間層または第１出力層とニューロン素子数が
同一である環帰入力層に、ベクトル列Ｆｎ−１に対する
中間層または第１出力層の出力ベクトル値を入力し、ベ
クトル列Ｆｎをデータ入力層に入力し、ベクトル列Ｆｎ
＋１を第１教師信号として第１出力層に入力し、特定の
意味Ａを第２教師信号として第２出力層に入力して、学
習を行うことで前記第１の目的を達成する。請求項３記
載の発明では、請求項１または請求項２記載のニューラ
ルネットワークの学習方法において、バックプロパゲー
ション則により学習することで、前記第１の目的を達成
する。請求項４記載の発明では、請求項１から請求項３
のいずれか１の請求項に記載のニューラルネットワーク
の学習方法において、前記特定の意味Ａが音声を構成す
る音素であり、複数のベクトル列Ｆｎが、時系列的に解
析された特定の意味Ａについての特徴量を表すベクトル
列である、ことで前記第１の目的を達成する。請求項５
記載の発明では、請求項４に記載のニューラルネットワ
ークの学習方法において、前記特定の意味Ａについての
特徴量を表すベクトルとして、音声のスペクトルデー
タ、ケプストラムデータ、または自己連想型ニューラル
ネットワークの中間層の出力値データを使用する、こと
で前記第１の目的を達成する。請求項６記載の発明で
は、データ入力層と、このデータ入力層と結合した中間
層と、この中間層と結合し第１出力層と第２出力層から
なる出力層とを有するニューロン素子網と、複数のベク
トル列Ｆｎ（ｎ＝１、２、３、…）の集合が特定の意味
Ａを表すデータについて、ベクトル列Ｆｎをデータ入力
層に入力し、ベクトル列Ｆｎ＋１を第１教師信号として
第１出力層に入力し、特定の意味Ａを第２教師信号とし
て第２出力層に入力して、前記ニューロン素子網の学習
を行う学習手段と、ベクトル列を前記学習手段で学習さ
れた前記ニューロン素子網のデータ入力層に入力する入
力手段と、この入力手段によるベクトル列の入力によ
る、第２出力層の出力信号を出力する出力手段とをニュ
ーラルネットワークに具備させて、前記第２の目的を達
成する。請求項７記載の発明では、請求項６記載のニュ
ーラルネットワークにおいて、少なくとも特定の意味Ａ
の数だけ中間層を有し、データ入力層と出力層とが結合
し、前記各中間層は、ベクトル列Ｆｎ−１に対する出力
ベクトル値に応じた値が、フィードバック入力する、こ
とで、前記第２の目的を達成する。請求項８記載の発明
では、データ入力層と環帰入力層からなる入力層と、こ
の入力層と結合した中間層と、この中間層と結合し第１
出力層と第２出力層からなる出力層とを有し、前記環帰
入力層は、前記中間層または第１出力層とニューロン素
子数が同一であるニューロン素子網と、複数のベクトル
列Ｆｎの集合が特定の意味Ａを表すデータについて、ベ
クトル列Ｆｎ−１に対する中間層または第１出力層の出
力ベクトル値を環帰入力層に入力し、ベクトル列Ｆｎを
入力層のデータ入力層に入力し、ベクトル列Ｆｎ＋１を
第１教師信号として第１出力層に入力し、特定の意味Ａ
を第２教師信号として第２出力層に入力して、前記ニュ
ーロン素子網の学習を行う学習手段と、ベクトル列を前
記学習手段で学習された前記ニューロン素子網のデータ
入力層に入力する入力手段と、この入力手段によるベク
トル列の入力による、第２出力層の出力信号を出力する
出力手段とをニューラルネットワークに具備させて、前
記第２の目的を達成する。請求項９記載の発明では、請
求項１から請求項４のうちのいずれか１つの請求項に記
載された方法により学習した各ニューロン素子間の結合
重みを有する、データ入力層と、中間層と、第２出力層
を少なくともニューラルネットワークに具備させて、前
記第２の目的を達成する。請求項１０記載の発明では、
請求項６から請求項９のうちのいずれか１の請求項に記
載されたニューラルネットワークと、音声を入力する音
声入力手段と、この入力手段から入力された音声の特徴
量を表すベクトル列を時系列的に解析する解析手段と、
この解析手段で解析されたベクトル列をデータ入力層に
順次入力するベクトル列入力手段と、このベクトル列入
力手段がベクトル列をデータ入力層に順次入力すること
で得られる第２出力層の出力から、音素を特定する音素
特定手段、とを音声認識装置に具備させて前記第３の目
的を達成する。請求項１１に記載の発明では、請求項１
０に記載の音声認識装置において、前記解析手段は、音
声の特徴量を表すベクトル列として、音声のスペクトル
データ、ケプストラムデータ、または自己連想型ニュー
ラルネットワークの中間層の出力値データを使用する、
ことで前記第３の目的を達成する。

【００１０】

【発明の実施の形態】以下、本発明のニューラルネット
ワークの学習方法、ニューラルネットワークおよびニュ
ーラルネットワークを利用した音声認識装置について、
一実施形態を図１ないし図８を参照して詳細に説明す
る。図１はニューラルネットワークを利用した音声認識
装置のシステム構成を表したものである。この音声認識
装置は、ニューロン素子網に対する学習のためのベクト
ル列の入力と出力層への教師信号（ベクトル列）の入
力、学習による各ニューロン素子間の結合重みの変更、
およびニューロン素子網からの出力信号に基づく音声認
識等の各種処理および制御を行うＣＰＵ１１を備えてい
る。このＣＰＵ１１は、データバス等のバスライン１２
を介して、ＲＯＭ１３、ＲＡＭ１４、通信制御装置１
５、プリンタ１６、表示装置１７、キーボード１８、Ｆ
ＦＴ（高速フーリエ変換）装置２１、ニューロン素子網
２２、および図形読取装置２４が接続されている。

【００１１】ＲＯＭ１３は、ＣＰＵ１１が音声認識やニ
ューロン素子網の学習等の処理や制御を行うための各種
プログラムやデータが格納されているリード・オンリー
・メモリである。このＲＯＭ１３には、例えば、ニュー
ロン素子網の学習としてバックプロパゲーション則によ
る学習を行うためのプログラムや、音声認識を行うため
の８０種類の音素についての符号列が格納されている。
この音素についての符号列が第２教師信号として使用さ
れると共に、ニューロン素子網の出力信号から音素を認
識する場合に使用される。またＲＯＭ１３には、認識し
た音素から音声を認識すると共に、認識した音声を文字
による文章に変換する日本語変換システムのプログラム
も格納されている。

【００１２】ＲＡＭ１４は、ＲＯＭ１３に格納された所
定のプログラムがダウンロードされ格納されると共に、
ＣＰＵ１１のワーキングメモリとして使用されるランダ
ム・アクセス・メモリである。ＲＡＭ１４には、ＦＦＴ
装置２１で解析された音声信号について、各時間と各周
波数におけるパワーを一時格納するためのベクトル列格
納エリアが確保されている。なお、この各周波数におけ
るパワーの値が、ニューロン素子網の第１入力部に入力
されるベクトル列になる。また、ＲＡＭ１４には、文字
や図形等をニューラルネットワークで認識する場合に
は、図形読取装置２４で読み取られた画像データが格納
されるようになっている。

【００１３】通信制御装置１５は、認識した音声データ
等の各種データについて、電話回線網、ＬＡＮ、パーソ
ナルコンピュータ通信網等の各種の通信網２を介して他
の通信制御装置との間でデータ送受信を行う。プリンタ
１６は、レーザプリンタやドットプリンタ等を備えてお
り、入力データや認識した音声の内容等を印刷するよう
になっている。表示装置１７は、ＣＲＴディスプレイや
液晶ディスプレイ等の画像表示部と表示制御部とを備え
ており、入力データや認識した音声の内容、および、音
声認識に必要な操作の指示を画面表示するようになって
いる。キーボード１８は、ＦＦＴ装置２１のパラメータ
の変更や設定条件等を入力したり、文章の入力処理等を
行うための入力装置であり、数字を入力するテンキー、
文字を入力する文字キー、各種の機能を実現するための
機能キー等が配置されている。このキーボード１８に
は、ポインティングデバイスとしてのマウス１９が接続
されている。

【００１４】ＦＦＴ装置２１には、マイク等の音声入力
装置２３が接続されている。このＦＦＴ装置２１は、音
声入力装置２３から入力されたアナログの音声データ
を、ディジタルに変換すると共に、離散的フーリエ変換
によりスペクトル解析を行う。このＦＦＴ装置２１によ
るスペクトル解析により、各周波数毎のパワーによるベ
クトル列が、各時間毎に出力され、この各時間毎のベク
トル列はＲＡＭ１４のベクトル列格納エリアに格納され
るようになっている。図形読取装置２４は、ＣＣＤ（Ch
arge Coupled Device ）等の素子を備えており、用紙等
に記録された文字や図形等の画像を読み取るための装置
であり、この画像読取装置２４で読み取られた画像デー
タは、ＲＡＭ１４に格納されるようになっている。

【００１５】図２は、ニューロン素子網２２の構成を表
したものである。この図２に示すように、ニューロン素
子網２２は、３群５層からなるニューロン素子網で構成
されている。すなわち、第１群は入力層３１で、データ
入力層として機能する音声入力層３２と、環帰入力層と
して機能する環境層（Context 層）３３を有している。
第２群は中間層（Hidden層）３４を有している。第３群
は出力層３６で、第１出力層として機能する音声出力層
３７と、第２出力層として機能する仮説出力層（Hypoth
esis層）３８を有している。ニューロン素子網２２は、
入力層３１、中間層３４および出力層３６を構成する各
ニューロン素子の値を格納するための図示しないメモリ
を備えている。

【００１６】この実施形態の音声認識装置において、音
声入力層３２は、Ｉｎ１〜Ｉｎ３０の３０個のニューロ
ン素子を備えている。また、中間層３４はＨｉ１〜Ｈｉ
２００の２００個、環境層３３は中間層３４と同数でＣ
ｏ１〜Ｃｏ２００の２００個、音声出力層３７は音声入
力層３２と同数でＯｐ１〜Ｏｐ３０の３０個、仮説出力
層３８はＨｙ１〜Ｈｙ８の８個のニューロン素子をそれ
ぞれ備えている。仮説出力層３８は、認識対象となる８
０個の音素に対応する符号化が可能な数として８個のニ
ューロン素子を有しているが、認識対象となる音声が日
本語以外の外国語の場合には、その言語に応じた音素数
と、その音素数の符号化に必要な数のニューロン素子が
使用される。また、日本語の音素として必ずしも８０に
限定する必要はなく、他の分類による音素数およびニュ
ーロン素子数を使用してもよい。また、音素数と同一の
ニューロン素子を仮説出力層５８に具備させてもよい。
すなわち、音素数が８０個の場合、ニューロン素子も各
音素に対応してＨｙ１〜Ｈｙ８０の８０個を仮説出力層
３８に具備させる。そして、第２教師信号として、音素
「ａ」の場合「１００００…０」、音素「ｉ」の場合
「０１０００…０」というように、各音素に対応するビ
ット（ニューロン素子）のみを“１”とし他のビットを
“０”とする。こうすることで、学習処理の負担は増加
するが、学習後の音声認識において、他の音素との区別
を容易に行うことができるようになる。

【００１７】入力層３１、中間層３４および出力層３６
は、順伝播活性ならびに逆伝播学習可能なニューロン素
子網である。入力層３１と中間層３４、および中間層３
４と出力層３６は、完全結合している。すなわち、入力
層３１の全ニューロン素子は中間層３４の全ニューロン
素子と結合しており、中間層３４の全ニューロン素子は
出力層５６の全ニューロン素子と結合している。そし
て、このニューロン素子網の学習時において、ＦＦＴ装
置２１でスペクトル解析された時間ｔにおける音声のベ
クトル列が順次音声入力層３２に入力される。環境層３
３には、１つ前の時間ｔ−１に対する学習が終了した後
の中間層５４０１〜５４８０のベクトル状態が、時間ｔ
において入力される。そして、次に音声入力層３２に与
えられることになる時間ｔ＋１のベクトル列が音声出力
層３７に第１教師信号として入力される。仮説出力層３
８には、時間ｔにおける前後の時間間隔で音声入力層３
２に入力されるベクトル列が表す特定の意味Ａ（例えば
認識されるべき音素）を仮説する符号列が第２教師信号
として入力される。

【００１８】このように、本実施形態では、音声入力層
３２に現在（時間ｔ）のベクトル列を入力し、中間層３
４における過去（時間ｔ−１）のベクトル値を環境層３
３に入力すると共に、音声出力層３７に未来（時間ｔ＋
１）のベクトル列を入力している。このため、各音素に
ついてスペクトル解析された各パワーＰ（ｔｎ）による
ベクトル列についての時系列的な関係が学習されること
になる。すなわち、入力層３１、中間層３４、および音
声出力層３７の各結合重みは、過去、現在、未来にわた
る時系列的な関係を含めた値に学習される。また、同一
の音素についての各パワーＰ（ｔｎ）が音声入力層３１
に入力されて学習を行う際、仮説出力層３８には常時同
一の第２教師信号を入力して学習を行っている。これに
よって、入力されるベクトル列の時系列的な関係と共
に、そ関係を有する音素（符号列）が仮説的に学習され
る。このため、音声認識を行う場合に、スペクトル解析
された音声についてのベクトル列が音声入力層３２に入
力されると、そのベクトル列の時系列的な関係をも考慮
されたベクトル列が仮説出力層３８から出力されること
になる。

【００１９】図３は、第２教師信号テーブルの内容を表
したものである。この図３に示すように、第２教師信号
は、８０個の各音素に対応して、音素「ａ」が「１００
００００」、音素「ｉ」が「０１００００００」、音素
「ｕ」が「００１０００００」、…、というように、各
８ビットの符号列で規定されている。この第２教師信号
が表す符号の各ビットは、仮説出力層３８の各ニューロ
ン素子Ｈｙ１〜Ｈｙ８に供給される。この各音素に対す
る第２教師信号は、ＲＯＭ１３に格納されている。な
お、図３に示した第２教師信号の各符号列は、本実施形
態における例示であり、他の符号列を使用してもよい。
また、音素数に応じて仮説出力層３８のニューロン素子
数が決定されるが、そのニューロン素子数に応じたビッ
ト数で表現するようにしてもよい。

【００２０】図４は、このようなニューロン素子網２２
の各ニューロン素子間の結合重みを格納する結合重みテ
ーブルを表したものである。ニューロン素子網２２は、
この結合重みを格納する図示しないメモリを備えてい
る。そして、図２に表したニューロン素子網についての
学習は、ＣＰＵ１１が所定のバックプロパゲーション則
に従って、このテーブルの結合重みを変更することで行
われる。

【００２１】次に、このように構成された実施形態の動
作について説明する。ニューラルネットワークの学習まずニューラルネットワークについての学習を行う場
合、ユーザは、最初にキーボード１８を操作することに
より、または表示装置１７に表示された所定キーをマウ
スにより操作することにより、学習モードを指定する。
学習モードを指定した後、ユーザは、予め決められた８
０の音素に対応する文字を順次キーボード１８から入力
した後に、その音素についての音声を音声入力装置２３
に入力する。なお、入力すべき音素を表示装置１７に表
示することで、発声すべき音素を順次知らせるようにし
てもよい。音声入力装置２３では、例えば音素「ａ」に
ついて、図５（ａ）に示すようなアナログ信号が入力さ
れると、これをＦＦＴ装置２１に供給する。ＦＦＴ装置
２１では、供給されたアナログ音声データを２２ＫＨｚ
でサンプリングし、１６ビットのＰＣＭデータにＡ／Ｄ
変換し、図示しない記憶部に格納する。

【００２２】次いでＦＦＴ装置２１では、方形窓、ハミ
ング（Ｈａｍｍｉｎｇ）窓、ハニング（Ｈａｎｎｉｇ）
窓等の時間窓の形や、ポイント数等のパラメータに従っ
て、各時間ｔｎ（ｎ＝１、２、…）毎に、高速フーリエ
変換（ＦＦＴ）処理によりディジタル音声データ「ａ」
についてのスペクトル解析を行う。すなわち、ＦＦＴ装
置２１は、図５（ｂ）に示すように、各時間ｔｎ毎にお
ける音声データの、各周波数（Ｆ１〜Ｆ３０）に対する
パワーＰ（ｔｎ）を算出する。この各周波数のパワーＰ
（ｔｎ）によるベクトル列は、図６に示すように、各時
間毎に、ＲＡＭ１４のベクトル列格納エリアに格納され
る。

【００２３】入力された音素について、ＦＦＴ装置２１
によるスペクトル解析が終了すると、ＣＰＵ１１は、Ｒ
ＡＭ１４に格納したベクトル列に従ってニューロン素子
網２２の学習を行う。いま、音素「ａ」の時間ｔｎにお
ける学習について説明する。この場合、ＣＰＵ１１は、
まず、時間ｔｎについての学習開始前の中間層３４のニ
ューロン素子Ｈｉ１〜Ｈｉ２００の状態、すなわち、ｔ
ｎ−１についての学習が終了した時点での中間層３４に
おけるベクトル列を、環境層３３のニューロン素子Ｃｏ
１〜Ｃｏ２００に入力する。そしてＣＰＵ１１は、音素
「ａ」についての時間ｔｎにおけるベクトル列Ｐ（ｔ
ｎ）をＲＡＭ１４から読み出し、音声入力層３１の各ニ
ューロン素子Ｉｎ１〜Ｉｎ３０に入力する。また、時間
ｔｎの次の時間ｔｎ＋１につてのベクトル列Ｐ（ｔｎ＋
１）を第１教師信号として音声出力層３７のニューロン
素子Ｏｕ１〜Ｏｕ３０に入力すると共に、入力された音
素「ａ」について、図３に示す符号列「１００００００
０」を第２教師信号として仮説出力層３８の各ニューロ
ン素子Ｈｙ１〜Ｈｙ８に入力する。

【００２４】入力層３１へのベクトル列の入力および出
力層への教師信号の入力が済むと、ＣＰＵ１１は、図４
に示した、入力層３１、中間層３４および出力層３６の
各ニューロン素子間の結合重みを用いて、学習を行い、
各結合重みを学習後の値に更新する。なお、本実施形態
において、行われる学習はバックプロパゲーション則に
よる学習が行われる。学習式は、Δｗ（ｔ）＝〔Ｓ
（ｔ）／〔Ｓ（ｔ−１）−Ｓ（ｔ）〕〕×Δｗ（ｔ−
１）であり、式の詳細および学習アルゴリズム（Ｔｈｅ
ＱｕｉｃｋｐｒｏｐＡｌｇｏｒｉｔｈｍ）は、カー
ネギーメロン大学１９８８年９月発行、Ｓ．Ｆａｈｌｍ
ａｎ著の技術レポート♯ＣＭＵ−ＣＳ−８８−１６２の
“ＡｎＥｍｐｉｒｉｃａｌＳｔｕｄｙｏｆＬｅ
ａｒｎｉｎｇＳｐｅｅｄｉｎＢａｃｋ−Ｐｒｏｐ
ａｇａｔｉｏｎＮｅｔｗｏｒｋｓ”に記載されてい
る。また、エルマン（Ｊ．Ｌ．Ｅｌｍａｎ）による、Ｆ
ｉｎｄｉｎｇｓｔｒｕｃｔｕｒｅｉｎｔｉｍｅ，
Ｃｏｇｎｉｔｉｖｅｓｃｉｅｎｃｅ，１４，ｐｐ．１
７９−２１１（１９９０）に記載されている、離散時間
のリカレントネットワークに、フィードフォワードネッ
トワークのバックプロパゲーション則を準用した学習で
もよい。また、学習については以上の方法に限定され
ず、他の学習方法によってもよい。

【００２５】時間ｔについての音素「ａ」の学習が終了
すると、次に時間ｔ＋１についての学習を行う。この場
合、時間ｔｎのときと同様にして、ｔｎについての学習
が終了した時点での中間層３４のベクトル列を環境層３
３に入力し、時間ｔｎ＋１のベクトル列Ｐ（ｔｎ＋１）
をＲＡＭ１４から読み出して音声入力層３１に入力す
る。また、時刻ｔｎ＋２のベクトル列Ｐ（ｔｎ＋２）を
第１教師信号として音声出力層３７に入力する。一方、
仮説出力層３８には、入力された音素「ａ」についての
学習が行われている間、「ａ」についての同一の符号
「１０００００００」が継続的に第２教師信号として入
力される。この時刻ｔ＋１についての学習が終了し、図
４に示す結合重みの値が更新されると、以後同様にし
て、スペクトル解析された全てのベクトル列についての
学習を行うことで、音素「ａ」についての学習を終了す
る。その後、同様にして「ｉ」、「ｕ」、「ｅ」、
「ｏ」等の全ての音素についての学習を行う。

【００２６】入力音声の認識以上の学習が終了した後、音声入力装置２３から、例え
ば音声「まえ」が入力されたものとする。すると、ＦＦ
Ｔ装置２１で入力音声についてのスペクトル解析が行わ
れる。そして、ＣＰＵ１１は、時間ｔｎ−１にける中間
層３４のベクトル列を環境層３３に入力した後、現在の
時間ｔｎにおける各周波数のパワーから成るベクトル列
Ｐ（ｔｎ）を音声入力層３２に入力する。ＣＰＵ１１
は、入力層３１と中間層３４との各結合重み（図４）を
ニューロン素子網２２のメモリから読み出し、各結合重
みと入力層３１の各入力値とから、中間層３４の各ニュ
ーロン素子Ｈｉ〜Ｈｉ２００の出力値を算出し、ニュー
ロン素子網２２の図示しないメモリに格納される。この
中間層３４のベクトル値は、次の時間ｔｎにおけるベク
トル列Ｐ（ｔｎ＋１）が入力される前に環境層３３に入
力される。

【００２７】次に、ＣＰＵ１１は、ニューロン素子網２
２の図示しないメモリから、格納した中間層３４の出力
値と、中間層と仮説出力層３８との結合重みとを読み出
し、両者の値から、仮説出力層３８の各ニューロン素子
Ｈｙ１〜Ｈｙ８の出力値を求める。そして、各ニューロ
ン素子Ｈｙ１〜Ｈｙ８の出力値と、ＲＯＭ１３に格納さ
れている第２教師信号テーブルの各符号列と照合するこ
とで、該当する音素を特定し、特定した音素をＲＡＭ１
４に格納する。

【００２８】この特定した音素は、時系列的に音声入力
装置３２にベクトル列Ｐ（ｔｎ）が入力される毎に特定
されるため、複数の音素列となる。例えば、音声「い
ろ」が入力された場合には、「ｉｉｉｉｉｒｒｒｏｏｏ
ｏｏ」となる。そこで、ＣＰＵ１１は、このＲＡＭ１４
に格納された音素列から、入力された音声を「ｉｒｏ」
と認識する。そしてＣＰＵ１１は、キーボード１８から
の入力指示がある場合には、認識した音声を日本語変換
システムに従って、文字による文章に変換する。変換し
た文章は、表示装置１７に表示されると共にＲＡＭ１４
に格納される。また、キーボード１８からの指示に応じ
て、通信制御装置５および通信網２を介して、パーソナ
ルコンピュータやワードプロセッサ等の各種通信制御装
置にデータ伝送を行う。

【００２９】図７は、音声「まえ」についての各音素の
特定結果を表したものである。なお、学習段階におい
て、第２教師信号として仮説出力層３８に入力する各音
素の符号として図７のベクトル列を採用したものとす
る。また、各ニューロン素子Ｈｙ１〜Ｈｙ８の出力は、
所定の閾値を越えた場合に出力され、閾値以下の場合に
は出力されず図７では、記号「−」で示されている。こ
の図７の最右欄に示すように、各時間ｔｎにおけるベク
トル列の入力に対応して音素「ｍ」、「ａ」、「ｅ」を
特定することができる。この音素から入力された音声が
「まえ」であると認識することができる。

【００３０】この図７に示したように、各時間ｔｎにお
けるニューロン素子Ｈｙ１〜Ｈ８の出力によって特定さ
れた各音素列から、音声を特定する場合、同一の音素が
複数個以上、例えば４個以上連続的に特定されている場
合に、その音素を有効と見なして、音声認識を行う。例
えば、図７において、時間ｔ１で特定された音素「ｍ」
と時間ｔ３５で特定された音素「ｅ」は、４個以上連続
していないため、音声認識を行う対象から除外される。
なお、４子以上連続的に特定された場合だけでなく、他
に、２個、３個、５個、１０個等の他の数だけ連続的に
特定された場合にその音素が有効であると判断するよう
にしてよもい。更に、音素が有効であると判断するため
の個数を、利用者の選択により、キーボードから指定す
ることができるようにしてもよい。

【００３１】なお、図７の最右欄の「？」で示すよう
に、音声を認識する場合、スペクトル分析されたベクト
ル列が入力された当初と、各音素から音素に変化する場
合において、音素を特定できない場合があるが、その後
継続的に特定される音素によって容易に音声を認識する
ことができる。スペクトル分析されたベクトル列が入力
された当初に音素を特定できない場合があるのは、学習
段階において、過去、現在、未来による時系列的な関係
を含めて学習しているのに対して、入力当初は過去の時
系列的関係を含む情報が充分でない為であると考えられ
る。また、各音素の変化時において音素を特定できない
のは、学習段階において、個々の音素単位での学習を行
っており、各音素同士の時系列的関係については学習の
対象になっていないためであると考えられる。

【００３２】本実施形態によれば、各音素のスペクトル
の時系列的な関係について学習されているため、学習の
ための音素を発声する者と異なる者の音声も正確に認識
することができた。従って、不特定話者認識を行うこと
ができる。

【００３３】また、音素単位での音声認識を行う場合に
従来から認識すべき音素の開始点をどのようにして正確
に決定するかが問題であったが、本実施形態によれば、
音素の開始点を特定する必要がない。また、音素単位に
よる連続音声認識を行う場合に、各個人差が大きい各音
素の発声時間に関係なく、音声を認識することができ
る。例えば、音声として「はーる」というように、音声
「は」をのばして発声した場合であっても、「ｈｈｈｈ
ｈ…ａａａａａａａａａａａａａａ…ｒｒｒｒ…ｕｕｕ
ｕｕ…」というように、音素「ａ」が多く特定されるだ
けで、容易に音声「はる」と認識することができる。

【００３４】また、本実施形態では、各音素に対し複数
の時間ｔｎにおける複数のベクトル列Ｐ（ｔｎ）が入力
され、各時間毎に音素を特定している。このため、連続
音声認識において、各音素状態が前に現れる音素の状態
により影響を受けていても、各音素から音素に変化する
場合に音素の特定ができない状態、すなわち、図７の最
右欄の「？」が多少増えるだけである。そして、その後
に同一の音素が継続的に特定されるため、連続音声認識
であっても容易に音声を認識することができる。

【００３５】以上説明した実施形態では、リカレント型
のニューラルネットワークとするため、中間層３４のベ
クトル値を環境層３３にフィードバックさせる構成とし
たが、本発明では、この構成に限定されるものではな
く、例えば、音声出力層３７のベクトル値を環境層３３
にフィードバックするようにしてもよい。この場合、環
境層３３のニューロン素子Ｃｏの数は、音声出力層３７
のニューロン素子Ｏｕと同一数とする必要がある。な
お、環境層３４にフィードバックするベクトル値は、図
７に示す閾値を超えた値ではなく、音声出力層３７の各
ニューロン素子Ｏｕの出力値を使用する。

【００３６】また、以上説明した実施形態では、リカレ
ント型のニューラルネットワークとしたが、本発明で
は、環境層のないニューロン素子網としてもよい。この
場合、時間ｔのベクトル列を音声入力層３１に入力し、
次の時間ｔ＋１のベクトル列を第１教師信号として音声
出力層３７に入力し、時間ｔｎの集合が表す特定の意味
Ａを第２教師信号として仮説出力層３８に入力する。環
境層がない場合、過去（時間ｔ−１）の情報に基づく時
系列的な関係までは学習されない。しかし、局所的では
あるが、現在（時間ｔ）と未来（ｔ＋１）による時系列
的関係を学習しているため充分に音声を認識することが
できる。環境層がない場合には、学習および音声認識の
処理が軽減され、処理速度を早くすることが可能にな
る。

【００３７】さらに、本実施形態では、入力されるベク
トル列の時系列的な関係と共に、その関係を有する音素
（符号列）を仮説的に学習することで、音声を認識する
ようにしたが、本発明では、時系列的関係を有する音声
に限定されるものではなく、互いに所定の関係を有する
複数のベクトル列Ｆｎ（ｎ＝１、２、３、…）の集合が
表す特定の意味についての学習とその認識や予測につい
て利用することができる。例えば、音声認識以外に、運
動の時系列パターン発生の学習とその予測を行うように
してもよい。また、時系列的な場合だけでなく、空間的
関係や、周波数的関係を有する複数のベクトル列の集合
が特定の意味を有する場合の、学習と認識を行うように
してもよい。例えば、文字が有する空間的関係について
学習することで、文字認識を行うようにしてもよい。

【００３８】さらに、本実施形態では、音素単位の音声
認識について説明したが、単語単位で音声認識するよう
にしてもよい。この場合、ベクトル列が表す特定の意味
としてその単語を表す符号列が第２教師信号として使用
される。

【００３９】また、本実施形態では、ＲＯＭ１３に格納
した学習プログラムに従ってＣＰＵ１１でニューロン素
子網２２の学習を行い、学習後のニューロン素子網２２
による音声認識を行うようにしたが、不特定話者の連続
音声認識を高い認識率で行うことが可能であるので、再
学習の必要が少ない。従って、音声認識装置としては、
必ずしも学習機能を有する必要がなく、他の装置の学習
で求めた結合重みを有する、環境層３３、中間層３４、
仮説出力層３８からなるニューロン素子網を使用するよ
うにしてもよい。この場合、ニューロン素子網を、学習
済みの結合重みを有するハードウェアで構成してもよ
い。

【００４０】また、以上説明した実施形態では、ＦＦＴ
装置における高速フーリエ変換によって、学習時の各音
素と音声認識時の音声についてのスペクトル解析を行っ
たが、他のアルゴリズムによりスペクトル解析を行うよ
うにしてもよい。例えば、ＤＣＴ（離散コサイン変換）
等によるスペクトル解析を行ってもよい。

【００４１】更に、以上説明した実施形態では、各音素
を学習する場合に、例えば母音である音素「ａ」につい
て１種類の学習を行う場合について説明したが、本発明
では、複数種類について学習するようにしてもよ。例え
ば、音素「ａ」について、母音の「ａ」の他に、「ｍ
ａ」、「ｎａ」、「ｋａ」等の各音声から音素「ａ」の
部分を切り出して音素「ａ」の学習を行うようにしても
よい。また、子音の場合も同様に、音素「ｍ」であれ
ば、「ｍａ」、「ｍｉ」、「ｍｕ」等の各音声から音素
「ｍ」を切り出し、それぞれについて学習を行う。これ
により、他の色々な音素と接続された場合について学習
が行われ、認識率が向上する。

【００４２】図８は、他の実施形態におけるニューロン
素子網の構成を表したものである。この図８に示すよう
に、この実施形態では、ニューロン素子網をリンカレン
トカスケード型のニューラルネットワークにより構成し
たものである。このリカレントカスケード型のニューロ
ン素子網は、図８に示すように、音声入力層５２と、音
声出力層５７と仮説出力層とを有する出力層５６を備え
ている。音声入力層５２と、出力層５６とは完全結合さ
れている。

【００４３】また、ニューロン素子網は、全音素のそれ
ぞれに対応した８０個の中間層５４０１〜５４８０から
なるカスケード中間層５４と、このカスケード中間層５
４の各中間層５４０１〜５４８０のそれぞれに対応した
８０個の環境層５３０１〜５３８０からなるカスケード
環境層５３とを備えている。各中間層５４０１〜５４８
０は、対応する音素によって、それぞれ異なる数のニュ
ーロン素子を備えている。各環境層５３０１〜５３８０
は、対応する中間層５４０１〜５４８０と同数のニュー
ロン素子を備えている。なお、音声入力層５２と音声出
力層５７は共に３０個のニューロン素子を備え、仮説出
力層５８は８個のニューロン素子を備えているが、図２
に示した実施形態と同様に、音声入力層５２と音声出力
層５７のニューロン素子数が同一であれば、他の数でも
よい。

【００４４】カスケード中間層５４とカスケード環境層
５３との結合は完全結合ではなく、各中間層５４０１〜
５４８０と、対応するカスケード環境層５３０１〜５３
８０とが完全結合している。すなわち、中間層５４０１
は、対応する環境層５３０１と完全結合しているが、他
の環境層５３０２〜５３８０とは結合していず、完全に
切り離されている。同様に、他の中間装置５４０２〜５
４８０は、対応している環境層とのみ完全結合してい
る。また、カスケード中間層５４は、音声入力層５２と
完全結合していると共に、出力層５６とも完全結合して
いる。なお、本実施形態において、各中間層５４０１〜
５４８０を構成するニューロン素子は、互いに独立して
いる。但し、互いに隣あったニューロン素子同志を結合
させ、一方のニューロン素子の出力を他方のニューロン
素子に入力するようにしてもよい。

【００４５】このように構成されたニューロン素子網に
おいて、音声入力層５２には、学習時にＦＦＴ装置２１
でスペクトル解析された時間ｔの音声のベクトル列が順
次入力される。１つ前の時間ｔ−１に対する学習が終了
した後の中間層５４０１〜５４８０のベクトル状態が対
応する各環境層５３０１〜５３８０に入力される。そし
て、次に音声入力層５２に与えられることになる時間ｔ
＋１のベクトル列が音声出力層５７に第１教師信号とし
て入力される。仮説出力層５８には、時間ｔにおける前
後の時間間隔で音声入力層５２に入力されるベクトル列
が表す音素を仮説する符号列が第２教師信号として入力
される。

【００４６】そして、例えば音素「ａ」の学習を行う場
合、中間層５４０１と、出力層５６、中間層５４０１と
環境層５３０１、中間層５４０１と音声入力層５２、お
よび、音声入力層５２と出力層５６、間の結合重みのみ
変更することで学習を行う。すなわち、中間層５４０２
〜５４８０と、音声入力層５２、環境層５３０２〜５３
８０、および出力層５６との結合重みは変更しない。そ
して、次の音素「ｉ」を学習する場合、音素「ａ」で学
習した中間層５４０１と各層との結合重みを固定する。
そして、音素「ｉ」の学習において、音素「ｉ」に対応
する中間層５４０２からの出力の他に、結合重みを固定
した中間層５４０１からの出力も出力層５６に入力され
る。これらの入力に対する出力層５６の出力値が、教師
信号の値と比較され学習される。このように、結合重み
を固定した中間層５４０１の出力は音素「ｉ」の学習に
おいて雑音となるが、この雑音を次の音素「ｉ」の学習
で使用することで、雑音をマイナスすることも含めた中
間層５４０２の結合重みが学習される。同様に、次の音
素として「ｕ」を学習する場合には、決定した音素
「ａ」と「ｉ」の中間層５４０１、５４０２の結合重み
をそれぞれ固定した状態での出力を出力層５６に入力す
る。

【００４７】このように構成された、リカレントカスケ
ード型のニューロン素子網では、１対の中間層と環境層
が各音素毎に設けられ、他の中間層や環境層と完全に切
り離されているため、各音素に対応する学習を高速に行
うことができる。

【００４８】なお、本実施形態の変形例として、各音素
に対応する１対の中間層と環境層毎の学習を別々のコン
ピュータシステム等を使用して別個独立に行い、各学習
終了後に、中間層と環境層の対を組み合わせて、カスケ
ード中間層およびカスケード環境層を構成するようにし
てもよい。この場合、各中間層は対応する音素について
だけ独立して学習しているため、他の音素に対する中間
層による雑音をマイナスすることも含めた学習が行われ
ていない。そこで、各音素の雑音をマイナスするような
信号が出力層５６に入力されるような、別個の中間層を
付加する必要がある。そして、既に学習した各中間層５
４０１〜５４８０の結合重みを固定した状態で、全ての
音声について再度学習を行う。この場合、付加した中間
層からの出力は、雑音をマイナスする値となる。例え
ば、音素「ａ」を再学習する場合、結合重みを固定した
中間層５４０２〜５４８０からの出力の合計がプラスマ
イナスゼロとなるような値が、付加した中間層から出力
されるように、付加中間層の結合重みが学習される。

【００４９】なお、図８に示したニューロン素子網では
カスケード環境層５３を設けたが、このカスケード環境
層５３がないニューロン素子網としてもよい。この場
合、カスケード中間層５４の各中間層５４０１〜５４８
０を構成する各ニューロン素子は、自己の値をフィード
バックして入力するように構成する。すなわち、時間ｔ
における入力を処理する場合、各中間層のニューロン素
子には、音声入力層５２からの時間ｔに対する入力の他
に、時間ｔ−１における自己の値もフィードバックして
入力される。この実施形態によれば、時間ｔ−１におけ
る過去の情報も考慮しつつ、カスケード環境層５３とカ
スケード中間層５４間の結合重みの計算が不要となるの
で、処理を早くすることができる。

【００５０】以上説明した、図２、図８のニューロン素
子網およびその変形例において、各層間の結合状態とし
て完全結合している場合について説明したが、本発明で
はこれに限定されるものではない。例えば、各層のニュ
ーロン素子数や、学習能力に応じて結合状態を決定する
ようにしてもよい。

【００５１】次に第２実施形態ついて説明する。前記し
た第１実施形態では、音声認識においてＦＦＴ２１で解
析されたスペクトルデータを音声入力層に入力するデー
タとしたのに対して、この第２実施形態では、ケプスト
ラムデータを音声入力層に入力することで音声認識を行
うようにしたものである。図９は、第２実施形態におけ
るニューラルネットワークのシステム構成を表したもの
である。この図に示すように、ニューラルネットワーク
では、図１に示した第１実施形態のシステムに、更にケ
プストラム装置２６を備えている。なお、その他の部分
については第１実施形態と同様なので、同一の番号を付
してその説明を省略する。また、ニューロン素子網２２
については、第１実施形態の図２において説明したニュ
ーロン素子網２２だけでなく、さらに第１実施形態の変
形例として説明した各種のニューロン素子網２２の、い
ずれのニューロン素子網２２を適用することも可能であ
る。また、第２実施形態および第３実施形態の説明にお
いて、ニューロン素子網２２の各部を指定して説明する
場合には、説明の都合から、図２に示したニューロン素
子網２２で使用した符号を用いるものとする。例えば、
音声入力層３２とした場合、図２のニューロン素子網２
２における音声入力層３２と、図８のニューロン素子網
２２における音声入力層５２の双方を指すものとする。
ケプストラム装置２６は、ＦＦＴ装置２１におけるスペ
クトル解析された波形の短時間振幅スペクトルの対数を
逆フーリエ変換することで、ケプストラムデータを得る
ものである。このケプストラム装置２６により、スペク
トル包絡と微細構造とを近似的に分離して抽出すること
ができる。

【００５２】ここで、ケプストラムの原理について説明
する。いま、音源と音道のインパルス応答のフーリエ変
換をそれぞれ、Ｇ（ω）Ｈ（ω）で表すと、線型分離透
過回路モデルにより、Ｘ（ω）＝Ｇ（ω）Ｈ（ω）の関係が得られる。この式の両辺の対数をとると、次の
数式（１）となる。ｌｏｇ｜Ｘ（ω）｜＝ｌｏｇ｜Ｇ（ω）＋ｌｏｇ｜Ｈ（ω）｜…（１）さらに、この数式（１）の両辺の逆フーリエ変換をとる
と次の数式（２）になり、これがケプストラムである。ｃ（τ）＝Ｆ^-1ｌｏｇ｜Ｘ（ω）｜＝Ｆ^-1ｌｏｇ｜Ｇ（ω）＋Ｆ^-1ｌｏｇ｜Ｈ（ω）｜…（２）ここでτの次元は、周波数領域からの逆変換であるから
時間になり、ケフレンシーとよばれる。

【００５３】次に基本周期と包絡線の抽出について説明
する。数式（１）の右辺第１項はスペクトル上の微細構
造であり、第２項はスペクトル包絡線である。両者の逆
フーリエ変換には大きな違いがあり、第１項は高ケフレ
ンシーのピークとなり、第２項は０から２〜４ｍｓ程度
の低ケフレンシー部に集中する。高ケフレンシー部を用
いてフーリエ変換することによって対数スペクトル包絡
線が求まり、更に、それを指数変換すればスペクトル包
絡線が求まる。求まるスペクトル包絡線の平滑さの度合
いは、低ケフレンシー部のどれだけの成分を用いるかに
よって変化する。ケフレンシー成分を分離する操作をリ
フタリングと呼ぶ。

【００５４】図１０は、ケプストラム装置２６の構成を
表したものである。このケプストラム装置２６は、対数
変換部２６１と、逆ＦＦＴ部２６２と、ケプストラム窓
２６３と、ピーク抽出部２６４と、ＦＦＴ部２６５とを
備えている。なお、ケプストラム窓２６３、ピーク抽出
部２６４と、ＦＦＴ部２６５は、ニューロン素子網２２
の音声入力層３２に供給するデータとして、逆ＦＦＴ部
２６２で求めたケプストラムデータを使用する場合には
不要であり、スペクトル包絡をニューロン素子網２２の
入力データとして使用する場合に必要となる。また、Ｆ
ＦＴ部２６５については、必ずしも必要ではなく、ＦＦ
Ｔ装置２１を使用するようにしてもよい。

【００５５】対数変換部２６１は、ＦＦＴ２１から供給
されるスペクトルデータＸ（ω）から、数式（１）に従
って対数変換を行い、ｌｏｇ｜Ｘ（ω）｜を求め、逆Ｆ
ＦＴ部２６２に供給する。逆ＦＦＴ部２６２では、供給
された値について、更に逆ＦＦＴをとり、ｃ（τ）を算
出することで、ケプストラムデータを求める。逆ＦＦＴ
部２６２では、求めたケプストラムデータを、音声デー
タについての学習または音声認識を行う入力データＩｎ
として、第１実施形態で説明したニューロン素子網２２
の音声入力層３２に供給するようになっている。ニュー
ロン素子網２２に入力する入力データＩｎの数について
は、音声認識に併せて任意に選択された音声入力層３２
のニューロン素子数と同数が選択される。すなわち、図
２に示したニューロン素子網２２の場合、音声入力層３
２のニューロン素子が３０あるので、ケフレンシー
（τ）軸を３０分割し、各ケフレンシー毎のパワーの値
をニューロン素子Ｉｎ１〜Ｉｎ３０の入力データとし
て、音声入力層３２に供給する。この逆ＦＦＴ部２６２
で求めたケプストラムデータを音声入力層３２に供給す
るのが、第２実施形態における第１例である。

【００５６】次に、第２実施形態における第２例につい
て説明する。この第２例では、ケプストラム窓２６３に
おいて求めたケプストラムデータに対してリフタリング
を行うことで、ケフレンシー成分を高ケフレンシー部と
低ケフレンシー部に分離する。分離された低ケフレンシ
ー部は、ＦＦＴ部２６５において、フーリエ変換するこ
とによって対数スペクトル包絡線が求められ、更に、指
数変換することでスペクトル包絡線が求められる。この
スペクトル包絡データから、周波数軸軸をニューロン素
子の数に対応して分割し、各周波数毎のパワーの値を音
声入力層３２に供給する。

【００５７】なお、ケプストラム窓２６３で分離され
た、低ケフレンシー部のケプストラムデータを入力デー
タとして音声入力層３２に供給するようにしてよもい。
また、分離された高ケフレンシー部のケプストラムデー
タから、ピーク抽出部２６４で基本周期を抽出し、これ
を、ＦＦＴ部２６５で求めたスペクトル包絡のデータと
共に入力データの１つとして使用してもよい。こ場合、
音声入力層３２のニューロン素子数がＮ個とすると、ス
ペクトル包絡のデータから（Ｎ−１）の入力データＩｎ
１〜Ｉｎ（Ｎ−１）を音声入力層３２に入力し、基本周
期のデータから入力データＩｎＮを音声入力層３２に入
力する。

【００５８】以上説明したように、第２実施形態によれ
ば、音声データについてのケプストラムデータを使用す
ることで、パワースペクトルよりも一層音声の特徴を捕
らえたデータを認識対象とするので、認識率が向上す
る。なお、第２実施形態では音声認識について説明した
が、画像データのケプストラムデータを使用して画像認
識を行うようにしてもよい。この場合の画像データは、
図形読取装置２４で読み取られた画像データ、および、
通信制御装置１５で受信した画像データのいずれを用い
てもよい。

【００５９】次に第３実施形態について説明する。第２
実施形態では、ニューロン素子網２２の音声入力層３２
への入力データとしてケプストラムデータ用いたが、こ
の第３実施形態では、入力データとして、自己連想（オ
ートアソシエーション）型ニューラルネットワークにお
ける中間層のデータを用いるものである。

【００６０】図１１は、第３実施形態における自己連想
型ＮＮ（ニューラルネットワーク）を用いたニューラル
ネットワークのシステム構成を表したものである。この
図に示すように、ニューラルネットワークでは、第１実
施形態のシステムに更に、自己連想型ＮＮ２７を備えて
いる。第３実施形態におけるＲＡＭ１４は、ニューロン
素子網２２用の入力データを格納するベクトル列格納エ
リアの外に、さらに自己連想ＮＮ用ベクトル列格納エリ
アが確保されている。なお、その他の部分については第
１実施形態と同様なので、同一の番号を付してその説明
を省略する。また、ニューロン素子網２２については、
第１実施形態で説明したニューロン素子網２２だけでな
く、さらに第１実施形態の変形例として説明したニュー
ロン素子網２２の、いずれのニューロン素子網２２を適
用することも可能である。この第３の実施形態のニュー
ロン素子網２２における音声入力層３２のニューロン素
子Ｉｎ数は、自己連想型ＮＮの中間層ＡＨのニューロン
素子の数と同数となる。

【００６１】図１２は、自己連想型ＮＮの構成を表した
ものである。この図１２に示すように、自己連想型ＮＮ
は、入力層ＡＩと中間層ＡＨおよび出力層ＡＯの３層を
備えている。入力層ＡＩは、音声認識や、図形認識等の
各種処理に対応して任意に選択される入力データ数ｐに
応じた数ｐ個のニューロン素子ＡＩ１〜ＡＩｐを備えて
いる。中間層ＡＨは、入力層ＡＨのニューロン素子の数
ｐ個よりも少ない数ｐ個のニューロン素子ＡＨ１〜ＡＨ
ｑ（ｑ＜ｐ）を備えている。出力層ＡＯは、入力層ＡＨ
と同数ｐ個のニューロン素子ＡＯ１〜ＡＯｐを備えてい
る。

【００６２】中間層ＡＨの各ニューロン素子ＡＨ１〜Ａ
Ｈｑは、入力層ＡＩの全ニューロン素子との間で、学習
時に変更可能な結合重みＡＷ１１〜ＡＷｐｑで完全結合
している。また中間層ＡＨの各ニューロン素子ＡＨ１〜
ＡＨｑは、それぞれ学習段階で変更可能な閾値を備えて
いる。中間層ＡＨの各ニューロン素子ＡＨ１〜ＡＨｑ
は、入力層ＡＩに入力された入力データと、結合重みＡ
Ｗと、閾値に基づいて、順伝播活性による出力値を出力
するようになっている。このＡＨ１〜ＡＨｑの出力値
は、ニューロン素子網２２の音声入力層３２に入力する
入力データＳｔとして出力されるようになっている。ま
た、出力層ＡＯの各ニューロン素子ＡＯ１〜ＡＯｐは、
中間層ＡＨの全ニューロン素子ＡＨ１〜ＡＨｑとの間
で、学習時に可変な結合重みＡｗ１１〜Ａｗｑｐで完全
結合している。そして、各ニューロン素子ＡＯ１〜ＡＯ
ｐは、中間層ＡＨの出力値Ｓｔと結合重みＡｗとから、
自己連想型ＮＮの出力値を出力するようになっている。

【００６３】自己連想型ＮＮ２７は、図示しないメモリ
を備えており、このメモリに入力層ＡＩと中間層ＡＨと
の結合重みＡＷ、閾値、および中間層ＡＨと出力層ＡＯ
との結合重みを格納するようになっている。

【００６４】次に、自己連想型ＮＮ２７による、ニュー
ロン素子網２２に入力する入力データＳｔの生成につい
て、音声認識の場合を例に説明する。いま音声認識の対
象となる各音素のうち、音素“あ”についての学習を行
う場合につてい説明する。学習対象となる音素「ａ」に
ついては、言葉の最初に発声場合の音素を“あ”で表
し、言葉の最後に発声される場合の音素を“ア”で表
し、言葉の途中に発声される場合の音素を“Ａ”で表す
ものとする。例えば、“あ”は、ａｋｉ（秋）からと
り、“ア”はｄｅｎｗａ（電話）からとり、“Ａ”はｔ
ｏｍａｒｉ（泊まり）からとる。なお、以下の説明にお
いては、音素「あ」について、“あ”、“ア”、“Ａ”
の３パターンによる音素「ａ」の学習を例に説明する
が、各音素について３〜３０パターン、好ましくは１０
０パターン程度による学習が行われる。

【００６５】図１３は、これら３種類の“あ”、
“ア”、“Ａ”について、ＦＦＴ装置２１で各時間ｔ
（ｔ＝１、２、…）毎に、ＦＦＴ処理によりスペクトル
解析したデータを表したものである。ＦＦＴ装置２１
は、各音素“あ”、“ア”、“Ａ”について、それぞれ
図１３（ａ）、（ｂ）、（ｃ）に示すように、各時間ｔ
毎に音声データの、各周波数（周波数の分割数は、入力
層ＡＩのニューロン素子の数ｐに対応して、Ｆ１〜Ｆｐ
のｐ個である）に対するパワー（Ｐ）の値を算出する。
そして、各周波数のパワーＰ（ｔ）によるベクトル列
は、第１実施形態について図６で説明したと同様に、各
時間毎に、ＲＡＭ１４の自己連想ＮＮ用ベクトル列格納
エリアに格納される。

【００６６】いま、図１３（ａ）に示されるように、音
素“あ”についてスペクトル解析された、時刻ｔ＝１に
おけるパワーＰ（１）のベクトル列をあ１とし、時刻ｔ
＝２におけるパワーＰ（２）のベクトル列をあ２とし、
同様に、図示しないが、時刻ｔ＝ｎのベクトル列をあｎ
とする。また、図１３（ｂ）に示されるように、音素
“ア”についてスペクトル解析された、時刻ｔ＝１にお
けるパワーＰ（１）のベクトル列をア１とし、時刻ｔ＝
２におけるパワーＰ（２）のベクトル列をア２とし、同
様に、図示しないが、時刻ｔ＝ｎのベクトル列をあｎと
する。また、図１３（ｃ）に示されるように、音素
“Ａ”についてスペクトル解析された、時刻ｔ＝１にお
けるパワーＰ（１）のベクトル列をＡ１とし、時刻ｔ＝
２におけるパワーＰ（２）のベクトル列をＡ２とし、同
様に、図示しないが、時刻ｔ＝ｎのベクトル列をＡｎと
する。

【００６７】これらの各音素についてスペクトル解析さ
れたパワーＰ（ｔ）の各時刻毎に、自己連想型ＮＮ２７
の学習と、ニューロン素子網２２にの入力層ＩＮに供給
する入力データの生成が行われる。すなわち、同一時
刻、例えばｔ＝１における各音素のベクトル列あ１、ア
１、Ａ、を自己連想型ＮＮ２７の入力層ＡＩの入力デー
タとする共に、出力層ＡＯの教師信号として使用するこ
とで、各時刻ｔのベクトル列毎に学習を行なう。そし
て、時刻ｔについての学習が終了した時点での中間層Ａ
Ｈからの一方の出力値Ｓｔを入力層ＩＮの入力データと
する。なお、自己連想型ＮＮ２７における学習は、例え
ばバックプロパゲーション則等による各種学習が適用さ
れる。

【００６８】図１４は、自己連想型Ｎ２７の学習におけ
る入力データと教師信号、学習終了後の出力値Ｓｔにつ
いて表したものである。この図１４では、図１３に示し
た各音素に対するパワーのベクトル列に基づいて学習す
る場合を例に示している。この図１４に示されるよう
に、各時刻ｔ（ｔ＝１、２、…ｎ）を単位として学習が
行われ、入力データＳｔが生成される。例えば、時刻ｔ
１の場合であれば、教師信号をあ１として入力データあ
１とア１とＡ１について学習を行い、次に、教師信号を
ア１として、入力データあ１とア１とＡ１について学習
を行い、更に、教師信号をＡ１として、入力データあ１
とア１とＡ１について学習を行う。これら、全組み合わ
せについての学習が終了した後に、あ１、ア１、Ａ１の
いずれかのデータを入力層ＡＩに入力し、このときの中
間層ＡＨの出力値から、時刻ｔ＝１におけるニューロン
素子網２２の音声入力層３２への入力データＳ１が生成
される。同様にして、あ２、ア２、Ａ２による入力デー
タと教師信号の全組み合わせによる学習から、時刻ｔ＝
２における音声入力層３２への入力データＳ２が生成さ
れ、さらに、Ｓ３、Ｓ４、…、Ｓｎも同様にして生成さ
れる。

【００６９】自己連想型ＮＮ２７によって生成された入
力データＳｔ（ｔ＝１、２、…、ｎ）に従って、ニュー
ロン素子網２２による学習が行われる。第１実施形態の
ニューロン素子網２２の場合、この入力データＳｔが、
音声入力層３２と音声出力層Ｏｕに入力される。すなわ
ち、時刻ｔ＝ｉのスペクトルデータについて学習を行う
場合、入力データＳｉのベクトル列が音声入力層３２に
入力され、入力データＳ（ｉ＋１）のベクトル列が教師
信号として音声出力層Ｏｕに入力される。なお、仮説出
力層３８への教師信号（入力データＳｔ生成のための音
素を示す符号列）の入力につては、第１実施形態で説明
したと同様に行われる。

【００７０】このようにして、自己連想型ＮＮ２７およ
びニューロン素子網２２の学習が終了すると、次のよう
にして、実際の音声認識が行われる。まず、認識対象と
なる音声が音声入力装置２３から入力されると、ＦＦＴ
装置２１でスペクトル解析が行われ、各時間ｔ毎の、各
周波数に対するパワーＰ（ｔ）のベクトル列が順次求ま
る。このベクトル列は、各時間毎に、ＲＡＭ１４の自己
連想ＮＮ用ベクトル列格納エリアに格納される。

【００７１】ＣＰＵ１１は、ＦＦＴ装置２１による音声
のスペクトル解析が終了した後のベクトル列Ｐ（ｔ）
を、順次自己連想型ＮＮ２７の入力層ＡＩに入力する。
自己連想型ＮＮ２７では、入力されたベクトル列Ｐ
（ｔ）に対する中間層ＡＨの出力ベクトルを、その時刻
ｔにおける入力データＳｔとしてニューロン素子網２２
に出力する。この各時刻ｔ（ｔ＝１、２、…ｎ）毎の入
力データＳ（ｔ）が、第１実施形態のニューロン素子網
２２の場合には音声入力層３２に、それぞれ順次入力さ
れる。そして、入力データに対応する出力値が、第１実
施形態のニューロン素子網２２では仮説出力層３８のニ
ューロン素子から出力される。そして、各ニューロン素
子からの出力値と、ＲＯＭ１３に格納されている第２教
師信号の各符号列とを照合することで、ＣＰＵ１１は該
当音素を特定し、ＲＡＭ１４に格納する。

【００７２】この音素は、第１実施形態でも説明したよ
うに、各音素について複数のベクトル列Ｐ（ｔｎ）に解
析され、時系列的に音声入力層３２に入力されて特定さ
れるため、複数の音素列となる。すなわち、音声「い
ろ」が入力された場合には、例えば「ｉｉｉｉｉｒｒｒ
ｏｏｏｏｏ」となる。そこで、ＣＰＵ１１は、このＲＡ
Ｍ１４に格納された音素列から、入力された音声を「ｉ
ｒｏ」と認識する。そしてＣＰＵ１１は、キーボード１
８からの入力指示に応じて、認識した音声を日本語変換
システムに従って文字による文章に変換し、また通信制
御装置５および通信網２を介して、パーソナルコンピュ
ータやワードプロセッサ等の各種通信制御装置にデータ
伝送を行う。

【００７３】以上説明したように、第３実施形態による
自己連想型ＮＮ２７を使用することによって、ニューロ
ン素子網２２に入力するベクトル列が小さくなり、音声
入力層３２のニューロン素子数を少なくすることができ
る。従って、ニューロン素子網２２の構成を小さくする
ことができる。

【００７４】以上説明した第３実施形態では、自己連想
型ＮＮ２７の学習において、音素の各パターンについて
の入力データと教師信号の全組み合わせを学習対象とし
ているため、中間層ＡＨは、その音素についての一般化
されたベクトル列Ｓｔ（ｔ＝１〜ｎ）を生成することが
できる。なお、全音素の各パターンについての組み合わ
せでなくても、入力層ＡＩの入力データおよび出力層Ａ
Ｏの教師信号として、同一のパターンを使用するように
してもよい。

【００７５】なお、以上説明した第３実施形態では、学
習および認識の際に自己連想型ＮＮ２７の入力層ＡＩに
入力するデータとして、ＦＦＴ装置２１でスペクトル解
析されたデータを用いた。これに対して、第２実施形態
で説明した、ケプストラムデータを自己連想型ＮＮ２７
の入力層ＡＩに入力することで、ニューロン素子網２２
の入力データＳｔを生成するようにしてよもい。

【００７６】以上説明した第３実施形態では、音声認識
を行う際に、ＦＦＴ装置２１でスペクトル解析されたベ
クトル列Ｐ（ｔ）を順次自己連想型ＮＮ２７の入力層Ａ
Ｉに入力し、中間層ＡＨの出力ベクトルを時刻ｔにおけ
る入力データＳｔとして直ちにニューロン素子網２２に
出力するようにした。これに対して、自己連想型ＮＮ２
７を、不特定話者用に学習したニューロン素子網２２に
よって、ある特定話者による音声の認識が可能か否かを
判定するフィルタとして使用することができる。すなわ
ち、ニューロン素子網２２の学習で使用された不特定話
者用のデータを使用した特定のキーワードについて、予
め自己連想型ＮＮ２７の不特定話者認識用の学習を行っ
ておく。そして、特定話者は、音声認識を行う際に、キ
ーワードを発声し音声入力装置２３に入力する。入力さ
れたキーワードは、ＦＦＴ装置２１でスペクトル解析さ
れて自己連想型ＮＮ２７の入力層ＡＩに入力され、中間
層ＡＨの出力値から、入力データＳｔが生成される。こ
の特定話者の入力データＳｔを、不特定話者用に学習し
た際のＳｔとを比較し、両者が大きく異なっている場合
には、その特定話者の音声を不特定話者用の入力ニュー
ロン素子網２２で認識することが困難であると判断する
ことができる。なお、不特定話者音声について学習済の
自己連想型ＮＮ２７に、特定話者による任意音声のスペ
クトルデータを入力し、出力層ＡＯからの出力データ
と、入力データとを比較し、自己連想が略できているか
否かを判断することで、その特定話者の音声についての
認識が可能か否かを判断するようにしてもよい。

【００７７】

【発明の効果】請求項１から請求項４に記載したニュー
ラルネットワークの学習方法によれば、複数のベクトル
列Ｆｎの集合が特定の意味Ａを表すデータデータについ
ての学習を行うことができる。請求項５から請求項８に
記載のニューラルネットワークによれば、複数のベクト
ル列Ｆｎの集合が特定の意味Ａを表すデータデータを処
理することができる。請求項９記載の音声認識装置によ
れば、連続音声を音素または単語単位で認識することが
できる。

【図面の簡単な説明】

【図１】本発明の一実施形態におけるニューラルネット
ワークを利用した音声認識装置のシステム構成図であ
る。

【図２】同上、音声認識装置のニューロン素子網の構成
図である。

【図３】同上、ニューロン素子網に対する第２教師信号
テーブルの内容を示す説明図である。

【図４】同上、ニューロン素子網２２の各ニューロン素
子間の結合重みを格納する結合重みテーブルを示す説明
図である。

【図５】同上、音声認識装置による音声のスペクトル解
析の状態を説明する説明図である。

【図６】同上、音声認識装置のＦＦＴ装置によりスペク
トル解析された音声についてのベクトル列を表す説明図
である。

【図７】同上、音声認識装置により特定した音声「ま
え」についての各音素の分布を示す説明図である。

【図８】同上、音声認識装置における他のニューロン素
子網の構成図である。

【図９】本発明の第２実施形態におけるニューラルネッ
トワークのシステム構成図である。

【図１０】第２実施形態におけるケプストラム装置の構
成図である。

【図１１】本発明の、第３実施形態における自己連想型
ＮＮを用いたニューラルネットワークのシステム構成図
である。

【図１２】第３実施形態における自己連想型ＮＮの構成
図である。

【図１３】第３実施形態において、３種類の“あ”、
“ア”、“Ａ”のスペクトル解析したデータを示す説明
図である。

【図１４】第３実施形態における自己連想型Ｎ２７の学
習時の入力データと教師信号、入力データＳｔの関係を
表す説明図である。

【符号の説明】

１１ＣＰＵ１２バスライン１３ＲＯＭ１４ＲＡＭ１５通信制御装置１６プリンタ１７表示装置１８キーボード２１ＦＦＴ装置２２ニューロン素子網２３音声入力装置２４図形読取装置２６ケプストラム装置３１入力層３２、５２音声入力層３３環境層３４中間層３６、５６出力層３７、５７音声出力層３８、５８仮説出力層５３カスケード環境層５４カスケード中間層

Claims

【特許請求の範囲】

【請求項１】複数のベクトル列Ｆｎ（ｎ＝１、２、
３、…）の集合が特定の意味Ａを表すデータについて、ベクトル列Ｆｎをデータ入力層に入力し、ベクトル列Ｆｎ＋１を第１教師信号として第１出力層に
入力し、特定の意味Ａを第２教師信号として第２出力層に入力し
て、学習を行うことを特徴とするニューラルネットワー
クの学習方法。
【請求項２】複数のベクトル列Ｆｎ（ｎ＝１、２、
３、…）の集合が特定の意味Ａを表すデータについて、中間層と結合し、この中間層または第１出力層とニュー
ロン素子数が同一である環帰入力層に、ベクトル列Ｆｎ
−１に対する中間層または第１出力層の出力ベクトル値
を入力し、ベクトル列Ｆｎをデータ入力層に入力し、ベクトル列Ｆｎ＋１を第１教師信号として第１出力層に
入力し、特定の意味Ａを第２教師信号として第２出力層に入力し
て、学習を行うことを特徴とするニューラルネットワー
クの学習方法。
【請求項３】バックプロパゲーション則により学習す
ることを特徴とする請求項１または請求項２記載のニュ
ーラルネットワークの学習方法。
【請求項４】前記特定の意味Ａが音声を構成する音素
であり、複数のベクトル列Ｆｎが、時系列的に解析され
た特定の意味Ａについての特徴量を表すベクトル列であ
ることを特徴とする請求項１から請求項３のいずれか１
の請求項に記載のニューラルネットワークの学習方法。
【請求項５】前記特定の意味Ａについての特徴量を表
すベクトルとして、音声のスペクトルデータ、ケプスト
ラムデータ、または自己連想型ニューラルネットワーク
の中間層の出力値データを使用することを特徴とする請
求項４に記載のニューラルネットワークの学習方法。
【請求項６】データ入力層と、このデータ入力層と結
合した中間層と、この中間層と結合し第１出力層と第２
出力層からなる出力層とを有するニューロン素子網と、複数のベクトル列Ｆｎ（ｎ＝１、２、３、…）の集合が
特定の意味Ａを表すデータについて、ベクトル列Ｆｎを
データ入力層に入力し、ベクトル列Ｆｎ＋１を第１教師
信号として第１出力層に入力し、特定の意味Ａを第２教
師信号として第２出力層に入力して、前記ニューロン素
子網の学習を行う学習手段と、ベクトル列を前記学習手段で学習された前記ニューロン
素子網のデータ入力層に入力する入力手段と、この入力手段によるベクトル列の入力による、第２出力
層の出力信号を出力する出力手段とを具備することを特
徴とするニューラルネットワーク。
【請求項７】少なくとも特定の意味Ａの数だけ中間層
を有し、データ入力層と出力層とが結合し、前記各中間層は、ベクトル列Ｆｎ−１に対する出力ベク
トル値に応じた値が、フィードバック入力することを特
徴とする請求項６記載のニューラルネットワーク。
【請求項８】データ入力層と環帰入力層からなる入力層
と、この入力層と結合した中間層と、この中間層と結合
し第１出力層と第２出力層からなる出力層とを有し、前
記環帰入力層は、前記中間層または第１出力層とニュー
ロン素子数が同一であるニューロン素子網と、複数のベクトル列Ｆｎの集合が特定の意味Ａを表すデー
タについて、ベクトル列Ｆｎ−１に対する中間層または
第１出力層の出力ベクトル値を環帰入力層に入力し、ベ
クトル列Ｆｎを入力層のデータ入力層に入力し、ベクト
ル列Ｆｎ＋１を第１教師信号として第１出力層に入力
し、特定の意味Ａを第２教師信号として第２出力層に入
力して、前記ニューロン素子網の学習を行う学習手段
と、ベクトル列を前記学習手段で学習された前記ニューロン
素子網のデータ入力層に入力する入力手段と、この入力手段によるベクトル列の入力による、第２出力
層の出力信号を出力する出力手段とを具備することを特
徴とするニューラルネットワーク。
【請求項９】請求項１から請求項４のうちのいずれか
１つの請求項に記載された方法により学習した各ニュー
ロン素子間の結合重みを有する、データ入力層と、環帰
入力層と、中間層と、第２出力層を少なくとも有するこ
とを特徴とするニューラルネットワーク。
【請求項１０】請求項６から請求項９のうちのいずれ
か１の請求項に記載されたニューラルネットワークと、音声を入力する音声入力手段と、この入力手段から入力された音声の特徴量を表すベクト
ル列を時系列的に解析する解析手段と、この解析手段で解析されたベクトル列をデータ入力層に
順次入力するベクトル列入力手段と、このベクトル列入力手段がベクトル列をデータ入力層に
順次入力することで得られる第２出力層の出力から、音
素を特定する音素特定手段、とを具備することを特徴と
するニューラルネットワークを利用した音声認識装置。
【請求項１１】前記解析手段は、音声の特徴量を表す
ベクトル列として、音声のスペクトルデータ、ケプスト
ラムデータ、または自己連想型ニューラルネットワーク
の中間層の出力値データを使用することを特徴とする請
求項１０に記載のニューラルネットワーク。