JPH02235141A

JPH02235141A - 音節認識装置

Info

Publication number: JPH02235141A
Application number: JP1056789A
Authority: JP
Inventors: Shin Kamiya; 伸神谷; Fumio Togawa; 外川　文雄; Mitsuhiro Toya; 充宏斗谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-03-09
Filing date: 1989-03-09
Publication date: 1990-09-18
Anticipated expiration: 2010-01-30
Also published as: JPH077276B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く産業上の利用分野〉この発明は、時間遅れ神経回路網を利用した音節認識装
置に関する。

く従来の技術〉従来、時間遅れ神経回路網（以下、ＴＤＮＮと言う）を
用いた音節スボッティング装置として次のようなものが
ある（沢井，アレックス・ワイベル鹿野・　「時間遅れ
神経回路網による音節スボ゛ツテイングの検討」日本音
響学会講演論文集　１９８８１０）。この音節スボッテ
ィング装置は、入力層と２つの中間層と出力層からなる
ＴＤＮＮで構成されている。このＴＤＮＮの学習用サン
プルとして、音節／ＢＡ／を含む単語５３語を選出し、
音節／ＢＡ／の部分ｌ５フレーム（１０ｍｓ周期）を切
り出した音声サンプルを用いている。また、入力パター
ンとして、音声信号の１６次の高速フーリエ変換メルス
ベクトラムを用いて．いる。なお、このＴＤＮＮの出力
層のユニットは認識カテゴリ“ＢＡ”と“ｎｏｎ−Ｂ　
Ａ”とに対応して２つ設けてある。学習は誤差逆伝播方
式によって行っている。

上記ＴＤＮＮに対する学習時における教師用データの与
え方は、入力パターンの音素／Ｂ／と音素／Ａ／との境
界位置とＴＤＮＮの中心位置とのずれが一定時間内にあ
る場合に、出力層の認識カテゴリ“ＢＡ“に割り付けら
れたユニットに“ビを与え、認識カテゴリ“ｎｏｎ−Ｂ
Ａ”に割り付けられたユニットに“Ｏ”を与える。

未知音声信号の入力は、未知音節の上記入力パターンを
、ＴＤＮＮの入力層の各ユニットに対して３フレームず
つシフトしながらスキャンして与えることによって行っ
ている。そして、出力層の“ＢＡ”に割り付けられたユ
ニットの出力値が“ｎｏｎＨＡ”に割り付けられたユニ
ットの出力値よりも大きい場合は、入力パターンの音節
は／ＢＡ／であると判定する。逆の場合には、入力パタ
ーンのカテゴリの音節は／ｙ＋ｏｎ−Ｂ　Ａ／であると
判定するのである。

く発明が解決しようとする課題〉上述のように、上記従来の音節スボッティング装置は、
ＴＤＮＮの入力層に入力する入力パターンは、音声信号
から抽出された１６次の高速フーリエ変換メルスベクト
ラムであり、出力層から出力される出力データが表すカ
テゴリは“ＢＡ”と“ｎｏｎ−ＢＡ”である。すなわち
、ＴＤＮＮに音声信号の特徴パターンを入力して直接音
節を認識するのである。そのため、ＴＤＮＮにおける音
節認識過程の途中経過（例えば、各層のユニット間の重
みの値）が不明である。また、たとえ分かったとしても
、その重みの値が示す意味は不明である。

したがって、Ｔ’ＤＮＮの学習がなかなか収束しない場
合、学習の未収束の原因が全く不明であるという問題が
ある。また、このように学習の未収束の原因が全く不明
であるので学習か収束に向かうように対処できず、学習
時間が必要以上に長くなるという問題がある。

そこで、この発明の目的は、音節認識過程の途中経過を
知ることが可能であると共に、ＴＤＮＮの学習時間を短
縮可能な音節認識装置を提供することにある。

く課題を解決するための手段〉上記目的を達成するため、この発明の音節認識装置は、
時間遅延手段を有し、順次入力される音響パラメータを
表す信号の時系列とこの音響パラメータを表す信号の時
系列を上記時間遅延手段によって所定時間遅延させた信
号とを組合せた信号を、音素あるいは単音を表す信号の
時系列に変換して出力する第１の時間遅れ神経回路網と
、時間遅延手段を有する゜と共に、上記第１の時間遅れ
神経回路網から出力される音素あるいは単音を表す信号
の時系列を順次入力し、この順次入力される音素あるい
は単音を表す信号の時系列とこの音素あるいは単音を表
す信号の時系列を上記時間遅延手段によって所定時間遅
延させた信号とを組合せた信号を、音節を表す信号の時
系列に変換して出力する第２の時間遅れ神経回路網を備
えたことを特徴としている。

〈作用〉第１の時間遅れ神経回路網に、未知単語から抽出された
音響パラメータを表す信号の時系列が順次入力される。

そうすると、この第１の時間遅れ神経回路網は、順次入
力される音響パラメータを表す信号の時系列とこの音響
パラメータを表す信号の時系列を時間遅延手段によって
所定時間遅延させた信号とを組合せた信号を、音素ある
いは単音を表す信号の時系列に変換して出力する。そし
て、この第Ｉの時間遅れ神経回路網から出力される音素
あるいは単音を表す信号の時系列は、第２の時間遅れ神
経回路網に入力される。

そうすると、この第２の時間遅れ神経回路網は、順次入
力される音素あるいは単音を表す信号の時系列とこの音
素あるいは単音を表す信号の時系列を時間遅延手段によ
って所定時間遅延させた信号とを組合せた信号を、音節
を表す信号の時系列に変換して出力する。したがって、
この第２の時間遅れ神経回路網から出力される音節を表
す信号の時系列によって、音節を認識することができる
。

その際に、上記第１の時間遅れ神経回路網から出力され
る音素あるいは単音を表す信号を監視することによって
、音節認識過程の途中経過（すなわち、音節を構成する
音素列の認識結果）を知ることが可能である。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

第１図はこの発明の音節認識装置のブロック図である。

この音節認識装置は大きく分けて直列に接続された２つ
のＴＤＮＮから成っている。その一方のＴＤＮＮを第１
多層パーセブトロン型ニューラル・ネットワーク（以下
、ＮＮと言う）１で構成し、他方のＴＤＮＮを第２ＮＮ
２で構成する。

第１図における第ＩＮＮＩおよび第２ＮＮ２は、入力層
．中間層．出力層，各層に含まれるユニットおよび各ユ
ニット間の結合等を省略し、簡略化して表現してある。

音節は音素の連鎖から構成されている。そこで、本実施
例の音節認識装置においては、音節認識動作の途中経過
を知る手段として認識対象の音節を構成している音素を
用いるのである。すなわち、第ＩＮＮＩの入力データは
音響パラメータとする一方、識別カテゴリは音素とする
。また、第２ＮＮ２の入力データは第ＩＮＮＩの識別カ
テゴリである音素を表すデータ（本実施例においては、
第ＩＮＮｌの出力データ）とする一方、識別カテゴリは
音節とするのである。こうすることによって、音節認識
動作時において第ＩＮＮＩの出力データを監視すれば、
第ＩＮＮに入力された音響パラメータに対する音節認識
動作の途中経過を知ることができるのである。

上記第ＩＮＮＩの入力層に入力する学習用サンプルは、
発声内容が既知の単語の音声信号から抽出した特徴パタ
ーンに、パワー等の視察によって音素のラベル付けが行
われたものを用いる。ここで、１フレームは８ｍｓ〜ｌ
ｏｍｓ程度である。また、特徴パターンとしては、例え
ばｍチャンネルのバンド・パス・フィルタ群からの出力
値、ｍ次の自己相関係数、ｍ次のケブスドラム係数等を
用いる。

すなわち、入力データの次数はｍとなる。また、第ＩＮ
ＮＩの教師データは上述のようにして作成された学習用
サンプルのラベルに基づく音素を表すデータを用いる。

上記第ＩＮＮＩにおける図示しない入力層はｆｆｉＸ　
（Ａ　＋　１）個（Ａ：後に詳述する最大遅延フレーム
数）のユニットを有する。入力層の各ユニットは、一端
のユニットから順次（Ａ　＋　１）個のユニットから成
るｍ個のブロックに分割されており、第ｉ番目（ｌ≦ｉ
≦ｍ）のブロックの最初のユニットには第ｉ次の音響パ
ラメータが入力される。また、次のユニソトには、第ｉ
次の音響パラメータを、入力信号を１フレームに相当す
る時間だけ遅延させる遅延素子３によって１フレーム分
だけ遅延させた音響パラメータが入力される。さらに次
のユニットには、第ｉ次の音響パラメータを２個の遅延
素子３によって２フレーム分だけ遅延させた音響パラメ
ータが入力される。以下、同様にして、最後のユニット
には、第ｉ次の音響パラメータをＡ個の遅延素子３によ
ってＡフレーム分だけ遅延させた音響パラメータが入力
されるのである。こうして、上述のようなｎフレーム×
ｍ次の入力パターンがＯフレームから順次Ａフレームま
で遅延されて、入力層のｍＸ　（Ａ　＋　１）個のユニ
ットに１フレームづつ順次入力される。

一方、上記第ＩＮＮＩにおける図示しない出力層はｐ個
（ｐ：第ＩＮＮＩによって識別したい音素数）のユニッ
トを有する。通常、日本語の音素の種類は約２０種類で
ある。出力層の各ユニットは識別する個々の音素に割り
付けられている（調音結合の受けやすい音素に対しては
、経験に基づいて複数のユニットを割り付けてもよい）
。すなわち、第１図においては、一端のユニット（第１
ユニット）は音素／ａ／に割り付けられており、第ｊユ
ニットは音素／ｒ／に割り付けられており、第ｐユニッ
トは音素／ｂ／に割り付けられている。こうすることに
よって、第１ユニットが最大出力を呈する場合には、入
力された音響パラメータの音素は／ａ／であると認識し
、第ｊユニットが最大出力を呈する場合には、入力され
た音響パラメータの音素は／ｒ／であると認識するので
ある。

また、上記第２ＮＮ２における図示しない入力層はｐｘ
　（Ｂ　＋　１）個（Ｂ：後に詳述する最大遅延フレー
ム数）のユニットを有する。入力層の各ユニットは、第
ＩＮＮ１の場合と同様に、ｌ端のユニットから順次（Ｂ
＋１）個のユニットから成るｐ個のブロックに分割され
ており、第ｊ番目（ｌ≦ｊ≦ｐ）のブロックの最初のユ
ニットには第ＩＮＮＩの出力層の第ｊユニットからの出
力信号が入力される。

また、次のユニットには、第ｊユニットからの出力信号
を遅延素子３によって１フレーム分だけ遅延させた信号
が入力される。さらに次のユニットには、第ｊユニット
からの出力信号を２個の遅延素子３によって２フレーム
分だけ遅延させた信号が入力される。以下、同様にして
、最後のユニットには、第ｊユニットからの出力信号を
Ｂ（Ｗの遅延素子３によってＢフレーム分だけ遅延させ
た信号が入力されるのである。こうして、上述のような
ｐ個の出力信号列から成る入力パターンがＯフレームか
ら順次Ｂフレームまで遅延されて、入力層のｐｘ　（Ｂ
　＋　１）個のユニットに順次入力される。

一方、上記第２ＮＮ２における図示しない出力層はＳ個
（ｓ：第２ＮＮ２によって識別したい音節数）のユニッ
トを有する。通常、日本語の音節の種類は約１００種類
である。出力層の各ユニットは識別する個々の音節に割
り付けられている。すなわち、第１図においては、第Ｉ
ユニットは音節／ａ／に割り付けられており、第２ユニ
ットは音節／ｉ／に割り付けられており、第Ｓユニット
は音節／ｓｙｏ／に割り付けられている。こうすること
によって、例えば第１ユニットが最大出力を呈する場合
には入力された入力パターンに対する音節は八／である
と認識し、第６ユニットが最大出力を呈する場合には入
力された入力パターンに対する音節は／ｋａ／であると
認識し、第Ｓユニットが最大出力を呈する場合には入力
された入力パターンに対する音節は／ｓｙｏ／であると
認識するのである。

上記構成の音節認識装置は次のようにして学習させる。

第２図は教師データの与え方の説明図である。

以下、第２図に従って、学習データの与え方を詳細に説
明する。

第２図（ａ）は学習用サンプルとしての発声内容が既知
の単語／ふたりの／のパワー曲線であり、第２図（ｂ）
は第２図（ａ）のパワー曲線に対応する音響パラメータ
（第ＩＮＮＩの入力層への入力データ）を示し、第２図
（ｃ）は第ＩＮＮＩの教師データを示し、第２図（ｄ）
は第２ＮＮ２の教師データを示す。なお、第２図（ｂ）
は音響パラメータを次数とフレーム数とのマトリックス
で表現してあるが、具体的なデータは省略してある。

上述のように、学習用サンプル／ふたりの７のパワー曲
線の視察によって、フレーム毎に音響パラメータに音素
ラベルが付けられる。この付加された音素ラベルが第２
図（ａ）の下部にパワー曲線に対応付けて標記してある
。この音素ラベルを表すデータが第ＩＮＮＩの教師デー
タとなるのである。

この第ＩＮＮＩの教師データは次のようにして作成され
る。すなわち、ある音素ラベルが付けられた音響パラメ
ータの１フレームが入力されてからＡフレームに相当す
る時間が経過した後のフレームにおいては、上記音素に
割り付けられた出力層のユニットに信号“ビを与え、そ
の他のユニソトには信号“０”を与えるようなデータを
その音素の教師データとするのである。例えば、第２図
（ｂ）における音素／ｈ／に対応するフレームｆ，から
Ａフレームに相当する時間が経過した後の第２図（ｃ）
におけるフレーム「，においては、音素／ｈ／に割り付
けられたユニットに“ビを与え、その他のユニットには
“０”を与えるデータを教師データ（音素／ｈ／の教師
データと言う）とするのである。

上記第ＩＮＮＩの学習は、第ＩＮＮ＋単独で次のように
して実行する。すなわち、学習用サンプル／ふたりの／
において／ｈ／のラベルが付けられた最初のフレーム（
第１フレーム）の１次の音響パラメータが入力端子４に
入力され、２次の音響パラメータが入力端子５に入力さ
れ、ｉ次の音響パラメータが入力端子６に入力され、他
次の音響パラメータが入力端子７に入力される。以下、
同様にして、各入力端子４〜７には第２フレーム．第３
フレーム・・・・・・の音響パラメータが順次入力され
る。

一方、第２図（Ｃ）に示すように、上記第１フレームの
音響パラメータが入力されてからＡフレーム分の時間が
経過後、音素／ｈ／に割り付けられたユニットに“ビを
与え、その他のユニットに“０”を与える音素／ｈ／の
教師データを３フレームに相当する時間だけ出力層の各
ユニットに入力する。

以下、同様にして、“０”の教師データ（すなわち、出
力層の総てのユニットに“０”を与える教師データ）を
１フレーム、音素／ｕ／の教師データを４フレーム、“
θ″の教師データを４フレーム・・・・・・を順次入力
する。

第２図（ｃ）は上述のようにして入力される教師データ
を、音素を行にフレームを列にしたマトリックスで表現
したものである（但し、Ａ＝３であり、データ内容は“
じのみ記入し“Ｏ”は省略してある）。

また、音素／ｈ／と／ｕ／との間、音素／ａ／と／ｒ／
との間、音素／ｉ／と／ｎ／との間および音素／ｎ／と
／ｏ／との間に“０”の教師データを挿入して、萌ある
いは後の音素による大きな影響を除去するようにしてい
る。

ここで、入力層へ入力する音響パラメータを０フレーム
から順次Ａフレームまで遅延させ、かつ、出力層への教
師データの入力タイミングを入力端子４〜７への音響パ
ラメータの入力に対してＡフレーム分遅延させるのは次
の理由による。すなわち、同一の、音素ラベルが付けら
れる音響パラメータであっても調音結合等によって種々
の音響パラメータが存在する。そこで、このような調音
結合等の影響を吸収するため、まずある音素ラベルが付
加された音響パラメータをＯフレームから順次Ａフレー
ムまで遅延させて入力層に入力し、次に上記音素レベル
が付加された最初のフレームの音響パラメータが入力さ
れてからＡフレーム経過した後に教師データを入力する
のである。こうすることにより、同一のラベルでありな
がら調音結合によって種々に変化した音響パラメータを
同時に第ＩＮＮＩに入力した状態で（すなわち、多くの
情報量で）、上記ラベルに対応した教師データを入力す
ることができ、調音結合等の影響を吸収できるのである
。

上述のようにして学習された上記第ＩＮＮＩの入力端子
４〜７に未知単語のｍ次の音響パラメータの時系列を順
次入力すると、この音響パラメータを０フレームから順
次Ａフレームに相当する時間だけ遅延されたデータが入
力層の各ユニットに入力される。そして、学習後の第Ｉ
ＮＮＩの構造（すなわち、各層のユニット間の結合の重
み）に応じた出力データが出力層の各ユニットから出力
される。その際に、入力音響パラメータに対応する音素
に割り付けられたユニットが最大値の信号を出力するの
である。

このようにして学習が終了した第ＩＮＮＩの出力層に、
第１図に示すように第２ＮＮ２の入力層が接続されて、
第２ＮＮ２の学習が実行されるのである。この場合、第
ＩＮＮＩの出力層の各ユニットからの出力信号の内容を
、図示しない表示装置に表示して、第ＩＮＮ１の判定結
果（すなわち、認識された音素）を監視できるようにす
る。

第２ＮＮ２の教師データは次のようにして作成される。

すなわち、音節を構成する音素連鎖の最前の音素を表す
データが入力されてからＢフレームに相当する時間が経
過した後のフレームにおいては、その音素と次に続くの
音素とから構成される音節に割り付けられた出力層のユ
ニットに信号“ビを与え、その他のユニットには信号“
０“を与えるようなデータを教師データとするのである
。

例えば、第２図（ｃ）に示す音素／ｈ／の教師データに
おける最前のフレームｆ，からＢフレームに相当する時
間が経過した後の第２図（ｄ）のフレームｒ３において
は、音節／ｈｕ／に割り付けられたユニットに“ビを与
え、その他のユニットには″０”を与えるデータを音節
／ｈｕ／の教師データとするのである。

上記第２ＮＮ２の学習は次のようにして実行する。すな
わち、第ＩＮＮＩの学習の場合と同様に、学習済みの第
Ｉ　Ｎ　Ｎ　ｌの入力層の各ユニットに、学習用サンプ
ル／ふたりの／の音響パラメータ時系列および遅延音響
パラメータ時系列が順次入力される。そうすると、第Ｉ
ＮＮＩは既に識別する音素の境界の学習を終了している
ので、第ＩＮＮＩの出力層の各ユニットからは、第２図
（ｃ）の教師データと略等しい出力データが出力される
。そして、この第ＩＮＮ＋から出力される第２図（ｃ）
の教師データと略等しい出力データの最初のフレーム（
第１フレーム）の音素／ｈ／を表すデータ（０以上１以
下）が入力層の各ユニットに入力される。以下、同様に
して、各ユニットには第２フレーム（音素／ｈ／を表す
データ），第３フレーム（音素／ｈ／を表すデータ），
第４フレーム（“０”のデータ）・・印・のデータが順
次入力される。一方、上記第１フレームの音素／ｈ／を
表すデータが入力されてからＢフレーム分の時間が経過
後、音節／ｈｕ／に割り付けられたユニットに“１”を
与え、その他のユニットに“Ｏ”を与える音節／ｈｕ／
の教師データを１フレームに相当する時間だけ出力層の
各ユニットに入方する。さらに、この１フレームに相当
する時間に続いて２フレームに相当する時間だけ音節／
ｈｕ／の教師データを入力するのである。

以下、同様にして、“θ″の教師データを８フレーム、
音節／Ｌａ／の教師データを２フレーム、“０”の教師
データを４フレーム・・・を順次人カする。

第２図（ｄ）は上述のようにして入カされる教師データ
を、音節を行にフレームを列にしたマトリックスで表現
したものである（但し、Ｂ＝５であり、データ内容は“
ビのみ記人し“０”は省略してある）。

上記第２ＮＮ２の学習時において学習がなかなか収束し
ない場合には、上記表示装置によって第ＩＮＮＩの出力
層の各ユニットからの出力信号の内容を確認する。その
結果、第ＩＮＮＩに入力された音響パラメータに対応す
る音素を表すデータであれば、学習未収束の原因は第２
ＮＮ２側にあるとして、第２ＮＮ２に対して例えばシナ
プス結合の重み変更等の何等かの処置を行う。また、入
力された音響パラメータに対応する音素を表すデータで
なければ、学習未収束の原因は第ＩＮＮＩ側にあるとし
て、第ＩＮＮＩの再学習等の処置を実行する。このよう
に、第ＩＮＮＩの動作状態を知ることによって、音節認
識装置の学習を効率良く行って学習時間を短縮すること
ができるのである。

ここで、入力層へ入力する音素を表すデータをＯフレー
ムから順次Ｂフレームまで遅延さけ、がっ、出力層への
教師データの入力タイミングを入力層への音素を表すデ
ータの入力に対してＢフレーム分遅延させるのは次の理
由による。すなわち、例えば音節／ｈｕ／は音素／ｈ／
と音素／ｕ／の連鎖がら成っている。そこで、第２ＮＮ
２に音素／ｈ／を表すデータと音素／ｕ／を表すデータ
とが入力された状態で、音節／ｈｕ／の教師データを入
力しなければならない。そこで、音素／ｈ／を表すデー
タを遅延素子３によって１フレームから順次Ｂフレーム
まで遅延させることによって音素／ｈ／を表すデータ保
持させ、この状態で次の音素／ｕ／を表すデータを入力
して音素／ｈ／を表すデータと音素／ｕ／を表すデータ
とが同時に入力された状態にする。そして、この状態で
音節／ｈｕ／の教師データを入力するのである。したが
って、音節／ｈｕ／の教師データを入力する時間は、音
素／ｈ／を表すデータと音素／ｕ／を表すデータとが同
時に保持されている数フレームだけでよい。

また、音節／ｈｕ／における音素／ｈ／のフレームの連
鎖と音素／ｕ／のフレームの連鎖の境界位置は話者や発
声速度等によって変化する。そこで、第２ＮＮ２に入力
される音素／ｈ／を表すデータと音素／Ｕ／を表すデー
タとを遅延させることによって、音節／ｈｕ／の教師デ
ータが入力される３フレーム間（第２図（ｄ）参照）に
おいて、第２ＮＮ２に入力される音素／′ｈ／を表ず信
号連鎖と音素／ｕ／を表す信号連鎖の境界位置を変化さ
せる（時間が経過するに従って境界位置が音節／ｈｕ／
の而方に移動する）のである。こうすることによって、
話者や発声速度による音素／ｈ／と音素／ｕ／の境界位
置の変動を吸収することができるのである。

上述のようにして学Ｈされた上記第２ＮＮ２の入力層の
各ユニットに、未知単語の音素を表すデータの時系列を
入力すると、学習後の第２ＮＮ２の構造に応じた出力デ
ータが出力層の各ユニットから出力される。その際に、
入力データに対応する音節に割り付けられたユニットが
最大値の信号を出力するのである。

上述のようにして学習された、第ＩＮＮＩおよび第２Ｎ
Ｎ２から構成される音節認識装置は、次のようにして音
節を認識する。

第１図において、第ＩＮＮＩの入力端子４〜７に未知単
語のｍ次の音響パラメータを表す信号の時系列が順次入
力されると、この入力されたｍ次の音響パラメータは遅
延素子３によってθフレームから順次Ａフレームに相当
する時間まで遅延され、入力層の各ユニットに入力され
る。そうすると、第ＩＮＮＩは、上述のような学習後の
構造に応じて、入力された音響パラメータの時系列を音
素を表すデータの時系列に変換して出力層の各ユニット
から出力する。この出力データは、入力された音響パラ
メータに対応する音素を表すようなデータである。

このようにして、第ＩＮＮＩの出力層の各ユニットから
出力された音素を表すデータの時系列は、第２ＮＮ２の
遅延素子３によって０フレームから順次Ｂフレームに相
当する時間まで遅延されて、第２ＮＮ２の入力層の各ユ
ニットに入力される。

そうすると、第２ＮＮ２は、上述のような学習後の構造
に応じて、入力された音素を表すデータの時系列を音節
を表すデータの時系列に変換して出力層の各ユニットか
ら出力する。この出力データは、入力された音素を表す
データ列に対応する音節に割り付けられた出力層のユニ
ットからの出力信号が最大値になるようなデータである
。

すなわち、第２ＮＮ２の出力層の各ユニットからの出力
データは、第ＩＮＮＩの入力端子４〜７に入力された未
知単語のｍ次の音響パラメータ時系列に対応した音節時
系列となるのである。

その際に、上述のように、第ＩＮＮＩおよび第２．　Ｎ
　Ｎ　２はＴＤＮＮ構造になっている。そのため、第Ｉ
ＮＮＩによる音素認識の際に調音結合等の影響を吸収す
ることができ、第２ＮＮ２による音節認識の際に話者や
発声速度の影響をある程度吸収することができる。した
がって、話者や発声速度によらず正しく音節を認識する
ことができるのである。

また、上記音節認識装置は、上記表示装置によって第Ｉ
ＮＮ＋の出力層の各ユニットからの出力データを監視し
て音節認識動作の途中経過を知ることができる。したが
って、音節の認識結果が誤っている場合に、音節認識動
作の途中経過（すなわち、音節を構成する音素の認識結
果）を知ることによって、誤認識の原因が第ＩＮＮＩあ
るいは第２ＮＮ２のいずれにあるかを知ることができる
。

すなわち、誤認識の原因に応じて適確に対処することが
でき、より正しい音節認識結果を得るようにすることが
できるのである。

上述のように、この発明の音節認識装置は直列に接続さ
れた２つのＴＤＮＮによって構成され、第ＩのＴＤＮＮ
は入力された未知単語の音響パラメータを表す信号の時
系列を音素を表す信号の時系列に変換して出力する一方
、第２のＴＤＮＮは第ｌのＴＤＮＮから出力される音素
を表す信号の時系列を入力し、この入力された音素を表
す言号の時系列を音節を表す信号の時系列に変換して出
力するようになっている。そのため、第ｌのＴＤＮＮの
出力データを監視することによって、音節認識過程の途
中経過を知ることが可能である。したがって、例えばＮ
Ｎの学習がなかなか収束しない場合や誤認識した場合に
は、第！のＴＤＮＮの出力データの内容から学習の未収
束および誤認識の原因を知ることが可能となるのである
。

すなわち、この発明の音節認識装置によれば、学習の未
収束および誤認識に対して適確に対処することができ、
学冒時間を短縮すると共に、より正しい認識結果を得る
ことができる。

上記実施例においては、時間遅延手段として遅延素子を
用いているがこれに限定されるものではない。

上記実施例においては、ＮＮを学習する際において、ま
ず第Ｉ　Ｎ　Ｎ　ｌを学習し、この学習済みの第ＩＮＮ
Ｉと未学習の第２ＮＮ２とを接続して第２ＮＮ２の学習
を行うようにしている。しかしながら、この発明はこれ
に限定されるものではなく、第ＩＮＮ１と第２ＮＮ２と
を夫々単独に学習した後学習済みの第ＩＮＮＩと第２Ｎ
Ｎ２とを接続して、さらに学習時間を短縮するようにし
てもよい。

上記実施例においては、第ＩＮＮＩの分類カテゴリを音
素としている。しかしながら、この発明はこれに限定さ
れるものではなく単音を分類カテゴリとしてもよい。こ
うすることによって、従来からの音声認識に関する知識
を導入して、ある音素を表す単音のうちの異音を第ＩＮ
ＮＩの認識カテゴリの一つとすることができ、より正し
い音節認識を可能にするのである。

上記実施例においては、ＴＤＮＮを多層パーセブトロン
型ニューラル・ネットワークで構成している。しかしな
がら、この発明はこれに限定されるものではなく、コホ
ーネン型ニューラル・ネットワークで構成してもよい。

〈発明の効果〉以上より明らかなように、この発明の音節認識装置は、
時間遅延手段を有する第１の時間遅れ神経回路網と時間
遅延手段を有する第２の時間遅れ神経回路網とを備え、
上記第ｌの時間遅れ神経回路網は、順次入力される音響
パラメータを表す信号の時系列とこの音響パラメータを
表す信号の時系列を所定時間遅延させた信号とを組合せ
た信号を、音素あるいは単音を表す信号に変換して出力
する一方、上記第２の時間遅れ神経回路網は、上記第１
の時間遅れ神経回路網から順次入力される音素あるいは
単音を表す信号の時系列とこの音素あるいは単音を表す
信号の時系列を所定時間遅延させた信号とを組合仕た信
号を、音節を表す信号に変換して出力するようにしたの
で、上記第１の時間遅れ神経回路網から出力される音素
あるいは単音を表す信号を監視することによって、音節
認識過程の途中経過（すなわち、音素あるいは単音の認
識結果）を知ることが可能である。

したがって、この発明の音節認識装置によれば、音節認
識過程の途中経過を知ることによって、学習の未収束の
原因を明らかにして適確に対処できるので、学習時間を
短縮することができるようになる。また、音節認識過程
の途中経過を知ることによって、誤認識の原因を明らか
にして適確に対処できるので、より正しい認識結果を得
ることができるようになる。

【図面の簡単な説明】

第１図はこの発明の音節認識装置の一実施例におけろブ
ロック図、第２図は第１図の音節認識装置への音響パラ
メータの一例と教師データの一例を示す図である。ｌ・・・第ＩＮＮ，２・・・第２ＮＮ、３・・・遅延素子、４，５，６．７・・・入力端子。

Claims

【特許請求の範囲】

（１）時間遅延手段を有し、順次入力される音響パラメ
ータを表す信号の時系列とこの音響パラメータを表す信
号の時系列を上記時間遅延手段によって所定時間遅延さ
せた信号とを組合せた信号を、音素あるいは単音を表す
信号の時系列に変換して出力する第１の時間遅れ神経回
路網と、時間遅延手段を有すると共に、上記第１の時間遅れ神経
回路網から出力される音素あるいは単音を表す信号の時
系列を順次入力し、この順次入力される音素あるいは単
音を表す信号の時系列とこの音素あるいは単音を表す信
号の時系列を上記時間遅延手段によって所定時間遅延さ
せた信号とを組合せた信号を、音節を表す信号の時系列
に変換して出力する第２の時間遅れ神経回路網を備えた
ことを特徴とする音節認識装置。