JPH05181500A

JPH05181500A - 単語認識システム

Info

Publication number: JPH05181500A
Application number: JP3310734A
Authority: JP
Inventors: Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1991-11-26
Filing date: 1991-11-26
Publication date: 1993-07-23

Abstract

(57)【要約】【目的】ニューラルネットワークによる単語認識シス
テムにおいて、学習パターンに雑音を重畳し、疑似的に
パターン数を増やすことにより、認識率の向上を図るこ
と。【構成】ニューラルネットワーク１７を用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定するようにしたものであ
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はニューラルネットワーク
による単語認識システムに関する。

【０００２】

【従来の技術】一般に、ニューラルネットワークの学習
パターンとして、雑音を重畳したパターンを用いると、
変動が加わったパターンに対する能力が向上することが
報告されている（沢井、音響講論、2-P-12、平成 2年 9
月「時間・周波数変動に強い時間遅れ神経回路網（ＴＤ
ＮＮ）」）。

【０００３】また、本出願人が出願したニューラルネッ
トワークによる単語認識システム（特願平1-98376 ）に
おいて、学習パターンは実際に発声された音声試料から
抽出したものであった。

【０００４】

【発明が解決しようとする課題】然しながら、上記従来
のニューラルネットワークによる単語認識システムで
は、音声試料から抽出したパターンしか学習していない
ため、変動が加わったパターンが入力された場合、誤認
識する場合があった。この傾向は特に、学習用に数多く
の音声試料が用意できなかった場合、顕著であった。

【０００５】本発明は、ニューラルネットワークによる
単語認識システムにおいて、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図ることを目的とする。

【０００６】

【課題を解決するための手段】請求項１に記載の本発明
は、ニューラルネットワークを用いて入力音声からその
単語を認識する単語認識システムにおいて、計算によっ
て学習パターンに雑音を重畳し、疑似的に学習パターン
を増やすに際し、加える雑音の大きさの上限を、実際の
音声試料から抽出した学習パターンにおける隣接データ
との差を基準に設定するようにしたものである。

【０００７】請求項２に記載の本発明は、ニューラルネ
ットワークを用いて入力音声からその単語を認識する単
語認識システムにおいて、計算によって学習パターンに
雑音を重畳し、疑似的に学習パターンを増やすに際し、
加える雑音の大きさの上限を、実際の音声試料から抽出
した学習パターンにおける隣接データとの差を基準に設
定し、更に、加える雑音の大きさと符号に、元のパター
ンの概形を崩さないような制限を加えるようにしたもの
である。

【０００８】請求項３に記載の本発明は、請求項１又は
２に記載の本発明において更に、前記ニューラルネット
ワークへの入力として、音声の周波数特性の時間的変化
を用いるようにしたものである。

【０００９】

【作用】本発明にあっては、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図る。その際、加える雑音は一様乱数などにより
作成するが、例えば、以下のような制限を加える。

【００１０】(1) 雑音の大きさの上限は、音声試料から
抽出したパターンにおける隣接データとの差を基準に設
定する。その一例を図２（Ａ）、（Ｂ）に示す（大黒丸
は雑音を重畳するデータ、小黒丸は隣接する２つのデー
タを示す）。

【００１１】(2) 上記(1) に加えて更に雑音の大きさ及
び符号は、元の音声試料から抽出したパターンの概形を
崩さないように設定する。加える制限の一例を図３
（Ａ）〜（Ｃ）に示す。

【００１２】［制限 1］雑音を重畳するデータが、隣接
する２つのデータより小さい場合雑音重畳後のデータ
は、図３（Ａ）に示す如く、隣接する２つのデータの
内、小さな方のデータより小さいこと。［制限 2］雑音を重畳するデータが、隣接す２つのデー
タより大きい場合雑音重畳後のデータは、図３（Ｂ）に
示す如く、隣接する２つのデータの内、大きな方のデー
タより大きいこと。［制限 3］雑音を重畳するデータが、隣接する２つのデ
ータに挟まれる場合雑音重畳後のデータは、図３（Ｃ）
に示す如く、隣接する２つのデータの間にあること。

【００１３】然るに、本発明によれば、下記〜の作
用がある。請求項１においては、雑音の大きさの上限を、隣接デ
ータとの差を基準に設定するため、隣接データとの差が
大きい（変動の大きい）部分では加える雑音を大きく、
逆に、隣接データとの差が小さい（変動の小さい）部分
では加える雑音を小さく設定できる。

【００１４】請求項２においては、更に、雑音の大き
さ及び符号は、元の音声試料から抽出したパターンの概
形を崩さないように設定するため、元のパターンとかけ
離れた形状を持つパターンを作成することを防ぐ。

【００１５】上記、の方式で重畳することによ
り、疑似的に学習パターン数が増え、変動が加わったパ
ターンに対しても、正しく認識できるようになる。ま
た、より少ない音声試料で高い認識率が得られる。

【００１６】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。

【００１７】(1)ニューラルネットワークは、その構造
から、図４（Ａ）に示す階層的ネットワークと図４
（Ｂ）に示す相互結合ネットワークの２種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。

【００１８】(2)ネットワークの構造階層的ネットワークは、図５に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は１以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。

【００１９】(3)ユニットの構造ユニットは図６に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則（変換関数）で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。

【００２０】(4)学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望まし
い出力）に近づけることであり、一般的には図６に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。

【００２１】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。

【００２２】

【実施例】図１は本発明が適用された単語認識システム
の一例を示すブロック図、図２は加える雑音の大きさの
制限例を示す模式図、図３は加える雑音の大きさの他の
制限例を示す模式図、図４はニューラルネットワークを
示す模式図、図５は階層的なニューラルネットワークを
示す模式図、図６はユニットの構造を示す模式図、図７
は入力音声を示す模式図、図８はバンドパスフィルタの
出力を示す模式図である。

【００２３】(A) 学習パターンの作成音声入力部１１により採取した音声試料を前処理部１
２により前処理することにて、学習パターンを得る。こ
の学習パターンを学習パターン記憶部１３に記憶する。

【００２４】尚、前処理部１２は、バンドパスフィルタ
と平均化回路にて構成される。これにより、前処理部１
２は、入力音声を図７に示す如く、４つのブロックに時
間的に等分割する。そして、前処理部１２は、各ブロッ
クの音声波形を複数チャンネルのバンドパスフィルタに
通し、各ブロック毎、即ち各一定時間毎に図８（Ａ）〜
（Ｄ）のそれぞれに示す如くの周波数特性を得る。この
とき、バンドパスフィルタの出力は、各ブロック毎に平
均化回路で平均化され、学習パターンとされる。

【００２５】雑音生成部１４により一様乱数等により
雑音を作成し、この雑音の大きさ、符号に雑音制限部１
５により前述した図２（Ａ）、（Ｂ）、図３（Ａ）〜
（Ｃ）の如くの制限を加え、この制限を加えられた雑音
を雑音重畳部１６において上述の学習パターンに重畳
し、疑似学習パターンを得る。この疑似学習パターンを
学習パターン記憶部１３に記憶し、学習パターン数を増
やす。

【００２６】即ち、上記、により、話者 3名、認識
対象単語50語（各 4サンプル）の音声試料から抽出した
パターンに雑音を重畳し、各サンプルから 4つの雑音重
畳パターンを作成する。

【００２７】(B) 学習学習パターン記憶部１３に記憶した上記(A) の全ての学
習パターン（各話者50語× 4サンプル×（ 4＋1 ）パタ
ーン＝1000パターン）を用いて、ニューラルネットワー
ク１７を学習する。即ち、前述した学習アルゴリズムの
バックプロパゲーションにより、入力に対する出力のエ
ラーが一定レベルに収束するまで、多数回学習させ、一
定認識率を保証し得るニューラルネットワーク１７を構
築する。

【００２８】(C) 認識音声入力部１１及び前処理部１２を用い、評価パターン
を、学習後のニューラルネットワーク１７に入力として
与え、判定部１８により判定した結果、雑音を重畳しな
いときに比べて、誤り率において14％の改善がみられ
た。

【００２９】即ち、本実施例によれば、疑似的に学習パ
ターン数を増やすことにより、変動が加わったパターン
に対しても、正しく認識できるようになる。また、より
少ない音声試料で高い認識率が得られる。

【００３０】

【発明の効果】本発明によれば、ニューラルネットワー
クによる単語認識システムにおいて、学習パターンに雑
音を重畳し、疑似的にパターン数を増やすことにより、
認識率の向上を図ることができる。

【図面の簡単な説明】

【図１】図１は本発明が適用された単語認識システムの
一例を示すブロック図である。

【図２】図２は加える雑音の大きさの制限例を示す模式
図である。

【図３】図３は加える雑音の大きさの他の制限例を示す
模式図である。

【図４】図４はニューラルネットワークを示す模式図で
ある。

【図５】図５は階層的なニューラルネットワークを示す
模式図である。

【図６】図６はユニットの構造を示す模式図である。

【図７】図７は入力音声を示す模式図である。

【図８】図８はバンドパスフィルタの出力を示す模式図
である。

【符号の説明】

１１音声入力部１２前処理部１３学習パターン記憶部１４雑音生成部１５雑音制限部１６雑音重畳部１７ニューラルネットワーク１８判定部

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定することを特徴とする単
語認識システム。
【請求項２】ニューラルネットワークを用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定し、更に、加える雑音の
大きさと符号に、元のパターンの概形を崩さないような
制限を加えることを特徴とする単語認識システム。
【請求項３】前記ニューラルネットワークへの入力と
して、音声の周波数特性の時間的変化を用いる請求項１
又は２記載の単語認識システム。