JPH05181500A - 単語認識システム - Google Patents
単語認識システムInfo
- Publication number
- JPH05181500A JPH05181500A JP3310734A JP31073491A JPH05181500A JP H05181500 A JPH05181500 A JP H05181500A JP 3310734 A JP3310734 A JP 3310734A JP 31073491 A JP31073491 A JP 31073491A JP H05181500 A JPH05181500 A JP H05181500A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- learning
- pattern
- learning pattern
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 ニューラルネットワークによる単語認識シス
テムにおいて、学習パターンに雑音を重畳し、疑似的に
パターン数を増やすことにより、認識率の向上を図るこ
と。 【構成】 ニューラルネットワーク17を用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定するようにしたものであ
る。
テムにおいて、学習パターンに雑音を重畳し、疑似的に
パターン数を増やすことにより、認識率の向上を図るこ
と。 【構成】 ニューラルネットワーク17を用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定するようにしたものであ
る。
Description
【0001】
【産業上の利用分野】本発明はニューラルネットワーク
による単語認識システムに関する。
による単語認識システムに関する。
【0002】
【従来の技術】一般に、ニューラルネットワークの学習
パターンとして、雑音を重畳したパターンを用いると、
変動が加わったパターンに対する能力が向上することが
報告されている(沢井、音響講論、2-P-12、平成 2年 9
月「時間・周波数変動に強い時間遅れ神経回路網(TD
NN)」)。
パターンとして、雑音を重畳したパターンを用いると、
変動が加わったパターンに対する能力が向上することが
報告されている(沢井、音響講論、2-P-12、平成 2年 9
月「時間・周波数変動に強い時間遅れ神経回路網(TD
NN)」)。
【0003】また、本出願人が出願したニューラルネッ
トワークによる単語認識システム(特願平1-98376 )に
おいて、学習パターンは実際に発声された音声試料から
抽出したものであった。
トワークによる単語認識システム(特願平1-98376 )に
おいて、学習パターンは実際に発声された音声試料から
抽出したものであった。
【0004】
【発明が解決しようとする課題】然しながら、上記従来
のニューラルネットワークによる単語認識システムで
は、音声試料から抽出したパターンしか学習していない
ため、変動が加わったパターンが入力された場合、誤認
識する場合があった。この傾向は特に、学習用に数多く
の音声試料が用意できなかった場合、顕著であった。
のニューラルネットワークによる単語認識システムで
は、音声試料から抽出したパターンしか学習していない
ため、変動が加わったパターンが入力された場合、誤認
識する場合があった。この傾向は特に、学習用に数多く
の音声試料が用意できなかった場合、顕著であった。
【0005】本発明は、ニューラルネットワークによる
単語認識システムにおいて、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図ることを目的とする。
単語認識システムにおいて、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図ることを目的とする。
【0006】
【課題を解決するための手段】請求項1に記載の本発明
は、ニューラルネットワークを用いて入力音声からその
単語を認識する単語認識システムにおいて、計算によっ
て学習パターンに雑音を重畳し、疑似的に学習パターン
を増やすに際し、加える雑音の大きさの上限を、実際の
音声試料から抽出した学習パターンにおける隣接データ
との差を基準に設定するようにしたものである。
は、ニューラルネットワークを用いて入力音声からその
単語を認識する単語認識システムにおいて、計算によっ
て学習パターンに雑音を重畳し、疑似的に学習パターン
を増やすに際し、加える雑音の大きさの上限を、実際の
音声試料から抽出した学習パターンにおける隣接データ
との差を基準に設定するようにしたものである。
【0007】請求項2に記載の本発明は、ニューラルネ
ットワークを用いて入力音声からその単語を認識する単
語認識システムにおいて、計算によって学習パターンに
雑音を重畳し、疑似的に学習パターンを増やすに際し、
加える雑音の大きさの上限を、実際の音声試料から抽出
した学習パターンにおける隣接データとの差を基準に設
定し、更に、加える雑音の大きさと符号に、元のパター
ンの概形を崩さないような制限を加えるようにしたもの
である。
ットワークを用いて入力音声からその単語を認識する単
語認識システムにおいて、計算によって学習パターンに
雑音を重畳し、疑似的に学習パターンを増やすに際し、
加える雑音の大きさの上限を、実際の音声試料から抽出
した学習パターンにおける隣接データとの差を基準に設
定し、更に、加える雑音の大きさと符号に、元のパター
ンの概形を崩さないような制限を加えるようにしたもの
である。
【0008】請求項3に記載の本発明は、請求項1又は
2に記載の本発明において更に、前記ニューラルネット
ワークへの入力として、音声の周波数特性の時間的変化
を用いるようにしたものである。
2に記載の本発明において更に、前記ニューラルネット
ワークへの入力として、音声の周波数特性の時間的変化
を用いるようにしたものである。
【0009】
【作用】本発明にあっては、学習パターンに雑音を重畳
し、疑似的にパターン数を増やすことにより、認識率の
向上を図る。その際、加える雑音は一様乱数などにより
作成するが、例えば、以下のような制限を加える。
し、疑似的にパターン数を増やすことにより、認識率の
向上を図る。その際、加える雑音は一様乱数などにより
作成するが、例えば、以下のような制限を加える。
【0010】(1) 雑音の大きさの上限は、音声試料から
抽出したパターンにおける隣接データとの差を基準に設
定する。その一例を図2(A)、(B)に示す(大黒丸
は雑音を重畳するデータ、小黒丸は隣接する2つのデー
タを示す)。
抽出したパターンにおける隣接データとの差を基準に設
定する。その一例を図2(A)、(B)に示す(大黒丸
は雑音を重畳するデータ、小黒丸は隣接する2つのデー
タを示す)。
【0011】(2) 上記(1) に加えて更に雑音の大きさ及
び符号は、元の音声試料から抽出したパターンの概形を
崩さないように設定する。加える制限の一例を図3
(A)〜(C)に示す。
び符号は、元の音声試料から抽出したパターンの概形を
崩さないように設定する。加える制限の一例を図3
(A)〜(C)に示す。
【0012】[制限 1]雑音を重畳するデータが、隣接
する2つのデータより小さい場合雑音重畳後のデータ
は、図3(A)に示す如く、隣接する2つのデータの
内、小さな方のデータより小さいこと。 [制限 2]雑音を重畳するデータが、隣接す2つのデー
タより大きい場合雑音重畳後のデータは、図3(B)に
示す如く、隣接する2つのデータの内、大きな方のデー
タより大きいこと。 [制限 3]雑音を重畳するデータが、隣接する2つのデ
ータに挟まれる場合雑音重畳後のデータは、図3(C)
に示す如く、隣接する2つのデータの間にあること。
する2つのデータより小さい場合雑音重畳後のデータ
は、図3(A)に示す如く、隣接する2つのデータの
内、小さな方のデータより小さいこと。 [制限 2]雑音を重畳するデータが、隣接す2つのデー
タより大きい場合雑音重畳後のデータは、図3(B)に
示す如く、隣接する2つのデータの内、大きな方のデー
タより大きいこと。 [制限 3]雑音を重畳するデータが、隣接する2つのデ
ータに挟まれる場合雑音重畳後のデータは、図3(C)
に示す如く、隣接する2つのデータの間にあること。
【0013】然るに、本発明によれば、下記〜の作
用がある。 請求項1においては、雑音の大きさの上限を、隣接デ
ータとの差を基準に設定するため、隣接データとの差が
大きい(変動の大きい)部分では加える雑音を大きく、
逆に、隣接データとの差が小さい(変動の小さい)部分
では加える雑音を小さく設定できる。
用がある。 請求項1においては、雑音の大きさの上限を、隣接デ
ータとの差を基準に設定するため、隣接データとの差が
大きい(変動の大きい)部分では加える雑音を大きく、
逆に、隣接データとの差が小さい(変動の小さい)部分
では加える雑音を小さく設定できる。
【0014】請求項2においては、更に、雑音の大き
さ及び符号は、元の音声試料から抽出したパターンの概
形を崩さないように設定するため、元のパターンとかけ
離れた形状を持つパターンを作成することを防ぐ。
さ及び符号は、元の音声試料から抽出したパターンの概
形を崩さないように設定するため、元のパターンとかけ
離れた形状を持つパターンを作成することを防ぐ。
【0015】上記、の方式で重畳することによ
り、疑似的に学習パターン数が増え、変動が加わったパ
ターンに対しても、正しく認識できるようになる。ま
た、より少ない音声試料で高い認識率が得られる。
り、疑似的に学習パターン数が増え、変動が加わったパ
ターンに対しても、正しく認識できるようになる。ま
た、より少ない音声試料で高い認識率が得られる。
【0016】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0017】(1)ニューラルネットワークは、その構造
から、図4(A)に示す階層的ネットワークと図4
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
から、図4(A)に示す階層的ネットワークと図4
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0018】(2)ネットワークの構造 階層的ネットワークは、図5に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0019】(3)ユニットの構造 ユニットは図6に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0020】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図6に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
い出力)に近づけることであり、一般的には図6に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0021】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0022】
【実施例】図1は本発明が適用された単語認識システム
の一例を示すブロック図、図2は加える雑音の大きさの
制限例を示す模式図、図3は加える雑音の大きさの他の
制限例を示す模式図、図4はニューラルネットワークを
示す模式図、図5は階層的なニューラルネットワークを
示す模式図、図6はユニットの構造を示す模式図、図7
は入力音声を示す模式図、図8はバンドパスフィルタの
出力を示す模式図である。
の一例を示すブロック図、図2は加える雑音の大きさの
制限例を示す模式図、図3は加える雑音の大きさの他の
制限例を示す模式図、図4はニューラルネットワークを
示す模式図、図5は階層的なニューラルネットワークを
示す模式図、図6はユニットの構造を示す模式図、図7
は入力音声を示す模式図、図8はバンドパスフィルタの
出力を示す模式図である。
【0023】(A) 学習パターンの作成 音声入力部11により採取した音声試料を前処理部1
2により前処理することにて、学習パターンを得る。こ
の学習パターンを学習パターン記憶部13に記憶する。
2により前処理することにて、学習パターンを得る。こ
の学習パターンを学習パターン記憶部13に記憶する。
【0024】尚、前処理部12は、バンドパスフィルタ
と平均化回路にて構成される。これにより、前処理部1
2は、入力音声を図7に示す如く、4つのブロックに時
間的に等分割する。そして、前処理部12は、各ブロッ
クの音声波形を複数チャンネルのバンドパスフィルタに
通し、各ブロック毎、即ち各一定時間毎に図8(A)〜
(D)のそれぞれに示す如くの周波数特性を得る。この
とき、バンドパスフィルタの出力は、各ブロック毎に平
均化回路で平均化され、学習パターンとされる。
と平均化回路にて構成される。これにより、前処理部1
2は、入力音声を図7に示す如く、4つのブロックに時
間的に等分割する。そして、前処理部12は、各ブロッ
クの音声波形を複数チャンネルのバンドパスフィルタに
通し、各ブロック毎、即ち各一定時間毎に図8(A)〜
(D)のそれぞれに示す如くの周波数特性を得る。この
とき、バンドパスフィルタの出力は、各ブロック毎に平
均化回路で平均化され、学習パターンとされる。
【0025】雑音生成部14により一様乱数等により
雑音を作成し、この雑音の大きさ、符号に雑音制限部1
5により前述した図2(A)、(B)、図3(A)〜
(C)の如くの制限を加え、この制限を加えられた雑音
を雑音重畳部16において上述の学習パターンに重畳
し、疑似学習パターンを得る。この疑似学習パターンを
学習パターン記憶部13に記憶し、学習パターン数を増
やす。
雑音を作成し、この雑音の大きさ、符号に雑音制限部1
5により前述した図2(A)、(B)、図3(A)〜
(C)の如くの制限を加え、この制限を加えられた雑音
を雑音重畳部16において上述の学習パターンに重畳
し、疑似学習パターンを得る。この疑似学習パターンを
学習パターン記憶部13に記憶し、学習パターン数を増
やす。
【0026】即ち、上記、により、話者 3名、認識
対象単語50語(各 4サンプル)の音声試料から抽出した
パターンに雑音を重畳し、各サンプルから 4つの雑音重
畳パターンを作成する。
対象単語50語(各 4サンプル)の音声試料から抽出した
パターンに雑音を重畳し、各サンプルから 4つの雑音重
畳パターンを作成する。
【0027】(B) 学習 学習パターン記憶部13に記憶した上記(A) の全ての学
習パターン(各話者50語× 4サンプル×( 4+1 )パタ
ーン=1000パターン)を用いて、ニューラルネットワー
ク17を学習する。即ち、前述した学習アルゴリズムの
バックプロパゲーションにより、入力に対する出力のエ
ラーが一定レベルに収束するまで、多数回学習させ、一
定認識率を保証し得るニューラルネットワーク17を構
築する。
習パターン(各話者50語× 4サンプル×( 4+1 )パタ
ーン=1000パターン)を用いて、ニューラルネットワー
ク17を学習する。即ち、前述した学習アルゴリズムの
バックプロパゲーションにより、入力に対する出力のエ
ラーが一定レベルに収束するまで、多数回学習させ、一
定認識率を保証し得るニューラルネットワーク17を構
築する。
【0028】(C) 認識 音声入力部11及び前処理部12を用い、評価パターン
を、学習後のニューラルネットワーク17に入力として
与え、判定部18により判定した結果、雑音を重畳しな
いときに比べて、誤り率において14%の改善がみられ
た。
を、学習後のニューラルネットワーク17に入力として
与え、判定部18により判定した結果、雑音を重畳しな
いときに比べて、誤り率において14%の改善がみられ
た。
【0029】即ち、本実施例によれば、疑似的に学習パ
ターン数を増やすことにより、変動が加わったパターン
に対しても、正しく認識できるようになる。また、より
少ない音声試料で高い認識率が得られる。
ターン数を増やすことにより、変動が加わったパターン
に対しても、正しく認識できるようになる。また、より
少ない音声試料で高い認識率が得られる。
【0030】
【発明の効果】本発明によれば、ニューラルネットワー
クによる単語認識システムにおいて、学習パターンに雑
音を重畳し、疑似的にパターン数を増やすことにより、
認識率の向上を図ることができる。
クによる単語認識システムにおいて、学習パターンに雑
音を重畳し、疑似的にパターン数を増やすことにより、
認識率の向上を図ることができる。
【図1】図1は本発明が適用された単語認識システムの
一例を示すブロック図である。
一例を示すブロック図である。
【図2】図2は加える雑音の大きさの制限例を示す模式
図である。
図である。
【図3】図3は加える雑音の大きさの他の制限例を示す
模式図である。
模式図である。
【図4】図4はニューラルネットワークを示す模式図で
ある。
ある。
【図5】図5は階層的なニューラルネットワークを示す
模式図である。
模式図である。
【図6】図6はユニットの構造を示す模式図である。
【図7】図7は入力音声を示す模式図である。
【図8】図8はバンドパスフィルタの出力を示す模式図
である。
である。
11 音声入力部 12 前処理部 13 学習パターン記憶部 14 雑音生成部 15 雑音制限部 16 雑音重畳部 17 ニューラルネットワーク 18 判定部
Claims (3)
- 【請求項1】 ニューラルネットワークを用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定することを特徴とする単
語認識システム。 - 【請求項2】 ニューラルネットワークを用いて入力音
声からその単語を認識する単語認識システムにおいて、
計算によって学習パターンに雑音を重畳し、疑似的に学
習パターンを増やすに際し、加える雑音の大きさの上限
を、実際の音声試料から抽出した学習パターンにおける
隣接データとの差を基準に設定し、更に、加える雑音の
大きさと符号に、元のパターンの概形を崩さないような
制限を加えることを特徴とする単語認識システム。 - 【請求項3】 前記ニューラルネットワークへの入力と
して、音声の周波数特性の時間的変化を用いる請求項1
又は2記載の単語認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3310734A JPH05181500A (ja) | 1991-11-26 | 1991-11-26 | 単語認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3310734A JPH05181500A (ja) | 1991-11-26 | 1991-11-26 | 単語認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05181500A true JPH05181500A (ja) | 1993-07-23 |
Family
ID=18008844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3310734A Pending JPH05181500A (ja) | 1991-11-26 | 1991-11-26 | 単語認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05181500A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100468817B1 (ko) * | 1997-02-17 | 2005-05-16 | 삼성전자주식회사 | 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법 |
JP2016161823A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社日立製作所 | 音響モデル学習支援装置、音響モデル学習支援方法 |
-
1991
- 1991-11-26 JP JP3310734A patent/JPH05181500A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100468817B1 (ko) * | 1997-02-17 | 2005-05-16 | 삼성전자주식회사 | 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법 |
JP2016161823A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社日立製作所 | 音響モデル学習支援装置、音響モデル学習支援方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5185848A (en) | Noise reduction system using neural network | |
WO2006000103A1 (en) | Spiking neural network and use thereof | |
KR100306848B1 (ko) | 신경회로망을 이용한 선택적 주의집중 방법 | |
KR100202425B1 (ko) | 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템 | |
AU655235B2 (en) | Signal processing arrangements | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
JPH05181500A (ja) | 単語認識システム | |
JPH05143094A (ja) | 話者認識システム | |
JPH0462599A (ja) | 雑音除去装置 | |
JP2736361B2 (ja) | ニューラルネット構成方法 | |
Nakayama et al. | A digital multilayer neural network with limited binary expressions | |
JP2510301B2 (ja) | 話者認識システム | |
JPH05204399A (ja) | 不特定話者音素認識方法 | |
JPH0281160A (ja) | 信号処理装置 | |
Nava | Implementation of neuro-fuzzy systems through interval mathematics | |
JP2518939B2 (ja) | 話者照合システム | |
JPH03230200A (ja) | 音声認識方法 | |
KR950013117B1 (ko) | 시간 지연 신경 회로망을 이용한 한국어 고립 단어 인식 시스템 | |
JPH02273798A (ja) | 話者認識方式 | |
JPH02275996A (ja) | 単語認識方式 | |
JPH0494000A (ja) | 音声認識装置 | |
JPH02273799A (ja) | 話者認識方式 | |
JP2518940B2 (ja) | 話者照合システム | |
Salmela et al. | Isolated spoken number recognition with hybrid of self-organizing map and multilayer perceptron | |
JPH02289899A (ja) | 音声検出方式 |