JP2520331B2

JP2520331B2 - ニュ―ラルネットワ―クの学習方法

Info

Publication number: JP2520331B2
Application number: JP3060170A
Authority: JP
Inventors: 康弘小森; 茂樹嵯峨山
Original assignee: ATR JIDO HONYAKU DENWA
Current assignee: ATR JIDO HONYAKU DENWA
Priority date: 1991-03-25
Filing date: 1991-03-25
Publication date: 1996-07-31
Anticipated expiration: 2011-07-31
Also published as: DE4208727C2; US5555345A; JPH04295957A; DE4208727A1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明はニューラルネットワー
クの学習方法に関し、特に、サンプルごとに各音素カテ
ゴリに対する類似度を、そのサンプルと各音素カテゴリ
に含まれるサンプルとの距離に応じて各音素のカテゴリ
に対する類似度を予め求め、この類似度をニューラルネ
ットワークに教師信号として与え、バックプロパゲーシ
ョンで学習させるようなニューラルネットワークの学習
方法に関する。

【０００２】

【従来の技術】従来のニューラルネットワークの学習方
式は、学習サンプルのカテゴリを「０」，「１」でニュ
ーラルネットワークにバックプロパゲーションで学習さ
せている。この学習方式は、ダイレクトにカテゴリを学
習させるため、学習セットに対するカテゴリ識別能力は
かなり高く、そのカテゴリか否かを「０」，「１」で鮮
明に分ける特徴を有するニューラルネットワークが学習
できる。

【０００３】

【発明が解決しようとする課題】しかし、その一方、学
習セットと少々性質の異なるデータセットに対するカテ
ゴリ識別能力はかなり低下し、かつ一度ニューラルネッ
トワークが識別誤りを犯した場合、その結果はやはり
「１」，「０」で出力され、全く誤ったカテゴリに
「１」と大きく誤ったと判定を下してしまう。また、正
しくあるべきのカテゴリに対して、「０」と全くそのカ
テゴリではないという判定を下しやすい欠点を持ってい
た。さらに、判定が「０」，「１」であるため、文字認
識音声認識のような言語モデルなどの上位の情報との融
合の際、ニューラルネットワークの出力において情報の
欠落が起こりやすく、上位の情報による認識率の改善が
行なわれにくいという欠点があり、その結果、全体とし
て高い認識率が得られないという欠点もあった。

【０００４】それゆえに、この発明の主たる目的は、ニ
ューラルネットワークの学習において、学習セットと少
々性質の異なるデータセットに対するカテゴリ識別能力
が低下しにくく、かつ上位の情報との融合により認識率
を改善しやすいように、第１位の識別率のみならず第Ｎ
位の識別率を向上し、全体としての高い認識が可能とな
るニューラルネットワークの学習方法を提供することで
ある。

【０００５】

【課題を解決するための手段】請求項１に係る発明は、
Ｎ個のカテゴリからなるデータセットを用いて、Ｎ個の
カテゴリの識別を行なうニューラルネットワークを学習
する学習方式であって、データセット内の各サンプルご
とに、学習サンプルから各カテゴリに属するサンプルま
での距離に基づいて、全Ｎカテゴリに対する類似度を求
め、この類似度をニューラルネットワークの教師信号と
してバックプロパゲーションでニューラルネットワーク
の学習を行なう。

【０００６】

【０００７】請求項２に係る発明では、請求項１に係る
発明における全Ｎカテゴリに対する学習サンプルから各
カテゴリに属するサンプルまでの距離に基づいて類似度
を予め求める際に、各カテゴリごとに学習サンプルから
近いｍ個のサンプルを選び、このサンプルとの距離を用
い、そのカテゴリに対する類似度を求めるように構成さ
れる。

【０００８】請求項３に係る発明では、請求項２に係る
発明における学習サンプルから各カテゴリに属するサン
プルまでの距離に基づいて類似度を求める際に、学習サ
ンプルから各カテゴリに属するサンプルまでの距離に応
じて、類似度に変換する類似度変換関数に、距離が大き
くなればなるほど類似度が小さくなる単調減少関数を用
いて構成される。

【０００９】

【作用】この発明に係るニューラルネットワークの学習
方法は、学習サンプルから各カテゴリに属するサンプル
までの距離に基づいて、全Ｎカテゴリに対する類似度を
予め求めることにより、学習セットと少々性質の異なる
データセットに対するカテゴリ識別能力が低下しにく
く、かつ上位の情報との融合により認識率を改善しやす
いように、第１の識別率のみならず第Ｎ位の識別率を向
上し、全体としての高い認識が可能となる。さらに、学
習の際各カテゴリの類似度を教師信号として与え、バッ
クブロパゲーションで学習するため、ニューラルネット
ワークが無理な判別境界を探すことなく学習を進めるこ
とができ、従来の方法に比べてかなり速く学習を進める
ことができる。

【００１０】

【発明の実施例】図１はこの発明の一実施例が適用され
るニューラルネットワークの学習方式の概念図であり、
図２はこの発明に用いられる類似度変換関数の一例を示
す図である。

【００１１】従来のニューラルネットワーク学習方式
は、学習サンプルの音素カテゴリのみを教師信号として
与え、学習を行なっていた。たとえば、図１の□では
｛１，０，０｝となる。この方法に対して、この発明で
提案する学習方式は、サンプルごとに、そのサンプルと
各音素カテゴリに含まれる最も近いサンプルの距離に応
じて各音素カテゴリに対する類似度を求め、この類似度
をニューラルネットワークに教師信号として与え、バッ
クプロパゲーションで学習を行なう。たとえば、図１の
●では、｛ｆ（ｄＡ），ｆ（ｄＢ），ｆ（ｄＣ）｝とな
る。ここで、関数ｆ（）は、サンプル間の距離ｄｘを類
似度に変換する単調減少関数（たとえば、ｆ（ｄ）＝ｅ
ｘｐ（−α×ｄｘ²），α＞０）で表わされる。ここで
は、各カテゴリに対して最短距離にある１つのサンプル
を選び、そのサンプルとの距離により、そのカテゴリと
の類似度を求めている。また、類似度変換関数の一例と
して、ここでは図２に示す単調減少関数ｆ（ｄ）＝ｅｘ
ｐ（−α×ｄｘ²），α＞０を用いた。

【００１２】次に、この発明によるニューラルネットワ
ークの学習方式の手順について説明する。まず、学習サ
ンプルセットより１つの学習サンプルを取出し、このサ
ンプルと全学習サンプルとの距離を求める。各カテゴリ
ごとに最も近いサンプルを求め、そのサンプルとの距離
と類似度変換関数ｆ（）を用いて各カテゴリごとの類似
度を求める。この各カテゴリの類似度を取出した学習サ
ンプルへの教師信号とし、全学習サンプルの教師信号が
決まるまで初期状態に戻る。そして、全学習サンプルの
教師信号が決まると、学習サンプルおよび求めた教師信
号を用いて、ニューラルネットワークをバックプロパゲ
ーションで学習する。

【００１３】図３はこの発明が適用されるニューラルネ
ットワークの一例を示す図である。図３を参照して、ニ
ューラルネットワークは、７フレームの入力層１と中間
層２，３と出力層４とを含む。ＴＤＮＮが用いられ、各
音素の終端を中心とする７０ｍｓｅｃのデータを入力と
して用いられる。

【００１４】ここで提案する学習方式の有効性を示すた
めに、／ｂｄｇｍｎＮ／の６音素と日本語１８子音の音
素識別実験を行なった。この学習には、ＡＴＲデータベ
ース５２４０単語の偶数番から切り出した音素を用い、
評価には残りの奇数番，文節発声および文章発声から切
り出した音素を用いた。バックプロパゲーションのエラ
ー関数には、従来の学習方式では、Ｍ．Ｓ．Ｅ．（ｍｅ
ａｎｓｑｕａｒｅｅｒｒｏｒ）とＭａｃｌｅｌｌａｎ
ｄｅｒｒｏｒを用い、提案する学習方式では、Ｍ．
Ｓ．Ｅ．を用いた。Ｍａｃｌｅｌｌａｎｄｅｒｒｏｒ
は、ｌｏｇ（１−ε）²（εは誤差）として誤差を強調
して伝搬し、学習する方法である。

【００１５】サンプル間の距離は７フレームデータのユ
ークリッド距離ｄｘを用い、今回は類似度変換関数とし
てｆ（ｄｘ）＝ｅｘｐ（−０．００５×ｄｘ²）を用い
た。学習サンプル数は、／ｂｄｇｍｎＮ／の学習では、
各カテゴリ最大５００の１８５７サンプル，日本語１８
子音の学習では各カテゴリ最大２５０の３６３８サンプ
ルである。なお、識別のときに用いるニューラルネット
ワークの重み係数は、学習の際の重み係数更新１００回
中、評価用の奇数番単語から切り出した音素の識別率が
最大となる重み係数を用いた。

【００１６】図４はこの発明と従来方式による／ｂｄｇ
ｍｎＮ／の６子音識別結果を示し、図５はこの発明と従
来方式による日本語１８子音の識別結果を示す図であ
る。

【００１７】図４および図５から明らかなように、提案
した学習方式●は、全評価データにおいて、第１位およ
び第Ｎ位累積識別結果が共に向上した。特に、連続音声
における第Ｎ位累積識別結果が顕著に改善された。連続
音声（文節，文）認識では、第１位の識別結果だけでは
なく、この第Ｎ位累積識別結果は言語情報との結合にお
いて非常に重要である。このため、この改善は文節，文
認識において、この発明がかなり有効であると考えられ
る。

【００１８】図６はこの発明と従来方式による日本語１
８子音の識別を行なう際の各学習方式に対する学習速度
を示す図である。この発明で提案した学習方式は、従来
の学習方式でＭａｃｌｅｌｌａｎｄｅｒｒｏｒを用い
たときとほぼ同程度の速度を示し、従来の学習方式で
Ｍ．Ｓ．Ｅ．を用いたときよりかなり速く学習が進む。
提案した学習方式は従来の学習方式でＭａｃｌｅｌｌａ
ｎｄｅｒｒｏｒを用いたときとほぼ同程度の速度を示
したが、図４，図５の識別結果では、従来の学習方式で
Ｍａｃｌｅｌｌａｎｄｅｒｒｏｒを用いたときが最も
悪い性能を示していることがわかる。

【００１９】

【発明の効果】以上のように、この発明によれば、学習
サンプルから各カテゴリに属するサンプルまでの距離に
基づいて、全Ｎカテゴリに対する類似度を求め、この類
似度をニューラルネットワークの教師信号としてバック
プロパゲーションでニューラルネットワークの学習を行
なうようにしたので、第１位，第Ｎ位において高い識別
性を示すニューラルネットワークの学習を可能にし、そ
の結果、高い性能の認識を可能にすることができる。

【図面の簡単な説明】

【図１】この発明の概念を示す図である。

【図２】この発明に用いる類似度変換関数の一例を示す
図である。

【図３】この発明が適用されるニューラルネットワーク
の一例を示す図である。

【図４】この発明と従来方式による６子音識別の効果を
示す図である。

【図５】この発明と従来方式による１８子音識別の効果
を示す図である。

【図６】この発明と従来方式による学習の速度の差を示
す図である。

【符号の説明】

１入力層２，３中間層４出力層

Claims

(57)【特許請求の範囲】

【請求項１】Ｎ個のカテゴリからなるデータセットを
用いて、Ｎ個の識別を行なうニューラルネットワークを
学習する学習方法において、前記データセット内の各サンプルごとに、学習サンプル
から各カテゴリに属するサンプルまでの距離に基づい
て、全Ｎカテゴリに対する類似度を求め、この類似度を
ニューラルネットワークの教師信号としてバックプロパ
ゲーションでニューラルネットワークの学習を行なうこ
とを特徴とする、ニューラルネットワークの学習方法。
【請求項２】さらに、前記Ｎカテゴリに対する学習サ
ンプルから各カテゴリに属するサンプルまでの距離に基
づき、類似度を予め求める際に、各カテゴリごとに前記
学習サンプルから近いｍ個のサンプルを選び、このサン
プルとの距離を用い、そのカテゴリに対する類似度を求
めることを特徴とする、請求項１のニューラルネットワ
ークの学習方法。
【請求項３】さらに、前記学習サンプルから各カテゴ
リに属するサンプルまでの距離に基づいて類似度を求め
る際に、前記学習サンプルから各カテゴリに属するサン
プルまでの距離に応じて、類似図に変換する類似度変換
関数に、距離が大きくなればなるほど類似度が小さくな
る単調減少関数を用いることを特徴とする、請求項２の
ニューラルネットワークの学習方法。