JPH02304496A

JPH02304496A - 単語認識方式

Info

Publication number: JPH02304496A
Application number: JP1126314A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村; Masayuki Unno; 海野　雅幸; Masashi Miyagawa; 宮川　正志
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1989-05-18
Filing date: 1989-05-18
Publication date: 1990-12-18

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード等のオンライン端末等で
入力音声からその単語を認識するに好適な単語認識方式
に関する。

［従来の技術］従来の単語認識方式は１例えば特公昭６３−４２００号
公報、特開昭６２−２２０９９８号公報に記載される如
く、以下の手順による。

■入力音声に含まれる単語に間する特徴量を抽出する。

■予め上記■と同様にして抽出しておいた標準パターン
と上記■で抽出した特徴量との距離を計算する。

■計算結果より、上記距離が最小の標準パターンの単語
を入力音声の単語と判定する。

［発明が解決しようとする課題］然しなから、上記従来の単語認識方式では、以下の問題
点がある。

実時間処理が困難である。即ち、従来の単語認識方式に
おいて一定以上の認識率を確保するためには複雑な特徴
量を用いる必要があるが、複雑な特徴量を抽出するには
複雑な処理装置が必要であり、処理時間も多大となる。

本発明は、高い認識率、を確保し、かつ容易に実時間処
理できる単語認識方式を得ることを目的とする。

［課題を解決するための手段］請求項・１に記載の本発明は、ニューラルネットワーク
を用いて入力音声からその単語を認識する単語認識方式
であって、ニューラルネットワークへの入力として、音
声の平均的な線形予測係数の時間的変化を用いるように
したものである。

請求項２に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
線形予測係数の時間的変化を用いるようにしたものであ
る。

請求項３に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。

尚、線形予測係数（ＬＰＧ係数）は以下の如く定義され
る。即ち、音声波形のサンプル値（χ、）の間には、−
ｍに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。

線形予測値　　χ（＝−Σα、χｔ−１　　・・・（１
）線形予測誤差　εＬ＝χｔ−χ、　　・・・（２）こ
こて、χ、：時刻ｔにおける音声波形のサンブルイ直、
（α五）（ｉ＝１．・・・、ｐ）：　（９次の）線形予
測係数さて、本発明の実施においては、線形子Ｊｌｌ　３ｆｌ
差ε、の２乗平均値が最小となるように線形予測係数（
α、）を求める。

具体的には　（ε、）２を求め、その時間平均を（εｔ
）”と表わして、ａ　（εｔ）２／ａ　ａ　（＝Ｏ，ｉ
＝１．２．・・・、ｐとおくことによって、次の式から
（αｌ）が求められる。

Σ２αＬＶＩ五−ｊｌ＝０＋Ｊ＝１＋２＋・・・、ｐ・
・・（３）［作用］請求項１に記載の本発明によれば以下の■〜■の作用効
果がある。

■ニューラルネットワークへの入力として、「音声の平
均的な線形予測係数」を用いたから、入力を得るための
前処理が、従来の複雑な特徴量抽出に比して、単純とな
り、この前処理に要する時間が短くて足りる。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純且つ迅速である。

■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。

■上記■〜■により、単語認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。　　　　　゛又、請求項２に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。

■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な線形予測係数の時間的変化」
を用いたから、ニューラルネットワークにおける処理が
単純ζなり、この処理に要する時間がより短くて足りる
。

又、請求項３に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。

■階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム（パックプロパ
ゲーション）が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。

［実施例］第１図は本発明が適用された単語認識システムの一例を
示す模式図、第２図は入力音声を示す模式図、第３図は
ニューラルネットワークを示す模式図、第４図は階層的
なニューラルネットワークを示す模式図、第５図はユニ
ットの構造を示す模式図である。

本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。

（１）ニューラルネットワークは、その構造から、第３
図（Ａ）に示す階層的ネットワークと第３図（Ｂ）に示
す相互結合ネットワークの２種に大別できる。本発明は
、両ネットワークのいずれを用い−で構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムか確立されているためより有用で
ある。

（２）ネットワークの構造階層的ネットワークは、第４図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。

各層は１以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。

（３）ユニットの構造ユニットは第５図に示す如く脳のニューロンのモデル化
てあり構造は簡単である。他のユニ・シトから入力を受
け、その総和をとり一定の規則（変換関数）で変換し、
結果を出力する。他のユニ・シトとの結合には、それぞ
れ結合の強さを表わす可変の重みを付ける。

（４）学習（パックプロパゲーション）゛ネットワーク
の学習とは、実際の出力を目標値（望ましい出力）に近
づけることであり、一般的には第５図に示した各ユニッ
トの変換関数及び重みを変化させて学習を行なう。

又、学習のアルゴリズムとしては、例えば、Ｒｕｍｅｌ
ｈａｒｔ、　Ｄ、Ｅ、、ＭｃＣｌｅＬｌａｎｄ、　Ｊ、
Ｌ、　ａｎｄ　ｔｈｅＰＤＰ　Ｒｅ５ｅａｒｃｈ　Ｇｒ
ｏｕｐ、　ＰＡＲＡＬＬＥＬ　ＤＩＳＴＲＩＢＵＴＥＤ
ＰＲＯＧＥＳＳＩＮＧ、　ｔｈｅ　ＭＩＴ　Ｐｒｅｓｓ
、　１９８８．に記載されているパックプロパゲーショ
ンを用いることができる。

以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム１は、ＬＰＣ分析部１０、平
均化回路ＩＳ、ニューラルネ・シトワーク２０、判定回
路３０の結合にて構成される（第１図参照）。

（Ａ）学習単語を「ショウメイ」、「エアコン」、「カ
ーテン」、「テレビ」、「ドア」の５単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ドア」の５単語とした。

（Ｂ）前処理 ■入力音声（５単語のそれぞれ）を、第２図に示す如く
、４つのブロックに時間的に等分割する。

■音声波形を、第１図に示す如く、ＬＰＧ分析部１０に
通し、複数（９個）（この実施例ではρ＝１２）の標本
値のそれぞれにおける、各ブロック即ち各一定時間毎に
線形予測分析し、各ブロック毎の平均的な線形予測係数
を算出する。

この時、ＬＰＣ分析部１０の算出結果である９次の線形
予測係数は、各ブロック毎に平均化回路１５で平均化さ
れる。

（Ｃ）ニューラルネットワークによる処理及び判定 ■前処理の結果（ブロック毎のＬＰＧ分析部１０、平均
化回路１５の出力）を、第１図に示す如く、３層の階層
的なニューラルネットワーク２０に入力する。入力Ｎ２
１は、前処理の４ブロツク、９個に対応する、４Ｘｐユ
ニツト（この実施例ではρ＝１２．４８ユニツト）にて
構成される。出力層２２は、５単語のそれぞれについて
登録単語とその他の単語とに対応する２ユニツトを設け
、全体を１０ユニツトにて構成される。

■ニューラルネットワーク２０の出力を判定回路３０に
入力し、今回入力音声の単語を認識する。但し、本発明
°の実施において、ニューラルネットワーク２０の出力
は判定回路３０の如くにて機械的に判定処理されず、ニ
ューラルネットワーク２０の出力を得た人間の知力にて
判定処理されるものであっても良い。

■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで　１，０００回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各登
録単語に対応したユニットが「１」、その他の単語に対
応したユニットが「０」となるように学習した。

（Ｄ）実験上記認識システム１を用いて、単語認識を実験した。

入力音声は、パックプロパゲーションにより学習した５
単語（「ショウメイ」、「エアコン」、「カーテン」、
「テレビ」、「ドア」）とした。

（ａ）認識率結果、認識率は　１００％であることが認められた。

（ｂ）処理速度又、処理速度（１単語の発声に対する認識に要した時間
）は１秒以内であり、極めて迅速処理てきることが認め
られた。

即ち、上記認識システム１にあっては、上記（ａ）の結
果が示すように認識率が極めて高い。

又、上記認識システム１にあっては、上記　（ｂ）の結
果が示すように単語認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。

尚、本発明の実施において、ニューラルネット３０・・
・判定回路。

ワークへの入力として、線形予測係数の時間的変化を用
いるものでなく、単に、「音声の平均的な線形予測係数
」を用いるものであっても良い。

［発明の効果コ以上のように本発明によれば、高い認識率を確保し、か
つ容易に実時間処理できる単語認識方式％式％

【図面の簡単な説明】

第１図は本発明が適用された単語認識システムの一例を
示す模式図、第２図は入力音声を示す模式図、第３図は
ニューラルネットワークを示す模式図、第４図は階層的
なニューラルネットワークを示す模式図、第５図はユニ
ットの構造を示す模式図である。１・・・認識システム、１０・・・ＬＰＧ分析部、１５・・・平均化回路、２０・・・ニューラルネットワーク、２１・・・入力層２２・・・出力層、特許出願人　積水化学工業株式会社代表者　　廣１）馨時間第３図＃Ｉ４４図 ↑ 入カバターン第５図ユニット

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方式であって、ニューラルネ
ットワークへの入力として、音声の平均的な線形予測係
数の時間的変化を用いる単語認識方式。
（２）前記ニューラルネットワークへの入力として、音
声の一定時間内における平均的な線形予測係数の時間的
変化を用いる請求項１記載の単語認識方式。
（３）前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項１又は２記載の単語認識方
式。