JPH04121799A

JPH04121799A - 音声認識方法

Info

Publication number: JPH04121799A
Application number: JP2243411A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-09-12
Filing date: 1990-09-12
Publication date: 1992-04-22

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカート等のオンライン端末等て
入力音声からその単語を認識するに好適な音声ｉ！識左
方法関する。

［従来の技術〕本出願人は、容易に実時間処理てきる音声認識方法とし
て、特願平１−９１１１３７６号により、ニューラルネ
ットワークを用いて入力音声からその単語を認識するも
のを提案している。この音声認識方法にあっては、ニュ
ーラルネ・ントワークへの入力として、入力音声の周波
数特性を算出し、各帯域のそれぞれにおいて時間的に等
分割した音声区間のそれぞれを１つのブロックとして、
各ブロックの中で周波数特性の平均を算出し、それらの
平均を単語のパワー全体で正規化したものを用いること
としている。

［発明か解決しようとする課題］然しなから、上述の従来技術による場合には、ニューラ
ルネットワークを構築するために標準入カバターン（学
習入カバターン）を作製する時と、構築されたニューラ
ルネットワークを使用して音声認識するために評価入カ
バターンを作製する時との間で、定常雑音の混入や回線
等の入力系の相違等によってそ、れらの作製条件か異な
ると、認識率の低下か見られることとなる。

この認識率の低下は、以下に解析する如く、単語のパワ
ー全体て正規化するために、スペクトル歪を消去できな
いことによる。即ち、ｉをブロック番号、ｋを帯域番号
、Ａｋをに帯域の周波数伝送特性、Ｓ■ｉｋを学習段階
てのに帯域ｉブロックの音声信号、Ｓ　ｔｉｋを評価段
階て電話回線を通した後における如く、定常的な周波数
伝送特性Ａｋの影響によりスペクトルか歪んだ、ｋ帯域
ｉブロックの音声信号とする時、５ｔｉｋ　＝Ａｋ−５＠ｉである。そして、評価段階ての各音声信号Ｓ　ｔｉｋを
単語のパワー全体で正規化したものは、Ｓ　ｔｉｋ　　
　　　　Ａ　ｋ　Ｓ　ｍｉｋてあって、右辺の周波数伝
送特性Ａｋを消去てきない、即ち、スペクトル歪を消去
てきないのである。

本発明は、容易に実時間処理てき、かつ高い認識率を確
保てきる音声認識方法を提供することを目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方法て
あって、入力音声の特徴パラメータを所定長のフレーム
単位て算出し、各フレームのパワーの実効値が任意のし
きい値より小なるとき、当該フレームの特徴パラメータ
を除外し、除外した後の音声区間を時間的に等分割し、
等分割した音声区間のそれぞれを１つのブロックとして
、各ブロックの中で周波数特性の平均を算出し、それら
の平均を対応する帯域毎に正規化したものを、ニューラ
ルネットワークへの入力として用いるようにしたもので
ある。

請求項２に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方法で
あって、入力音声の特徴パラメータを所定長のフレーム
単位て算出し、各フレームのパワーの実効値が任意のし
きい値より小なるとき、当該フレームの特徴パラメータ
の影響が少なくなるように当該特徴パラメータに重み付
けを行ない、重み付けの後の音声区間を時間的に等分割
し、等分割した音声区間のそれぞれを１つのブロックと
して、各ブロックの中で周波数特性の平均を算出し、そ
れらの平均を対応する帯域毎に正規化したものを、ニュ
ーラルネットワークへの入力として用いるようにしたも
のである。

［作用］本発明によれば、下記■〜■の作用効果がある。

■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、ＬＰＧ相関やＬＰＣケプストラムの如くの複雑
な特徴量抽出に比して単純で並列的に周波数分析てき、
その前処理に要する時間が短くて足りる。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。

■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットか独立に動作しており、並列的な演算
処理が可能である。従ワて、演算処理が迅速である。

■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。

■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内で正規化するもの
であるため、スペクトル歪を消去てきることによる。即
ち、前述の如く、ｉをブロック番号、ｋを帯域番号、Ａ
ｋをに帯域の周波数伝送特性、Ｓ■ｉｋを学習段階ての
に帯域ｉブロックの音声信号、Ｓ　ｔｉｋを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Ａｋの影響によりスペクトルか歪んだ、ｋ帯域ｉブ
ロックの音声信号とする時、５ｔｉｋ　＝Ａｋ−８ｊｌｉｋ　　　　　　　　　・・
・（１）である。そして、評価段階ての各音声信号Ｓ　
ｔｉｋを帯域毎に正規化したものは、 Σ　５ｔｉｋ　　　　Ａｋ　　Σ　Ｓ　ａｉｋ　　　　
Σ　Ｓ層ｊｋてあって、周波数伝送特性Ａｋを消去てき
る、即ち、スペクトル歪を消去てきるのである。

■入力音声の特徴パラメータを用いて音声認識するに際
し、パワーの小さいフレームの特徴パラメータを除外、
またはその影響か少なくなるように重み付けを行なうも
のであるから、伝送路自体の雑音の影響を除去して音声
認識でき、高い認識率を確保できる。

［実施例］第１図は本発明の一実施例に係る音声認識システムを示
す模式図である。

音声認識システム１０は、音声入力部１１、バンドパス
フィルタ１２、パワー判定部１３．ブロック分割部１４
、平均化回路１５、正規化回路１６、ニューラルネット
ワーク１７、判定部１８を有して構成される。

以下、音声認識システム１０を用いた学習手順、認識手
順について説明する。

（Ａｌ音声入力部１１にて、音声試料を取入れる。

このとき、認識単語を４７都道府県名、特定話者を１名
とした。

（Ｂ）学習（Ｂ−１１入力作成 ■各ｆｊ！厳単語の既知入力音声波形を１６チヤンネル
のバンドパスフィルタ１２に通し、１フレーム（１２，
８ｍ５ｅｃ）毎に周波数特性を算出する。

■パワー判定部１３において、実験的に決めたしきい値
θと各フレームの周波数特性のパワーの実効値を比較し
、パワーの実効値かしきい値θ以下になるフレームの特
徴パラメータを除外する。

■上記■の結果、しきい値θ以下になるフレームの特徴
パラメータを除外した音声波形をブロック分割部１４に
おいて時間的に８等分割する。

■上記■の結果、時間的に８等分割した音声区間のそれ
ぞれを１つのブロックとして、平均化回路１５により、
各ブロックの中で、上記■で求めた周波数特性の平均を
算出する。この学習段階における音声信号のに帯域ｉブ
ロワつての周波数特性の平均を、Ｓ　ｍｉｋとする。

■正規化回路１６において、上記■で各帯域にて求めた
各ブロックの周波数特性の平均を、対応する帯域の全ブ
ロックのレベルの和ΣＳ　ｍｉｋで除算し、対応する帯
域毎に、Σ　Ｓ　ｍｉｋとして正規化する。

■上記■て求めた値をニューラルネットワーク１７への
入力とする。入力個数は１６チヤンネル×８ブロック＝
１２８個となる。

（Ｂ−２１学習 ■４７個の出カニニットを持つニューラルネットワーク
１７を用いる。

■４７単語に番号付けし、４７個の出カニニットと対応
させ、上記■で求めた入力に対し、その単語に対応した
出カニニットか１、その他の出カニニットが０という値
（目標値）になるように、パックプロパゲーションによ
り５０００回学習する。

（Ｃ）　　認識（Ｃ−１）入力作成 ■各認識単語の未知入力音声波形を１６チヤンネルのバ
ントパスフィルタ１２に通し、１フレーム（１２，８ｍ
５ｅｃ）毎に周波数特性を算出する。

■パワー判定部１３において、実験的に決めたしきい値
θと各フレームの周波数特性のパワーの実効値を比較し
、パワーの実効値がしきい値θ以下になるフレームの特
徴パラメータを除外する。

■上記■において、時間的に８等分割した音声区間のそ
れぞれを１つのブロックとして、平均化回路１５により
、各ブロックの中で、上記■て求めた周波数特性の平均
を算出する。この評価段階における音声信号のに帯域ｉ
ブロワつての周波数特性の平均を、Ｓ　ｔｉｋとする。

■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和ΣＳ　
ｔｉｋて除算し、対応する帯域毎に、 Σ　Ｓ　　ｔｉｋとして正規化する。

（Ｃ−２）認識 ■上記ｆＢ）にて学習したニューラルネットワーク１７
に上記■て求めた特徴パラメータを入力する。

■判定部１８において、ニューラルネットワーク１７の
出力層の値から入力単語を判定する。

然るに、従来方式と上記音声認識システム１０による本
発明方式の実験結果について説明する。

（従来方式）実験：周波数特性の平均を算出し単語のパワー全体て正
規化したものをニューラルネットワークの入力にしたと
き。

尚、特定話者を１名、認識単語を４７都道府県名とした
。

結果：認識率は５７．０％であった。

（本発明方式）実験：パワーの小さいフレームの特徴パラメータを除外
することを考慮した後、ブロック内での特徴パラメータ
の平均を帯域毎に正規化したものを入力とし、認識手法
としてニューラルネットワークを用いたとき。

尚、特定話者を１名、認識単語を４７都道府県とした。

結果：認識率は９６．６％であった。

尚、本発明の実施においては、学習段階、及び認識段階
の入力作成時（上述の（Ｂ−１１の■、■の段階、及び
（Ｃ−１）の■、■の段階）に、パワーの小さいフレー
ムの特徴パラメータを除外することなく、該特徴パラメ
ータの影響か少なくなるように該特徴パラメータに重み
付けを行ない、重み付は後の音声区間を時間的に等分割
するものであっても良い。

上記音声認識システム１０によれば、下記■〜■の作用
がある。

■ニューラルネットワーク１７へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理か、ＬＰＣ相関やＬＰＣケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析て
き、その前処理に要する時間か短くて足りる。

■ニューラルネットワーク１７は、原理的に、ネットワ
ーク全体の演算処理か単純かつ迅速である。

■ニューラルネットワーク１７は、原理的に、それを構
成している各ユニットか独立に動作しており、並列的な
演算処理が可能である。従って、演算処理か迅速である
。

■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理てきる。

■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、［作用コの■にて前述の如く、評価段階て
正規化された（４）式の如くの値か、（２）式にて解析
された如くに周波数伝送特性Ａｋを消去されて、学習段
階て正規化された（３）式の如くの値と同等となり、雑
音の影響や回線等の入力系の相違に起因するスペクトル
歪を消去できるからである。

■入力音声の特徴パラメータを用いて音声認識するに際
し、パワーの小さいフレームの特徴パラメータを除外、
またはその影響か少なくなるように重み付けを行なうも
のであるから、伝送路自体の雑音の影響を除去して音声
認識でき、高い認識率を確保てきる。

［発明の効果］以上のように本発明によれば、容易に実時間処理でき、
かつ高い認識率を確保できる音声認識方法を得ることが
できる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識システムを示
す模式図である。１０・・・音声認識システム、１１・・・音声入力部、１２・・・バントパスフィルタ、１３・・・パワー判定部、１４・・・ブロック分割部、１５・・・平均化回路、１６・・・正規化回路、１７・・・ニューラルネットワーク、１８・・・判定部。特許出願人　積水化学工業株式会社代表者　廣　１）　馨

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方法であって、入力音声の特
徴パラメータを所定長のフレーム単位で算出し、各フレ
ームのパワーの実効値が任意のしきい値より小なるとき
、当該フレームの特徴パラメータを除外し、除外した後
の音声区間を時間的に等分割し、等分割した音声区間の
それぞれを１つのブロックとして、各ブロックの中で周
波数特性の平均を算出し、それらの平均を対応する帯域
毎に正規化したものを、ニューラルネットワークへの入
力として用いる音声認識方法。
（２）ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方法であって、入力音声の特
徴パラメータを所定長のフレーム単位て算出し、各フレ
ームのパワーの実効値が任意のしきい値より小なるとき
、当該フレームの特徴パラメータの影響が少なくなるよ
うに当該特徴パラメータに重み付けを行ない、重み付け
の後の音声区間を時間的に等分割し、等分割した音声区
間のそれぞれを１つのブロックとして、各ブロックの中
で周波数特性の平均を算出し、それらの平均を対応する
帯域毎に正規化したものを、ニューラルネットワークへ
の入力として用いる音声認識方法。