JPH05257496A

JPH05257496A - 単語認識方式

Info

Publication number: JPH05257496A
Application number: JP4053464A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1992-03-12
Filing date: 1992-03-12
Publication date: 1993-10-08

Abstract

(57)【要約】【目的】類似単語や時間伸縮した単語に対する認識精
度が良い単語認識方式を提供すること。【構成】ニューラルネットワークを用いて入力音声か
らその単語を認識する単語認識方式において、入力音声
を予め登録単語にて学習した分割用ニューラルネットワ
ーク１３で音節単位に分割してブロック化し、入力音声
の周波数特性を上述の音節ブロック内で平均化したもの
を、複数の認識用ニューラルネットワーク１５Ａ〜１５
Ｄへの入力とするようにしたものである。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた単語認識方式に関する。

【０００２】

【従来の技術】従来のニューラルネットワークを用いた
単語認識方式では、特願平1-98376 号に記載の如く、入
力音声の特徴パラメータ（周波数特性）を算出し、時間
的に等分割した音声区間を１つのブロックとして、その
中で周波数特性の平均を算出している。

【０００３】

【発明が解決しようとする課題】従来法では、音声を等
分割し１つのブロック内で特徴パラメータ（周波数特
性）を平均化しているため、同じ単語でも発声が異なる
場合にブロック内の平均化するパラメータが異なること
があり、類似単語や時間伸縮した単語に対する認識精度
が悪い。

【０００４】本発明は、類似単語や時間伸縮した単語に
対する認識精度が良い単語認識方式を提供することを目
的とする。

【０００５】

【課題を解決するための手段】請求項１に記載の本発明
は、ニューラルネットワークを用いて入力音声からその
単語を認識する単語認識方式において、入力音声を予め
登録単語にて学習した分割用ニューラルネットワークで
音節単位に分割してブロック化し、入力音声の周波数特
性を上述の音節ブロック内で平均化したものを、複数の
認識用ニューラルネットワークへの入力とするようにし
たものである。

【０００６】請求項２に記載の本発明は、請求項１に記
載の本発明において更に、分割用ニューラルネットワー
クの学習が、登録単語音声の周波数特性ｎフレーム分を
逐次ニューラルネットワークに入力し、予め登録単語音
声を視察により切り出し、ニューラルネットワークの入
力に対応するフレームと切り出し位置が一致すれば、当
該フレームに対応する出力層のユニットの目標値が他の
ユニットの目標値よりも大きな値をとるよう行なうよう
にしたものである。

【０００７】請求項３に記載の本発明は、請求項１に記
載の本発明において更に、分割用ニューラルネットワー
クの学習が、登録単語音声の周波数特性の隣接フレーム
間差分値、ｎフレーム分を逐次ニューラルネットワーク
に入力し、予め登録単語音声を視察により切り出し、ニ
ューラルネットワークの入力に対応するフレームと切り
出し位置が一致すれば、当該フレームに対応する出力層
のユニットの目標値が他のユニットの目標値よりも大き
な値をとるよう行なうようにしたものである。

【０００８】

【作用】ニューラルネットワークの動作は単純計算であ
り、処理時間が短い。そして、ニューラルネットワーク
への入力として、音節ブロック内で求めた周波数特性を
用いるものであるから、類似単語や時間伸縮した単語に
対する認識精度が良い。

【０００９】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。

【００１０】(1)ニューラルネットワークは、その構造
から、図５（Ａ）に示す階層的ネットワークと図５
（Ｂ）に示す相互結合ネットワークの２種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。

【００１１】(2)ネットワークの構造階層的ネットワークは、図６に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は１以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。

【００１２】(3)ユニットの構造ユニットは図７に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則（変換関数）で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。

【００１３】(4)学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望まし
い出力）に近づけることであり、一般的には図７に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。

【００１４】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。

【００１５】

【実施例】図１は本発明の第１実施例に用いられる単語
認識装置を示す模式図、図２は本発明の第２実施例に用
いられる単語認識装置を示す模式図、図３は分割用ニュ
ーラルネットワークの動作を示す模式図、図４は認識用
ニューラルネットワークの動作を示す模式図、図５はニ
ューラルネットワークを示す模式図、図６は階層的なニ
ューラルネットワークを示す模式図、図７はユニットの
構造を示す模式図である。

【００１６】（第１実施例）（図１、図３、図４参照）単語認識装置１０は、図１に示す如く、音声入力部１
１、ｎチャンネルバンドパスフィルタ１２、分割用ニュ
ーラルネットワーク１３、ブロック分割部１４、ネット
ワーク選択部１００、２音節認識用ニューラルネットワ
ーク１５Ａ、３音節認識用ニューラルネットワーク１５
Ｂ、４音節認識用ニューラルネットワーク１５Ｃ、５音
節認識用ニューラルネットワーク１５Ｄ、判定部１６を
有して構成される。

【００１７】(A) 概要：認識単語：100 単語（人名）、
特定話者 1名 (1) バンドパスフィルタ１２に音声が入力される。

【００１８】(2) バンドパスフィルタ１２から分割用ニ
ューラルネットワーク１３に周波数特性を入力する。

【００１９】(3) 予め学習した分割用ニューラルネット
ワーク１３により入力音声を音節単位に分割し、分割位
置をブロック分割部１４へ、分割数をネットワーク選択
部１００へ送る。

【００２０】(4) ブロック分割部１４では、分割用ニュ
ーラルネットワーク１３からの分割位置をもとに音節ブ
ロック内でバンドパスフィルタ１２からの周波数特性を
平均化し、周波数特性の平均をネットワーク選択部１０
０に送る。

【００２１】(5) ネットワーク選択部１００では、分割
用ニューラルネットワーク１３からの分割数をもとに複
数の認識用ニューラルネットワーク１５Ａ〜１５Ｄの中
から１つを選択し、周波数特性を当該ネットワーク１５
Ａ〜１５Ｄに入力する。

【００２２】(6) 予め学習した認識用ニューラルネット
ワーク１５Ａ〜１５Ｄの出力層の各ユニットの値より判
定部１６で単語を判定する。

【００２３】(B) 分割用ニューラルネットワークの学
習：（図３参照）１．入力作成登録単語を視察により予め音節単位に分割し、分割位
置を登録しておく。

【００２４】登録単語の音声波形を１６チャンネルの
バンドパスフィルタ１２に通し、 1フレーム（窓長25.6
msec、分析長12.8msec）毎に周波数特性を得る。

【００２５】得られた16個の周波数特性、12フレーム
分を１つの単位として192 個の周波数特性を得る。ま
た、分析した12フレームを単語音声の終端の方に 1フレ
ームずらし同様に192 個の周波数特性を得る。この操作
を単語音声の始端から終端まで行なう。

【００２６】２．学習で得た周波数特性をニューラルネットワーク１３に
入力する。ニューラルネットワーク１３の構造は入力層
192 ユニット、出力層は入力の12フレームに対応する12
ユニットの３層の階層型である。

【００２７】入力したフレームの内で登録した音節
の分割位置に対応するものがあれば、当該フレームに対
応する出力層のユニットを中心として0, 0, …0, 0.25,
0.5, 1.0, 0.5, 0.25, 0 …0, 0 と学習の目標値を設
定、また、入力したフレームのうちで登録した音節の
分割位置が１つもなければ、出力層のすべてのユニット
が0 になるように十分学習する。

【００２８】(C) 認識用ニューラルネットワークの学
習：（図４参照）１．入力作成登録単語の音声波形を１６チャンネルのバンドパスフ
ィルタ１２に通し、 1フレーム（窓長25.6msec、分析長
12.8msec）毎に周波数特性を得る。

【００２９】得られた16個の周波数特性、12フレーム
分を１つの単位として192 個の周波数特性を得る。ま
た、分析した12フレームを単語音声の終端の方に 1フレ
ームずらし、同様に192 個の周波数特性を得る。この操
作を単語音声の始端から終端まで行なう。

【００３０】で得た周波数特性を予め学習した分割
用ニューラルネットワーク１３に入力し、単語音声を音
節毎に分割し、ブロック化する。（単語音声の音節毎の
分割は、あるしきい値θ₁ を設けニューラルネットワー
クの出力層のユニットの値がθ₁ を超えたとき、出力ユ
ニットに対応するフレームを分割位置とする。）また、
このとき分割数を求めておく。

【００３１】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応した認識用ニュー
ラルネットワーク１５Ａ〜１５Ｄの入力とする。（音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。）

【００３２】認識用ニューラルネットワーク１５Ａ〜１
５Ｄの構造は３層の階層型で、入力層については、２音
節用−32ユニット、３音節用−48ユニット、４音節用−
64ユニット、５音節用−80ユニットを用意した。また、
出力層については、100 単語に対応する100 ユニットを
用意した。

【００３３】２．学習 100 単語に番号付けしニューラルネットワーク１５Ａ
〜１５Ｄの出力層の100 個のユニットに対応させ、で
求めた入力層が0 の値（目標値）になるように、バッッ
クプロパゲーションにより十分学習する。

【００３４】(D) 評価：（図３、図４参照）１．入力作成入力された音声波形を１６チャンネルのバンドパスフ
ィルタ１２に通し、 1フレーム（窓長25.6msec、分析長
12.8msec）毎に周波数特性を得る。

【００３５】得られた16個の周波数特性、12フレーム
分を１つの単位として192 個の周波数特性を得る。ま
た、分析した12フレームを単語音声の終端の方に 1フレ
ームずらし同様に192 個の周波数特性を得る。この操作
を単語音声の始端から終端まで行なう。

【００３６】で得た周波数特性を予め学習した分割
用ニューラルネットワーク１３に入力し、単語音声を音
節毎に分割し、ブロック化する。（単語音声の音節毎の
分割は、あるしきい値θ₁ を設けニューラルネットワー
クの出力層のユニットの値がθ₁ を超えたとき、出力ユ
ニットに対応するフレームを分割位置とする。）

【００３７】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応する認識用ニュー
ラルネットワーク１５Ａ〜１５Ｄの入力とする。（音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。）

【００３８】２．評価学習した認識用ネットワーク１５Ａ〜１５Ｄにを入
力する。

【００３９】ニューラルネットワーク１５Ａ〜１５Ｄ
の出力層のユニットのうち最大のユニットに対応する単
語を認識結果として判定する。

【００４０】(E) 実験：特定話者 1名、認識対象単語10
0 単語で以下のを比較した。入力音声を時間的に等分割（ 4個）した音声区間を１
つのブロックとして、その中で周波数特性の平均を算出
（１６チャンネルバンドパスフィルタを用いる）したも
のをニューラルネットワーク１５Ａ〜１５Ｄの入力にし
たとき。

【００４１】入力音声を予め登録単語にて学習した分
割用ニューラルネットワーク１３で音節単位に分割し、
これを１つのブロックとして、ブロック内で求めた特徴
パラメータを平均化したものを認識用ニューラルネット
ワーク１５Ａ〜１５Ｄの入力とする。

【００４２】(F) 結果：はに比べ誤り率が約1/10で
あった。

【００４３】（第２実施例）（図２、図３、図４参照）単語識装置２０は、図２に示す如く、音声入力部１１、
ｎチャンネルバンドパスフィルタ１２、分割用ニューラ
ルネットワーク１３、ブロック分割部１４、ネットワー
ク選択部１００、２音節認識用ニューラルネットワーク
１５Ａ、３音節認識用ニューラルネットワーク１５Ｂ、
４音節認識用ニューラルネットワーク１５Ｃ、５音節認
識用ニューラルネットワーク１５Ｄ、判定部１６、差分
計算部１７を有して構成される。

【００４４】(A) 概要：認識単語：100 単語（人名）、
特定話者 1名 (1) バンドパスフィルタ１２に音声が入力される。

【００４５】(2) バンドパスフィルタ１２から差分計算
部を経て分割用ニューラルネットワーク１３に周波数特
性の隣接フレーム間差分値を入力する。

【００４６】(3) 予め学習した分割用ニューラルネット
ワーク１３により入力音声を音節単位に分割し、分割位
置をブロック分割部１４へ、分割数をネットワーク選択
部１００へ送る。

【００４７】(4) ブロック分割部１４では、分割用ニュ
ーラルネットワーク１３からの分割位置をもとに音節ブ
ロック内でバンドパスフィルタ１２からの周波数特性を
平均化し、周波数特性の平均をネットワーク選択部１０
０に送る。

【００４８】(5) ネットワーク選択部１００では、分割
用ニューラルネットワーク１３からの分割数をもとに複
数の認識用ニューラルネットワーク１５Ａ〜１５Ｄの中
から１つを選択し、周波数特性を当該ネットワーク１５
Ａ〜１５Ｄに入力する。

【００４９】(6) 予め学習した認識用ニューラルネット
ワーク１５Ａ〜１５Ｄの出力層の各ユニットの値より判
定部１６で単語を判定する。

【００５０】(B) 分割用ニューラルネットワークの学
習：（図３参照）１．入力作成登録単語を視察により予め音節単位に分割し、分割位
置を登録しておく。

【００５１】登録単語の音声波形を１６チャンネルの
バンドパスフィルタ１２に通し、 1フレーム（窓長25.6
msec、分析長12.8msec）毎の周波数特性から隣接するフ
レーム間の周波数特性の差分値を各帯域毎に算出する。

【００５２】算出した16個の周波数特性の差分値、12
フレーム分を１つの単位として192個の周波数特性の差
分値を得る。また、分析した12フレームの単語音声の終
端の方に 1フレームずらし同様に192 個の周波数特性の
差分値を得る。この操作を単語音声の始端から終端まで
行なう。

【００５３】２．学習で得た周波数特性の差分値をニューラルネットワー
ク１３に入力する。ニューラルネットワーク１３の構造
は入力層192 ユニット、出力層は入力の12フレームに対
応する12ユニットの３層の階層型である。

【００５４】入力したフレームの内で登録した音節
の分割位置に対応するものがあれば、当該フレームに対
応する出力層のユニットを中心として、0, 0, …0, 0.2
5, 0.5, 1.0, 0.5, 0.25, 0 …0, 0 と学習の目標値を
設定、また、入力したフレームの内で登録した音節の
分割位置が１つもなければ、出力層のすべてのユニット
が0 になるように十分学習する。

【００５５】(C) 認識用ニューラルネットワークの学
習：（図４参照）１．入力作成登録単語の音声波形を１６チャンネルのバンドパスフ
ィルタ１２に通し、 1フレーム（窓長25.6msec、分析長
12.8msec）毎の周波数特性から隣接するフレーム間の周
波数特性の差分値を各帯域毎に算出する。

【００５６】算出した16個の周波数特性の差分値、12
フレーム分を１つの単位として192個の周波数特性の差
分値を得る。また、分析した12フレームの単語音声の終
端の方に 1フレームずらし同様に192 個の周波数特性の
差分値を得る。この操作を単語音声の始端から終端まで
行なう。

【００５７】で得た周波数特性の差分値を予め学習
した分割用ニューラルネットワーク１３に入力し、単語
音声を音節毎に分割し、ブロック化する。（音声単語の
音節毎の分割は、あるしきい値θ₁ を設けニューラルネ
ットワークの出力層のユニットの値がθ₁ を超えたと
き、出力ユニットに対応するフレームを分割位置とす
る。）また、このとき分割数を求めておく。

【００５８】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応した認識用ニュー
ラルネットワーク１５Ａ〜１５Ｄの入力とする。（音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。）

【００５９】認識用ニューラルネットワーク１５Ａ〜１
５Ｄの構造は３層の階層型で、入力層については、２音
節用−32ユニット、３音節用−48ユニット、４音節用−
64ユニット、５音節用−80ユニットを用意した。また、
出力層については、100 単語に対応する100 ユニットを
用意した。

【００６０】２．学習 100 単語に番号付けしニューラルネットワーク１５Ａ
〜１５Ｄの出力層の100 個のユニットと対応させ、で
求めた入力層に対し、その単語に対応した出力層が 1、
その他の出力層が0 の値（目標値）になるように、バッ
クプロパゲーションにより十分学習する。

【００６１】(D) 評価：（図３、図４参照）１．入力作成登録単語の音声波形を１６チャンネルバンドパスフィ
ルタ１２に通し、 1フレーム（窓長25.6msec、分析長1
2.8msec）毎の周波数特性から隣接するフレーム間の周
波数特性の差分値を各帯域毎に算出する。

【００６２】算出した16個の周波数特性の差分値、12
フレームを１つの単位として192 個の周波数特性の差分
値を得る。また、分析した12フレームを単語音声の終端
の方に 1フレームずらし同様に192 個の周波数特性の差
分値を得る。この操作を単語音声の始端から終端まで行
なう。

【００６３】で得た周波数特性の差分値を予め学習
した分割用ニューラルネットワーク１３に入力し、単語
音声を音節毎に分割し、ブロック化する。（単語音声の
音節毎の分割は、あるしきい値θ₁ を設けニューラルネ
ットワークの出力層のユニットの値がθ₁ を超えたと
き、出力ユニットに対応するフレームを分割位置とす
る。）

【００６４】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応する認識用ニュー
ラルネットワーク１５Ａ〜１５Ｄの入力とする。（音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。）

【００６５】２．評価学習した認識用ニューラルネットワーク１５Ａ〜１５
Ｄにを入力する。ニューラルネットワーク１５Ａ〜１５Ｄの出力層のユ
ニットのうち最大のユニットに対応する単語を認識結果
として判定する。

【００６６】(E) 実験：特定話者 1名、認識対象単語10
0 単語で以下のを比較した。入力音声を時間的に等分割（ 4個）した音声区間を１
つのブロックとして、その中で周波数特性の平均を算出
（１６チャンネルバンドパスフィルタを用いる）したも
のをニューラルネットワーク１５Ａ〜１５Ｄの入力にし
たとき。

【００６７】入力音声を予め登録単語にて学習した分
割用ニューラルネットワーク１３で音節単位に分割し、
これを１つのブロックとして、ブロック内で求めた特徴
パラメータを平均化したものを認識用ニューラルネット
ワーク１５Ａ〜１５Ｄの入力とする。

【００６８】(F) 結果：はに比べ誤り率が約1/10で
あった。

【００６９】

【発明の効果】以上のように本発明によれば、類似単語
や時間伸縮した単語に対する認識精度が良い単語認識方
式を得ることができる。

【図面の簡単な説明】

【図１】図１は本発明の第１実施例に用いられる単語認
識装置を示す模式図である。

【図２】図２は本発明の第２実施例に用いられる単語認
識装置を示す模式図である。

【図３】図３は分割用ニューラルネットワークの動作を
示す模式図である。

【図４】図４は認識用ニューラルネットワークの動作を
示す模式図である。

【図５】図５はニューラルネットワークを示す模式図で
ある。

【図６】図６は階層的なニューラルネットワークを示す
模式図である。

【図７】図７はユニットの構造を示す模式図である。

【符号の説明】１０、２０単語認識装置１１音声入力部１２バンドパスフィルタ１３分割用ニューラルネットワーク１４ブロック分割部１５Ａ〜１５Ｄ認識用ニューラルネットワーク１６判定部１７差分計算部

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いて入力音
声からその単語を認識する単語認識方式において、入力音声を予め登録単語にて学習した分割用ニューラル
ネットワークで音節単位に分割してブロック化し、入力音声の周波数特性を上述の音節ブロック内で平均化
したものを、複数の認識用ニューラルネットワークへの
入力とすることを特徴とする単語認識方式。
【請求項２】分割用ニューラルネットワークの学習
が、登録単語音声の周波数特性ｎフレーム分を逐次ニュ
ーラルネットワークに入力し、予め登録単語音声を視察
により切り出し、ニューラルネットワークの入力に対応
するフレームと切り出し位置が一致すれば、当該フレー
ムに対応する出力層のユニットの目標値が他のユニット
の目標値よりも大きな値をとるよう行なうものである請
求項１記載の単語認識方式。
【請求項３】分割用ニューラルネットワークの学習
が、登録単語音声の周波数特性の隣接フレーム間差分
値、ｎフレーム分を逐次ニューラルネットワークに入力
し、予め登録単語音声を視察により切り出し、ニューラ
ルネットワークの入力に対応するフレームと切り出し位
置が一致すれば、当該フレームに対応する出力層のユニ
ットの目標値が他のユニットの目標値よりも大きな値を
とるよう行なうものである請求項１記載の単語認識方
式。