JPH05204399A

JPH05204399A - 不特定話者音素認識方法

Info

Publication number: JPH05204399A
Application number: JP4013516A
Authority: JP
Inventors: Hidetaka Miyazawa; 秀毅宮澤
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1992-01-29
Filing date: 1992-01-29
Publication date: 1993-08-13

Abstract

(57)【要約】【目的】少数話者の発声する音声データで学習させて
も良好な音素認識結果が得られるようにしたものであ
る。【構成】階層型ニューラルネットワークで構築した次
元圧縮器を用いて音声データを圧縮する。圧縮されたデ
ータと学習ベクトル量子化（ＬＶＱ）によって参照ベク
トルを得る。得られた参照ベクトルとの写像関数を別の
階層型ニューラルネットで学習させる。これにより学習
データと認識データの変動を吸収する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は不特定話者音素認識方
法に関するものである。

【０００２】

【従来の技術】特定話者音素認識の有効な手段として学
習ベクトル量子化（ＬＶＱ）がある。このＬＶＱはベク
トル量子化（ＶＱ）の参照ベクトル（コードブック）を
逐次学習させ、認識率を向上させる手段である。また、
近年人間の神経情報処理機能を工学的に模擬した人口ニ
ューラルネットワーク（ＡＮＮ）の研究が行われてい
る。特に階層型ニューラルネットワークでは任意の連続
関数を近似する能力を持っている。

【０００３】

【発明が解決しようとする課題】ＬＶＱは学習データの
識別能力を高くすることはできるけれども、学習データ
に依存したカテゴリ境界を推定するために、学習データ
の識別能力は比較的低くなってしまう不具合がある。そ
のため、特定話者音素認識のような、パターン変動の比
較的小さなデータの認識には有効であるけれども、学習
データと認識データのパターン変動の大きい不特定話者
音素認識では認識率が極度に低下してしまう問題があ
る。

【０００４】この発明は上記の事情に鑑みてなされたも
ので、少数話音の発声する音声データで学習させても良
好な音素認識結果が得られるようにした不特定話者音素
認識方法を提供することを目的とする。

【０００５】

【課題を解決するための手段及び作用】この発明は上記
の目的を達成するために、階層型ニューラルネットワー
クで構築した次元圧縮器で音声データを圧縮し、その圧
縮されたデータと学習ベクトル量子化法によって得られ
る参照ベクトルとの写像関数をもう１つの階層型ニュー
ラルネットワークで学習させて学習データと認識データ
の変動を吸収し、少数話者の音声データで学習ベクトル
量子化法に不特定性を持たせるようにしたことを特徴と
するものである。

【０００６】

【実施例】以下この発明の一実施例を図面に基づいて説
明する。まず、学習時、学習データを用いＬＶＱにより
学習データの識別能力を高めるように参照ベクトルを学
習させる。次に、図１に示す５層の砂時計型ニューラル
ネットワークを用いて、各音素カテゴリ毎にＢＰ法（逆
伝搬学習法）により、恒等写像学習を行わせる方法につ
いて述べる。図１において、入力層に学習ベクトルｆ_t
を供給し、第１中間層１で学習ベクトルと、ニューロの
結合係数ベクトルの内積が計算される。

【０００７】この第１中間層１の値は第２中間層２に供
給される。この第２中間層２の素子数は入力層の素子数
よりも少ないので、これは次元圧縮器（以下ＮＮＤＲと
称す）となって、ここで値は圧縮される。圧縮された値
は第３中間層３で圧縮されたベクトルとニューロの結合
係数ベクトルとの内積が計算され、出力層から学習ベク
トルｆ_tが恒等写像として得られる。

【０００８】学習の終了した５層のニューラルネットワ
ークのうち入力層、第１および第２中間層を図２に示す
ように取り出したものがＮＮＤＲである。ここで、学習
ベクトルｆ_tの最近傍参照ベクトルをｒ_nとすると、ｆ_t
をＮＮＤＲに入力したときの、ＮＮＤＲの出力には出力
ベクトルｕ_tが得られる。このｕ_tを図３に示す３層の階
層型ニューラルネットワークに供給し、最近傍参照ベク
トルｒ_nを教師信号として学習させる。この際、階層ニ
ューラルネットワークはカテゴリ数だけ用意する。次
に認識時について述べる。まず、認識させる特徴ベクト
ルをＮＮＤＲに入力して次元圧縮し、その結果を図４に
示す５層のニューラルネットワークに入力し、出力とし
て最近傍参照ベクトルｒ_nnを得る。このベクトルｒ_nnと
各カテゴリの最近傍参照ベクトルｒ_nとの距離を求め、
距離の最小のものを認識カテゴリ候補とする。このよう
にして少数話者の発声する音声データから良好な音素認
識結果を得る。

【０００９】

【発明の効果】以上述べたように、この発明によれば、
ＬＶＱによる不特定話者音素認識方法において、ニュー
ラルネットワークによる恒等写像器を用いることによ
り、学習データと認識データとのパターン変動を吸収
し、少数話者の発声する音声データで学習させても良好
な音素認識結果が得られる。

【図面の簡単な説明】

【図１】この発明の一実施例である恒等写像の説明図。

【図２】図１から次元圧縮器を抽出した説明図。

【図３】３層ニューラルネットワークの説明図。

【図４】認識時の恒等写像の説明図。

【符号の説明】

１…第１中間層、２…第２中間層、３…第３中間層。

Claims

【特許請求の範囲】

【請求項１】階層型ニューラルネットワークで構築し
た次元圧縮器で音声データを圧縮し、その圧縮されたデ
ータと学習ベクトル量子化法によって得られる参照ベク
トルとの写像関数をもう１つの階層型ニューラルネット
ワークで学習させて学習データと認識データの変動を吸
収し、少数話者の音声データで学習ベクトル量子化法に
不特定性を持たせるようにしたことを特徴とする不特定
話者音素認識方法。