JPH0752359B2

JPH0752359B2 - ニューラルネットワークによる不特定話者音声認識方式

Info

Publication number: JPH0752359B2
Application number: JP3147224A
Authority: JP
Inventors: 秀文沢井; 悟中村
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1991-06-19
Filing date: 1991-06-19
Publication date: 1995-06-05
Anticipated expiration: 2010-06-05
Also published as: JPH04369699A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明はニューラルネットワー
クによる不特定話者音声認識方式に関し、特に、ニュー
ラルネットワークを用いて不特定話者の音声認識を行な
う音声認識技術分野に適用されるようなニューラルネッ
トワークによる不特定話者音声認識方式に関する。

【０００２】

【従来の技術および発明が解決しようとする課題】近
年、音声認識の分野において、ニューラルネットワーク
の応用が活発に行なわれてきている。特に、時間遅れ神
経回路網（ＴＤＮＮ）により、有声破裂音／ｂ，ｄ，ｇ
／の音素認識において高い性能が示されて以来、ＴＤＮ
Ｎを基本構造とする１８子音認識用のネットワークや２
３音素認識用のネットワークやマルチスピーカの音素認
識を行なうネットワークが多数提案されてきた。

【０００３】しかしながら、不特定話者の音声認識を音
素認識のレベルから本格的に認識し得るシステムは、い
まだ出現していない。ただし、限られた少数の話者の音
素認識を行なうものは、たとえば Hampshire J., and
A. Waibel: “The Meta-Pi Network: Connectionist Ra
pid Adaptation for High Performance Multi-SpeakerP
honeme Recognitioin ”, Proceedings of the 1990 IE
EE International Conference on Acoustics, Speech a
nd Signal Processing, S3.9, pp164-168, 1990.におい
て提案されている。しかし、これらの認識システムも学
習話者とは異なる未知話者の音声に対する性能は検証さ
れていなかった。

【０００４】それゆえに、この発明の主たる目的は、学
習時間やサンプル数を軽減でき、高精度な認識が可能な
ニューラルネットワークによる不特定話者音声認識方式
を提供することである。

【０００５】

【課題を解決するための手段】この発明は各話者に対応
してそれぞれが複数層からなり、各話者特有の特徴抽出
を行なうネットワークと、各話者間を識別するために有
効な特徴量を抽出するためのネットワークとを含み、各
ネットワークを統合して単一のネットワークを構成し、
誤差逆伝搬法によりネットワークの学習を行なうように
したものである。

【０００６】

【作用】この発明に係るニューラルネットワークによる
不特定話者音声認識方式は、各話者ごとに学習されたネ
ットワークと、話者間を識別するために学習された話者
識別用のネットワークを統合し、各ネットワークの学習
を個別的に行なうことにより、学習時間やサンプル数を
軽減でき、高精度な認識を可能にする。

【０００７】

【発明の実施例】図１はこの発明の一実施例の概略ブロ
ック図である。図１を参照して、音声入力信号は特徴分
析部１に与えられ、ＦＦＴ分析やＬＰＣ分析が行なわ
れ、この発明の特徴となるニューラルネットワーク２に
与えられ、音声認識が行なわれて認識結果が出力され
る。

【０００８】図２は図１に示したニューラルネットワー
クの具体的なブロック図である。図２を参照して、ニュ
ーラルネットワークは入力層３と隠れ層第１層４０，４
１，４２…４ｎと、隠れ層第２層５０，５１，５２…５
ｎと出力層６とを含む。隠れ層第１層４１は話者１の学
習用サンプルで学習するサブネットワークであり、隠れ
層第２層５１は同じ話者１の学習用サンプルで学習する
サブネットワークであり、隠れ層第１層４２は話者２の
学習用サンプルで学習するサブネットワークであり、隠
れ層第２層５２は同じ話者２の学習用サンプルで学習す
るサブネットワークである。隠れ層第１層４ｎは話者Ｎ
の学習用サンプルで学習するサブネットワークであり、
隠れ層第２層５ｎは同じ話者Ｎのサブネットワークであ
る。隠れ層第１層４０は話者識別用ネットワークと呼ば
れる話者１から話者Ｎまでの学習用のサンプルを用い
て、いずれの話者の音素であるかを判定するためのサブ
ネットワークである。出力層６は各出力ユニットの値か
ら音素カテゴリーＣ１，Ｃ２，…Ｃｋ…ＣＫを最終的に
判定する。

【０００９】次に、この発明の一実施例の動作について
説明する。入力層３で特徴パラメータ時系列の形式で入
力された音声特徴量は入力層３と隠れ層第１層４１，４
２…４ｎとの間に接続されたコネクションを介して並列
かつ同時に隠れ層第１層４１，４２…４ｎに伝搬され
る。このとき、各サブネットワークは各話者のサブネッ
トワークごとに各話者特有の特徴抽出を行なうと同時
に、隠れ層第１層４０では各話者間を識別するために有
効な特徴量を同時に抽出する。

【００１０】次に、隠れ層第１層４０，４１，４２…４
ｎの出力は、隠れ層第１層４０，４１，４２…４ｎと隠
れ層第２層５０，５１，５２…５ｎとの間に接続された
コネクションを介して隠れ層第２層５０，５１，５２…
５ｎに伝搬される。隠れ層第２層５０，５１，５２…５
ｎから出力層６へのコネクションは、図２に示すよう
に、各話者のサブネットワークのｋ番目のサブレイヤー
が出力層６のｋ番目のカテゴリーＣｋに対応するユニッ
トに接続されている。また、話者識別用ネットワークに
ついても同様に接続されているが、隠れ層第２層５０，
５１，５２…５ｎから出力層６へのコネクションはフル
コネクションとなっている。また、モジュール性を保つ
ために、各サブネットワーク間は接続されていない。こ
のネットワークの学習は、誤差逆伝搬法（ McClelland
J. L., D.E. Rumelhart and the PDP Research Group:
“Parallel Distributed Processing ”, vol.1. Chap.
8. MITPress (1988) ．）により行なうことができる。

【００１１】上述のような各話者ごとに学習されたネッ
トワークと、話者識別用ネットワークとを統合したネッ
トワークは、モジュール性が高いために各サブネットワ
ークごとに学習を行なうことができ、従来から提案され
ているネットワークや同程度の自由度（ネットワークの
コネクション数）を持つ単純な４層構成のネットワーク
と比較すると、学習時間や学習用のサンプルを大幅に軽
減できる利点がある。また、認識率も安定して高くなる
ことは、中村悟，沢井秀文：「不特定話者音素認識のた
めのニューラルネットワークアーキテクチャの検討」電
子情報通信学会音声研究会，ＳＰ９０−６１，１９９０
年１２月２０日で実験的に証明されている。

【００１２】

【発明の効果】以上のように、この発明によれば、ニュ
ーラルネットワークの構成を各話者ごとのサブネットワ
ークと、話者識別用ネットワークとからモジュールを構
成し、各サブネットワークの学習を個別的に行なえるよ
うにしたので、学習時間やサンプル数を軽減でき、高精
度な認識が可能となる。

【図面の簡単な説明】

【図１】この発明の一実施例の概略ブロック図である。

【図２】図１に示したニューラルネットワークの具体的
なブロック図である。

【符号の説明】

１特徴分析部２ニューラルネットワーク３入力層４０，４１，４２…４ｎ隠れ層第１層５０，５１，５２…５ｎ隠れ層第２層６出力層

Claims

【特許請求の範囲】

【請求項１】各話者に対応してそれぞれが複数層から
なり、各話者特有の特徴抽出を行なうネットワークと、
前記各話者間を識別するために有効な特徴量を抽出する
ためのネットワークとを含み、各ネットワークを統合し
て単一のネットワークを構成し、誤差逆伝搬法によりネ
ットワークの学習を行なうことを特徴とする、ニューラ
ルネットワークによる不特定話者音声認識方式。