JPH0752359B2 - ニューラルネットワークによる不特定話者音声認識方式 - Google Patents
ニューラルネットワークによる不特定話者音声認識方式Info
- Publication number
- JPH0752359B2 JPH0752359B2 JP3147224A JP14722491A JPH0752359B2 JP H0752359 B2 JPH0752359 B2 JP H0752359B2 JP 3147224 A JP3147224 A JP 3147224A JP 14722491 A JP14722491 A JP 14722491A JP H0752359 B2 JPH0752359 B2 JP H0752359B2
- Authority
- JP
- Japan
- Prior art keywords
- network
- speaker
- layer
- neural network
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】この発明はニューラルネットワー
クによる不特定話者音声認識方式に関し、特に、ニュー
ラルネットワークを用いて不特定話者の音声認識を行な
う音声認識技術分野に適用されるようなニューラルネッ
トワークによる不特定話者音声認識方式に関する。
クによる不特定話者音声認識方式に関し、特に、ニュー
ラルネットワークを用いて不特定話者の音声認識を行な
う音声認識技術分野に適用されるようなニューラルネッ
トワークによる不特定話者音声認識方式に関する。
【0002】
【従来の技術および発明が解決しようとする課題】近
年、音声認識の分野において、ニューラルネットワーク
の応用が活発に行なわれてきている。特に、時間遅れ神
経回路網(TDNN)により、有声破裂音/b,d,g
/の音素認識において高い性能が示されて以来、TDN
Nを基本構造とする18子音認識用のネットワークや2
3音素認識用のネットワークやマルチスピーカの音素認
識を行なうネットワークが多数提案されてきた。
年、音声認識の分野において、ニューラルネットワーク
の応用が活発に行なわれてきている。特に、時間遅れ神
経回路網(TDNN)により、有声破裂音/b,d,g
/の音素認識において高い性能が示されて以来、TDN
Nを基本構造とする18子音認識用のネットワークや2
3音素認識用のネットワークやマルチスピーカの音素認
識を行なうネットワークが多数提案されてきた。
【0003】しかしながら、不特定話者の音声認識を音
素認識のレベルから本格的に認識し得るシステムは、い
まだ出現していない。ただし、限られた少数の話者の音
素認識を行なうものは、たとえば Hampshire J., and
A. Waibel: “The Meta-Pi Network: Connectionist Ra
pid Adaptation for High Performance Multi-SpeakerP
honeme Recognitioin ”, Proceedings of the 1990 IE
EE International Conference on Acoustics, Speech a
nd Signal Processing, S3.9, pp164-168, 1990.におい
て提案されている。しかし、これらの認識システムも学
習話者とは異なる未知話者の音声に対する性能は検証さ
れていなかった。
素認識のレベルから本格的に認識し得るシステムは、い
まだ出現していない。ただし、限られた少数の話者の音
素認識を行なうものは、たとえば Hampshire J., and
A. Waibel: “The Meta-Pi Network: Connectionist Ra
pid Adaptation for High Performance Multi-SpeakerP
honeme Recognitioin ”, Proceedings of the 1990 IE
EE International Conference on Acoustics, Speech a
nd Signal Processing, S3.9, pp164-168, 1990.におい
て提案されている。しかし、これらの認識システムも学
習話者とは異なる未知話者の音声に対する性能は検証さ
れていなかった。
【0004】それゆえに、この発明の主たる目的は、学
習時間やサンプル数を軽減でき、高精度な認識が可能な
ニューラルネットワークによる不特定話者音声認識方式
を提供することである。
習時間やサンプル数を軽減でき、高精度な認識が可能な
ニューラルネットワークによる不特定話者音声認識方式
を提供することである。
【0005】
【課題を解決するための手段】この発明は各話者に対応
してそれぞれが複数層からなり、各話者特有の特徴抽出
を行なうネットワークと、各話者間を識別するために有
効な特徴量を抽出するためのネットワークとを含み、各
ネットワークを統合して単一のネットワークを構成し、
誤差逆伝搬法によりネットワークの学習を行なうように
したものである。
してそれぞれが複数層からなり、各話者特有の特徴抽出
を行なうネットワークと、各話者間を識別するために有
効な特徴量を抽出するためのネットワークとを含み、各
ネットワークを統合して単一のネットワークを構成し、
誤差逆伝搬法によりネットワークの学習を行なうように
したものである。
【0006】
【作用】この発明に係るニューラルネットワークによる
不特定話者音声認識方式は、各話者ごとに学習されたネ
ットワークと、話者間を識別するために学習された話者
識別用のネットワークを統合し、各ネットワークの学習
を個別的に行なうことにより、学習時間やサンプル数を
軽減でき、高精度な認識を可能にする。
不特定話者音声認識方式は、各話者ごとに学習されたネ
ットワークと、話者間を識別するために学習された話者
識別用のネットワークを統合し、各ネットワークの学習
を個別的に行なうことにより、学習時間やサンプル数を
軽減でき、高精度な認識を可能にする。
【0007】
【発明の実施例】図1はこの発明の一実施例の概略ブロ
ック図である。図1を参照して、音声入力信号は特徴分
析部1に与えられ、FFT分析やLPC分析が行なわ
れ、この発明の特徴となるニューラルネットワーク2に
与えられ、音声認識が行なわれて認識結果が出力され
る。
ック図である。図1を参照して、音声入力信号は特徴分
析部1に与えられ、FFT分析やLPC分析が行なわ
れ、この発明の特徴となるニューラルネットワーク2に
与えられ、音声認識が行なわれて認識結果が出力され
る。
【0008】図2は図1に示したニューラルネットワー
クの具体的なブロック図である。図2を参照して、ニュ
ーラルネットワークは入力層3と隠れ層第1層40,4
1,42…4nと、隠れ層第2層50,51,52…5
nと出力層6とを含む。隠れ層第1層41は話者1の学
習用サンプルで学習するサブネットワークであり、隠れ
層第2層51は同じ話者1の学習用サンプルで学習する
サブネットワークであり、隠れ層第1層42は話者2の
学習用サンプルで学習するサブネットワークであり、隠
れ層第2層52は同じ話者2の学習用サンプルで学習す
るサブネットワークである。隠れ層第1層4nは話者N
の学習用サンプルで学習するサブネットワークであり、
隠れ層第2層5nは同じ話者Nのサブネットワークであ
る。隠れ層第1層40は話者識別用ネットワークと呼ば
れる話者1から話者Nまでの学習用のサンプルを用い
て、いずれの話者の音素であるかを判定するためのサブ
ネットワークである。出力層6は各出力ユニットの値か
ら音素カテゴリーC1,C2,…Ck…CKを最終的に
判定する。
クの具体的なブロック図である。図2を参照して、ニュ
ーラルネットワークは入力層3と隠れ層第1層40,4
1,42…4nと、隠れ層第2層50,51,52…5
nと出力層6とを含む。隠れ層第1層41は話者1の学
習用サンプルで学習するサブネットワークであり、隠れ
層第2層51は同じ話者1の学習用サンプルで学習する
サブネットワークであり、隠れ層第1層42は話者2の
学習用サンプルで学習するサブネットワークであり、隠
れ層第2層52は同じ話者2の学習用サンプルで学習す
るサブネットワークである。隠れ層第1層4nは話者N
の学習用サンプルで学習するサブネットワークであり、
隠れ層第2層5nは同じ話者Nのサブネットワークであ
る。隠れ層第1層40は話者識別用ネットワークと呼ば
れる話者1から話者Nまでの学習用のサンプルを用い
て、いずれの話者の音素であるかを判定するためのサブ
ネットワークである。出力層6は各出力ユニットの値か
ら音素カテゴリーC1,C2,…Ck…CKを最終的に
判定する。
【0009】次に、この発明の一実施例の動作について
説明する。入力層3で特徴パラメータ時系列の形式で入
力された音声特徴量は入力層3と隠れ層第1層41,4
2…4nとの間に接続されたコネクションを介して並列
かつ同時に隠れ層第1層41,42…4nに伝搬され
る。このとき、各サブネットワークは各話者のサブネッ
トワークごとに各話者特有の特徴抽出を行なうと同時
に、隠れ層第1層40では各話者間を識別するために有
効な特徴量を同時に抽出する。
説明する。入力層3で特徴パラメータ時系列の形式で入
力された音声特徴量は入力層3と隠れ層第1層41,4
2…4nとの間に接続されたコネクションを介して並列
かつ同時に隠れ層第1層41,42…4nに伝搬され
る。このとき、各サブネットワークは各話者のサブネッ
トワークごとに各話者特有の特徴抽出を行なうと同時
に、隠れ層第1層40では各話者間を識別するために有
効な特徴量を同時に抽出する。
【0010】次に、隠れ層第1層40,41,42…4
nの出力は、隠れ層第1層40,41,42…4nと隠
れ層第2層50,51,52…5nとの間に接続された
コネクションを介して隠れ層第2層50,51,52…
5nに伝搬される。隠れ層第2層50,51,52…5
nから出力層6へのコネクションは、図2に示すよう
に、各話者のサブネットワークのk番目のサブレイヤー
が出力層6のk番目のカテゴリーCkに対応するユニッ
トに接続されている。また、話者識別用ネットワークに
ついても同様に接続されているが、隠れ層第2層50,
51,52…5nから出力層6へのコネクションはフル
コネクションとなっている。また、モジュール性を保つ
ために、各サブネットワーク間は接続されていない。こ
のネットワークの学習は、誤差逆伝搬法( McClelland
J. L., D.E. Rumelhart and the PDP Research Group:
“Parallel Distributed Processing ”, vol.1. Chap.
8. MITPress (1988) .)により行なうことができる。
nの出力は、隠れ層第1層40,41,42…4nと隠
れ層第2層50,51,52…5nとの間に接続された
コネクションを介して隠れ層第2層50,51,52…
5nに伝搬される。隠れ層第2層50,51,52…5
nから出力層6へのコネクションは、図2に示すよう
に、各話者のサブネットワークのk番目のサブレイヤー
が出力層6のk番目のカテゴリーCkに対応するユニッ
トに接続されている。また、話者識別用ネットワークに
ついても同様に接続されているが、隠れ層第2層50,
51,52…5nから出力層6へのコネクションはフル
コネクションとなっている。また、モジュール性を保つ
ために、各サブネットワーク間は接続されていない。こ
のネットワークの学習は、誤差逆伝搬法( McClelland
J. L., D.E. Rumelhart and the PDP Research Group:
“Parallel Distributed Processing ”, vol.1. Chap.
8. MITPress (1988) .)により行なうことができる。
【0011】上述のような各話者ごとに学習されたネッ
トワークと、話者識別用ネットワークとを統合したネッ
トワークは、モジュール性が高いために各サブネットワ
ークごとに学習を行なうことができ、従来から提案され
ているネットワークや同程度の自由度(ネットワークの
コネクション数)を持つ単純な4層構成のネットワーク
と比較すると、学習時間や学習用のサンプルを大幅に軽
減できる利点がある。また、認識率も安定して高くなる
ことは、中村悟,沢井秀文:「不特定話者音素認識のた
めのニューラルネットワークアーキテクチャの検討」電
子情報通信学会音声研究会,SP90−61,1990
年12月20日で実験的に証明されている。
トワークと、話者識別用ネットワークとを統合したネッ
トワークは、モジュール性が高いために各サブネットワ
ークごとに学習を行なうことができ、従来から提案され
ているネットワークや同程度の自由度(ネットワークの
コネクション数)を持つ単純な4層構成のネットワーク
と比較すると、学習時間や学習用のサンプルを大幅に軽
減できる利点がある。また、認識率も安定して高くなる
ことは、中村悟,沢井秀文:「不特定話者音素認識のた
めのニューラルネットワークアーキテクチャの検討」電
子情報通信学会音声研究会,SP90−61,1990
年12月20日で実験的に証明されている。
【0012】
【発明の効果】以上のように、この発明によれば、ニュ
ーラルネットワークの構成を各話者ごとのサブネットワ
ークと、話者識別用ネットワークとからモジュールを構
成し、各サブネットワークの学習を個別的に行なえるよ
うにしたので、学習時間やサンプル数を軽減でき、高精
度な認識が可能となる。
ーラルネットワークの構成を各話者ごとのサブネットワ
ークと、話者識別用ネットワークとからモジュールを構
成し、各サブネットワークの学習を個別的に行なえるよ
うにしたので、学習時間やサンプル数を軽減でき、高精
度な認識が可能となる。
【図1】この発明の一実施例の概略ブロック図である。
【図2】図1に示したニューラルネットワークの具体的
なブロック図である。
なブロック図である。
1 特徴分析部 2 ニューラルネットワーク 3 入力層 40,41,42…4n 隠れ層第1層 50,51,52…5n 隠れ層第2層 6 出力層
Claims (1)
- 【請求項1】 各話者に対応してそれぞれが複数層から
なり、各話者特有の特徴抽出を行なうネットワークと、
前記各話者間を識別するために有効な特徴量を抽出する
ためのネットワークとを含み、各ネットワークを統合し
て単一のネットワークを構成し、誤差逆伝搬法によりネ
ットワークの学習を行なうことを特徴とする、ニューラ
ルネットワークによる不特定話者音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3147224A JPH0752359B2 (ja) | 1991-06-19 | 1991-06-19 | ニューラルネットワークによる不特定話者音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3147224A JPH0752359B2 (ja) | 1991-06-19 | 1991-06-19 | ニューラルネットワークによる不特定話者音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04369699A JPH04369699A (ja) | 1992-12-22 |
JPH0752359B2 true JPH0752359B2 (ja) | 1995-06-05 |
Family
ID=15425382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3147224A Expired - Fee Related JPH0752359B2 (ja) | 1991-06-19 | 1991-06-19 | ニューラルネットワークによる不特定話者音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0752359B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06348675A (ja) * | 1993-06-07 | 1994-12-22 | Ebara Corp | ニューロコンピュータ応用機器およびこれを含む機械装置 |
US9230550B2 (en) * | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56119199A (en) * | 1980-02-26 | 1981-09-18 | Sanyo Electric Co | Voice identifying device |
-
1991
- 1991-06-19 JP JP3147224A patent/JPH0752359B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56119199A (en) * | 1980-02-26 | 1981-09-18 | Sanyo Electric Co | Voice identifying device |
Also Published As
Publication number | Publication date |
---|---|
JPH04369699A (ja) | 1992-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5033087A (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
EP1886303B1 (en) | Method of adapting a neural network of an automatic speech recognition device | |
Weng et al. | Recurrent deep neural networks for robust speech recognition | |
US6298323B1 (en) | Computer voice recognition method verifying speaker identity using speaker and non-speaker data | |
US6208963B1 (en) | Method and apparatus for signal classification using a multilayer network | |
EP0750293A2 (en) | State transition model design method and voice recognition method and apparatus using same | |
KR100309205B1 (ko) | 음성처리장치및방법 | |
EP0865030A2 (en) | Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus | |
Wilpon et al. | Application of hidden Markov models for recognition of a limited set of words in unconstrained speech | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
US5758021A (en) | Speech recognition combining dynamic programming and neural network techniques | |
Matsuoka et al. | Syllable recognition using integrated neural networks | |
Caminero et al. | On-line garbage modeling with discriminant analysis for utterance verification | |
Sivadas et al. | Hierarchical tandem feature extraction | |
JPH0752359B2 (ja) | ニューラルネットワークによる不特定話者音声認識方式 | |
Hartmann et al. | Alternative networks for monolingual bottleneck features | |
Rahim et al. | Discriminative feature and model design for automatic speech recognition. | |
Barnard et al. | Real-world speech recognition with neural networks | |
Farrell et al. | Neural tree network/vector quantization probability estimators for speaker recognition | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning | |
Neto et al. | An incremental speaker-adaptation technique for hybrid HMM-MLP recognizer | |
JPH05204399A (ja) | 不特定話者音素認識方法 | |
Makino et al. | Recognition of phonemes in continuous speech using a modified LVQ2 method | |
JPH05128286A (ja) | ニユーラルネツトワークによるキーワードスポツテイング方式 | |
JPH04140800A (ja) | ニューラルネットワークを用いた音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19951219 |
|
LAPS | Cancellation because of no payment of annual fees |