JPH0752359B2 - ニューラルネットワークによる不特定話者音声認識方式 - Google Patents

ニューラルネットワークによる不特定話者音声認識方式

Info

Publication number
JPH0752359B2
JPH0752359B2 JP3147224A JP14722491A JPH0752359B2 JP H0752359 B2 JPH0752359 B2 JP H0752359B2 JP 3147224 A JP3147224 A JP 3147224A JP 14722491 A JP14722491 A JP 14722491A JP H0752359 B2 JPH0752359 B2 JP H0752359B2
Authority
JP
Japan
Prior art keywords
network
speaker
layer
neural network
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3147224A
Other languages
English (en)
Other versions
JPH04369699A (ja
Inventor
秀文 沢井
悟 中村
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP3147224A priority Critical patent/JPH0752359B2/ja
Publication of JPH04369699A publication Critical patent/JPH04369699A/ja
Publication of JPH0752359B2 publication Critical patent/JPH0752359B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明はニューラルネットワー
クによる不特定話者音声認識方式に関し、特に、ニュー
ラルネットワークを用いて不特定話者の音声認識を行な
う音声認識技術分野に適用されるようなニューラルネッ
トワークによる不特定話者音声認識方式に関する。
【0002】
【従来の技術および発明が解決しようとする課題】近
年、音声認識の分野において、ニューラルネットワーク
の応用が活発に行なわれてきている。特に、時間遅れ神
経回路網(TDNN)により、有声破裂音/b,d,g
/の音素認識において高い性能が示されて以来、TDN
Nを基本構造とする18子音認識用のネットワークや2
3音素認識用のネットワークやマルチスピーカの音素認
識を行なうネットワークが多数提案されてきた。
【0003】しかしながら、不特定話者の音声認識を音
素認識のレベルから本格的に認識し得るシステムは、い
まだ出現していない。ただし、限られた少数の話者の音
素認識を行なうものは、たとえば Hampshire J., and
A. Waibel: “The Meta-Pi Network: Connectionist Ra
pid Adaptation for High Performance Multi-SpeakerP
honeme Recognitioin ”, Proceedings of the 1990 IE
EE International Conference on Acoustics, Speech a
nd Signal Processing, S3.9, pp164-168, 1990.におい
て提案されている。しかし、これらの認識システムも学
習話者とは異なる未知話者の音声に対する性能は検証さ
れていなかった。
【0004】それゆえに、この発明の主たる目的は、学
習時間やサンプル数を軽減でき、高精度な認識が可能な
ニューラルネットワークによる不特定話者音声認識方式
を提供することである。
【0005】
【課題を解決するための手段】この発明は各話者に対応
してそれぞれが複数層からなり、各話者特有の特徴抽出
を行なうネットワークと、各話者間を識別するために有
効な特徴量を抽出するためのネットワークとを含み、各
ネットワークを統合して単一のネットワークを構成し、
誤差逆伝搬法によりネットワークの学習を行なうように
したものである。
【0006】
【作用】この発明に係るニューラルネットワークによる
不特定話者音声認識方式は、各話者ごとに学習されたネ
ットワークと、話者間を識別するために学習された話者
識別用のネットワークを統合し、各ネットワークの学習
を個別的に行なうことにより、学習時間やサンプル数を
軽減でき、高精度な認識を可能にする。
【0007】
【発明の実施例】図1はこの発明の一実施例の概略ブロ
ック図である。図1を参照して、音声入力信号は特徴分
析部1に与えられ、FFT分析やLPC分析が行なわ
れ、この発明の特徴となるニューラルネットワーク2に
与えられ、音声認識が行なわれて認識結果が出力され
る。
【0008】図2は図1に示したニューラルネットワー
クの具体的なブロック図である。図2を参照して、ニュ
ーラルネットワークは入力層3と隠れ層第1層40,4
1,42…4nと、隠れ層第2層50,51,52…5
nと出力層6とを含む。隠れ層第1層41は話者1の学
習用サンプルで学習するサブネットワークであり、隠れ
層第2層51は同じ話者1の学習用サンプルで学習する
サブネットワークであり、隠れ層第1層42は話者2の
学習用サンプルで学習するサブネットワークであり、隠
れ層第2層52は同じ話者2の学習用サンプルで学習す
るサブネットワークである。隠れ層第1層4nは話者N
の学習用サンプルで学習するサブネットワークであり、
隠れ層第2層5nは同じ話者Nのサブネットワークであ
る。隠れ層第1層40は話者識別用ネットワークと呼ば
れる話者1から話者Nまでの学習用のサンプルを用い
て、いずれの話者の音素であるかを判定するためのサブ
ネットワークである。出力層6は各出力ユニットの値か
ら音素カテゴリーC1,C2,…Ck…CKを最終的に
判定する。
【0009】次に、この発明の一実施例の動作について
説明する。入力層3で特徴パラメータ時系列の形式で入
力された音声特徴量は入力層3と隠れ層第1層41,4
2…4nとの間に接続されたコネクションを介して並列
かつ同時に隠れ層第1層41,42…4nに伝搬され
る。このとき、各サブネットワークは各話者のサブネッ
トワークごとに各話者特有の特徴抽出を行なうと同時
に、隠れ層第1層40では各話者間を識別するために有
効な特徴量を同時に抽出する。
【0010】次に、隠れ層第1層40,41,42…4
nの出力は、隠れ層第1層40,41,42…4nと隠
れ層第2層50,51,52…5nとの間に接続された
コネクションを介して隠れ層第2層50,51,52…
5nに伝搬される。隠れ層第2層50,51,52…5
nから出力層6へのコネクションは、図2に示すよう
に、各話者のサブネットワークのk番目のサブレイヤー
が出力層6のk番目のカテゴリーCkに対応するユニッ
トに接続されている。また、話者識別用ネットワークに
ついても同様に接続されているが、隠れ層第2層50,
51,52…5nから出力層6へのコネクションはフル
コネクションとなっている。また、モジュール性を保つ
ために、各サブネットワーク間は接続されていない。こ
のネットワークの学習は、誤差逆伝搬法( McClelland
J. L., D.E. Rumelhart and the PDP Research Group:
“Parallel Distributed Processing ”, vol.1. Chap.
8. MITPress (1988) .)により行なうことができる。
【0011】上述のような各話者ごとに学習されたネッ
トワークと、話者識別用ネットワークとを統合したネッ
トワークは、モジュール性が高いために各サブネットワ
ークごとに学習を行なうことができ、従来から提案され
ているネットワークや同程度の自由度(ネットワークの
コネクション数)を持つ単純な4層構成のネットワーク
と比較すると、学習時間や学習用のサンプルを大幅に軽
減できる利点がある。また、認識率も安定して高くなる
ことは、中村悟,沢井秀文:「不特定話者音素認識のた
めのニューラルネットワークアーキテクチャの検討」電
子情報通信学会音声研究会,SP90−61,1990
年12月20日で実験的に証明されている。
【0012】
【発明の効果】以上のように、この発明によれば、ニュ
ーラルネットワークの構成を各話者ごとのサブネットワ
ークと、話者識別用ネットワークとからモジュールを構
成し、各サブネットワークの学習を個別的に行なえるよ
うにしたので、学習時間やサンプル数を軽減でき、高精
度な認識が可能となる。
【図面の簡単な説明】
【図1】この発明の一実施例の概略ブロック図である。
【図2】図1に示したニューラルネットワークの具体的
なブロック図である。
【符号の説明】
1 特徴分析部 2 ニューラルネットワーク 3 入力層 40,41,42…4n 隠れ層第1層 50,51,52…5n 隠れ層第2層 6 出力層

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 各話者に対応してそれぞれが複数層から
    なり、各話者特有の特徴抽出を行なうネットワークと、
    前記各話者間を識別するために有効な特徴量を抽出する
    ためのネットワークとを含み、各ネットワークを統合し
    て単一のネットワークを構成し、誤差逆伝搬法によりネ
    ットワークの学習を行なうことを特徴とする、ニューラ
    ルネットワークによる不特定話者音声認識方式。
JP3147224A 1991-06-19 1991-06-19 ニューラルネットワークによる不特定話者音声認識方式 Expired - Fee Related JPH0752359B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3147224A JPH0752359B2 (ja) 1991-06-19 1991-06-19 ニューラルネットワークによる不特定話者音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3147224A JPH0752359B2 (ja) 1991-06-19 1991-06-19 ニューラルネットワークによる不特定話者音声認識方式

Publications (2)

Publication Number Publication Date
JPH04369699A JPH04369699A (ja) 1992-12-22
JPH0752359B2 true JPH0752359B2 (ja) 1995-06-05

Family

ID=15425382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3147224A Expired - Fee Related JPH0752359B2 (ja) 1991-06-19 1991-06-19 ニューラルネットワークによる不特定話者音声認識方式

Country Status (1)

Country Link
JP (1) JPH0752359B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348675A (ja) * 1993-06-07 1994-12-22 Ebara Corp ニューロコンピュータ応用機器およびこれを含む機械装置
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56119199A (en) * 1980-02-26 1981-09-18 Sanyo Electric Co Voice identifying device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56119199A (en) * 1980-02-26 1981-09-18 Sanyo Electric Co Voice identifying device

Also Published As

Publication number Publication date
JPH04369699A (ja) 1992-12-22

Similar Documents

Publication Publication Date Title
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
EP1886303B1 (en) Method of adapting a neural network of an automatic speech recognition device
Weng et al. Recurrent deep neural networks for robust speech recognition
US6298323B1 (en) Computer voice recognition method verifying speaker identity using speaker and non-speaker data
US6208963B1 (en) Method and apparatus for signal classification using a multilayer network
EP0750293A2 (en) State transition model design method and voice recognition method and apparatus using same
KR100309205B1 (ko) 음성처리장치및방법
EP0865030A2 (en) Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus
Wilpon et al. Application of hidden Markov models for recognition of a limited set of words in unconstrained speech
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
US5758021A (en) Speech recognition combining dynamic programming and neural network techniques
Matsuoka et al. Syllable recognition using integrated neural networks
Caminero et al. On-line garbage modeling with discriminant analysis for utterance verification
Sivadas et al. Hierarchical tandem feature extraction
JPH0752359B2 (ja) ニューラルネットワークによる不特定話者音声認識方式
Hartmann et al. Alternative networks for monolingual bottleneck features
Rahim et al. Discriminative feature and model design for automatic speech recognition.
Barnard et al. Real-world speech recognition with neural networks
Farrell et al. Neural tree network/vector quantization probability estimators for speaker recognition
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
Neto et al. An incremental speaker-adaptation technique for hybrid HMM-MLP recognizer
JPH05204399A (ja) 不特定話者音素認識方法
Makino et al. Recognition of phonemes in continuous speech using a modified LVQ2 method
JPH05128286A (ja) ニユーラルネツトワークによるキーワードスポツテイング方式
JPH04140800A (ja) ニューラルネットワークを用いた音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19951219

LAPS Cancellation because of no payment of annual fees