JPH05204399A - 不特定話者音素認識方法 - Google Patents

不特定話者音素認識方法

Info

Publication number
JPH05204399A
JPH05204399A JP4013516A JP1351692A JPH05204399A JP H05204399 A JPH05204399 A JP H05204399A JP 4013516 A JP4013516 A JP 4013516A JP 1351692 A JP1351692 A JP 1351692A JP H05204399 A JPH05204399 A JP H05204399A
Authority
JP
Japan
Prior art keywords
learning
vector
data
layer
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4013516A
Other languages
English (en)
Inventor
Hidetaka Miyazawa
秀毅 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP4013516A priority Critical patent/JPH05204399A/ja
Publication of JPH05204399A publication Critical patent/JPH05204399A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 少数話者の発声する音声データで学習させて
も良好な音素認識結果が得られるようにしたものであ
る。 【構成】 階層型ニューラルネットワークで構築した次
元圧縮器を用いて音声データを圧縮する。圧縮されたデ
ータと学習ベクトル量子化(LVQ)によって参照ベク
トルを得る。得られた参照ベクトルとの写像関数を別の
階層型ニューラルネットで学習させる。これにより学習
データと認識データの変動を吸収する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は不特定話者音素認識方
法に関するものである。
【0002】
【従来の技術】特定話者音素認識の有効な手段として学
習ベクトル量子化(LVQ)がある。このLVQはベク
トル量子化(VQ)の参照ベクトル(コードブック)を
逐次学習させ、認識率を向上させる手段である。また、
近年人間の神経情報処理機能を工学的に模擬した人口ニ
ューラルネットワーク(ANN)の研究が行われてい
る。特に階層型ニューラルネットワークでは任意の連続
関数を近似する能力を持っている。
【0003】
【発明が解決しようとする課題】LVQは学習データの
識別能力を高くすることはできるけれども、学習データ
に依存したカテゴリ境界を推定するために、学習データ
の識別能力は比較的低くなってしまう不具合がある。そ
のため、特定話者音素認識のような、パターン変動の比
較的小さなデータの認識には有効であるけれども、学習
データと認識データのパターン変動の大きい不特定話者
音素認識では認識率が極度に低下してしまう問題があ
る。
【0004】この発明は上記の事情に鑑みてなされたも
ので、少数話音の発声する音声データで学習させても良
好な音素認識結果が得られるようにした不特定話者音素
認識方法を提供することを目的とする。
【0005】
【課題を解決するための手段及び作用】この発明は上記
の目的を達成するために、階層型ニューラルネットワー
クで構築した次元圧縮器で音声データを圧縮し、その圧
縮されたデータと学習ベクトル量子化法によって得られ
る参照ベクトルとの写像関数をもう1つの階層型ニュー
ラルネットワークで学習させて学習データと認識データ
の変動を吸収し、少数話者の音声データで学習ベクトル
量子化法に不特定性を持たせるようにしたことを特徴と
するものである。
【0006】
【実施例】以下この発明の一実施例を図面に基づいて説
明する。まず、学習時、学習データを用いLVQにより
学習データの識別能力を高めるように参照ベクトルを学
習させる。次に、図1に示す5層の砂時計型ニューラル
ネットワークを用いて、各音素カテゴリ毎にBP法(逆
伝搬学習法)により、恒等写像学習を行わせる方法につ
いて述べる。図1において、入力層に学習ベクトルft
を供給し、第1中間層1で学習ベクトルと、ニューロの
結合係数ベクトルの内積が計算される。
【0007】この第1中間層1の値は第2中間層2に供
給される。この第2中間層2の素子数は入力層の素子数
よりも少ないので、これは次元圧縮器(以下NNDRと
称す)となって、ここで値は圧縮される。圧縮された値
は第3中間層3で圧縮されたベクトルとニューロの結合
係数ベクトルとの内積が計算され、出力層から学習ベク
トルftが恒等写像として得られる。
【0008】学習の終了した5層のニューラルネットワ
ークのうち入力層、第1および第2中間層を図2に示す
ように取り出したものがNNDRである。ここで、学習
ベクトルftの最近傍参照ベクトルをrnとすると、ft
をNNDRに入力したときの、NNDRの出力には出力
ベクトルutが得られる。このutを図3に示す3層の階
層型ニューラルネットワークに供給し、最近傍参照ベク
トルrnを教師信号として学習させる。この際、階層ニ
ューラルネットワークはカテゴリ数だけ用意する。 次
に認識時について述べる。まず、認識させる特徴ベクト
ルをNNDRに入力して次元圧縮し、その結果を図4に
示す5層のニューラルネットワークに入力し、出力とし
て最近傍参照ベクトルrnnを得る。このベクトルrnn
各カテゴリの最近傍参照ベクトルrnとの距離を求め、
距離の最小のものを認識カテゴリ候補とする。このよう
にして少数話者の発声する音声データから良好な音素認
識結果を得る。
【0009】
【発明の効果】以上述べたように、この発明によれば、
LVQによる不特定話者音素認識方法において、ニュー
ラルネットワークによる恒等写像器を用いることによ
り、学習データと認識データとのパターン変動を吸収
し、少数話者の発声する音声データで学習させても良好
な音素認識結果が得られる。
【図面の簡単な説明】
【図1】この発明の一実施例である恒等写像の説明図。
【図2】図1から次元圧縮器を抽出した説明図。
【図3】3層ニューラルネットワークの説明図。
【図4】認識時の恒等写像の説明図。
【符号の説明】
1…第1中間層、2…第2中間層、3…第3中間層。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 階層型ニューラルネットワークで構築し
    た次元圧縮器で音声データを圧縮し、その圧縮されたデ
    ータと学習ベクトル量子化法によって得られる参照ベク
    トルとの写像関数をもう1つの階層型ニューラルネット
    ワークで学習させて学習データと認識データの変動を吸
    収し、少数話者の音声データで学習ベクトル量子化法に
    不特定性を持たせるようにしたことを特徴とする不特定
    話者音素認識方法。
JP4013516A 1992-01-29 1992-01-29 不特定話者音素認識方法 Pending JPH05204399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4013516A JPH05204399A (ja) 1992-01-29 1992-01-29 不特定話者音素認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4013516A JPH05204399A (ja) 1992-01-29 1992-01-29 不特定話者音素認識方法

Publications (1)

Publication Number Publication Date
JPH05204399A true JPH05204399A (ja) 1993-08-13

Family

ID=11835321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4013516A Pending JPH05204399A (ja) 1992-01-29 1992-01-29 不特定話者音素認識方法

Country Status (1)

Country Link
JP (1) JPH05204399A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7190358B2 (en) 1997-11-17 2007-03-13 Semiconductor Energy Laboratory Co., Ltd. Picture display device and method of driving the same
WO2014114116A1 (en) * 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and system for voiceprint recognition
US9502038B2 (en) 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
JP2019185748A (ja) * 2018-04-12 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC インタラクティブ言語習得のシステム、及び方法
CN111274816A (zh) * 2020-01-15 2020-06-12 湖北亿咖通科技有限公司 一种基于神经网络的命名实体识别方法和车机

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7190358B2 (en) 1997-11-17 2007-03-13 Semiconductor Energy Laboratory Co., Ltd. Picture display device and method of driving the same
WO2014114116A1 (en) * 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and system for voiceprint recognition
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US9502038B2 (en) 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
JP2019185748A (ja) * 2018-04-12 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC インタラクティブ言語習得のシステム、及び方法
CN111274816A (zh) * 2020-01-15 2020-06-12 湖北亿咖通科技有限公司 一种基于神经网络的命名实体识别方法和车机

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN107301864B (zh) 一种基于Maxout神经元的深度双向LSTM声学模型
US5185848A (en) Noise reduction system using neural network
EP0342630B1 (en) Speech recognition with speaker adaptation by learning
CN110223714B (zh) 一种基于语音的情绪识别方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
Morito et al. Partially Shared Deep Neural Network in sound source separation and identification using a UAV-embedded microphone array
Guzhov et al. Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio
US5758021A (en) Speech recognition combining dynamic programming and neural network techniques
CN107507625A (zh) 声源距离确定方法及装置
KR100306848B1 (ko) 신경회로망을 이용한 선택적 주의집중 방법
JP3521429B2 (ja) ニューラルネットワークを用いた音声認識装置およびその学習方法
JPH03201079A (ja) パターンマッチング装置
Mak et al. Speaker identification using multilayer perceptrons and radial basis function networks
CN113808581B (zh) 一种声学和语言模型训练及联合优化的中文语音识别方法
AU655235B2 (en) Signal processing arrangements
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
JPH0540497A (ja) 話者適応音声認識装置
JP2003524792A (ja) 音声認識システムと方法
JPH05204399A (ja) 不特定話者音素認識方法
JP2736361B2 (ja) ニューラルネット構成方法
Salmela et al. Isolated spoken number recognition with hybrid of self-organizing map and multilayer perceptron
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
JP3521844B2 (ja) ニューラルネットワークを用いた認識装置
JPH05119791A (ja) 話者認識方式