JPH05204399A - 不特定話者音素認識方法 - Google Patents
不特定話者音素認識方法Info
- Publication number
- JPH05204399A JPH05204399A JP4013516A JP1351692A JPH05204399A JP H05204399 A JPH05204399 A JP H05204399A JP 4013516 A JP4013516 A JP 4013516A JP 1351692 A JP1351692 A JP 1351692A JP H05204399 A JPH05204399 A JP H05204399A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- vector
- data
- layer
- compressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 少数話者の発声する音声データで学習させて
も良好な音素認識結果が得られるようにしたものであ
る。 【構成】 階層型ニューラルネットワークで構築した次
元圧縮器を用いて音声データを圧縮する。圧縮されたデ
ータと学習ベクトル量子化(LVQ)によって参照ベク
トルを得る。得られた参照ベクトルとの写像関数を別の
階層型ニューラルネットで学習させる。これにより学習
データと認識データの変動を吸収する。
も良好な音素認識結果が得られるようにしたものであ
る。 【構成】 階層型ニューラルネットワークで構築した次
元圧縮器を用いて音声データを圧縮する。圧縮されたデ
ータと学習ベクトル量子化(LVQ)によって参照ベク
トルを得る。得られた参照ベクトルとの写像関数を別の
階層型ニューラルネットで学習させる。これにより学習
データと認識データの変動を吸収する。
Description
【0001】
【産業上の利用分野】この発明は不特定話者音素認識方
法に関するものである。
法に関するものである。
【0002】
【従来の技術】特定話者音素認識の有効な手段として学
習ベクトル量子化(LVQ)がある。このLVQはベク
トル量子化(VQ)の参照ベクトル(コードブック)を
逐次学習させ、認識率を向上させる手段である。また、
近年人間の神経情報処理機能を工学的に模擬した人口ニ
ューラルネットワーク(ANN)の研究が行われてい
る。特に階層型ニューラルネットワークでは任意の連続
関数を近似する能力を持っている。
習ベクトル量子化(LVQ)がある。このLVQはベク
トル量子化(VQ)の参照ベクトル(コードブック)を
逐次学習させ、認識率を向上させる手段である。また、
近年人間の神経情報処理機能を工学的に模擬した人口ニ
ューラルネットワーク(ANN)の研究が行われてい
る。特に階層型ニューラルネットワークでは任意の連続
関数を近似する能力を持っている。
【0003】
【発明が解決しようとする課題】LVQは学習データの
識別能力を高くすることはできるけれども、学習データ
に依存したカテゴリ境界を推定するために、学習データ
の識別能力は比較的低くなってしまう不具合がある。そ
のため、特定話者音素認識のような、パターン変動の比
較的小さなデータの認識には有効であるけれども、学習
データと認識データのパターン変動の大きい不特定話者
音素認識では認識率が極度に低下してしまう問題があ
る。
識別能力を高くすることはできるけれども、学習データ
に依存したカテゴリ境界を推定するために、学習データ
の識別能力は比較的低くなってしまう不具合がある。そ
のため、特定話者音素認識のような、パターン変動の比
較的小さなデータの認識には有効であるけれども、学習
データと認識データのパターン変動の大きい不特定話者
音素認識では認識率が極度に低下してしまう問題があ
る。
【0004】この発明は上記の事情に鑑みてなされたも
ので、少数話音の発声する音声データで学習させても良
好な音素認識結果が得られるようにした不特定話者音素
認識方法を提供することを目的とする。
ので、少数話音の発声する音声データで学習させても良
好な音素認識結果が得られるようにした不特定話者音素
認識方法を提供することを目的とする。
【0005】
【課題を解決するための手段及び作用】この発明は上記
の目的を達成するために、階層型ニューラルネットワー
クで構築した次元圧縮器で音声データを圧縮し、その圧
縮されたデータと学習ベクトル量子化法によって得られ
る参照ベクトルとの写像関数をもう1つの階層型ニュー
ラルネットワークで学習させて学習データと認識データ
の変動を吸収し、少数話者の音声データで学習ベクトル
量子化法に不特定性を持たせるようにしたことを特徴と
するものである。
の目的を達成するために、階層型ニューラルネットワー
クで構築した次元圧縮器で音声データを圧縮し、その圧
縮されたデータと学習ベクトル量子化法によって得られ
る参照ベクトルとの写像関数をもう1つの階層型ニュー
ラルネットワークで学習させて学習データと認識データ
の変動を吸収し、少数話者の音声データで学習ベクトル
量子化法に不特定性を持たせるようにしたことを特徴と
するものである。
【0006】
【実施例】以下この発明の一実施例を図面に基づいて説
明する。まず、学習時、学習データを用いLVQにより
学習データの識別能力を高めるように参照ベクトルを学
習させる。次に、図1に示す5層の砂時計型ニューラル
ネットワークを用いて、各音素カテゴリ毎にBP法(逆
伝搬学習法)により、恒等写像学習を行わせる方法につ
いて述べる。図1において、入力層に学習ベクトルft
を供給し、第1中間層1で学習ベクトルと、ニューロの
結合係数ベクトルの内積が計算される。
明する。まず、学習時、学習データを用いLVQにより
学習データの識別能力を高めるように参照ベクトルを学
習させる。次に、図1に示す5層の砂時計型ニューラル
ネットワークを用いて、各音素カテゴリ毎にBP法(逆
伝搬学習法)により、恒等写像学習を行わせる方法につ
いて述べる。図1において、入力層に学習ベクトルft
を供給し、第1中間層1で学習ベクトルと、ニューロの
結合係数ベクトルの内積が計算される。
【0007】この第1中間層1の値は第2中間層2に供
給される。この第2中間層2の素子数は入力層の素子数
よりも少ないので、これは次元圧縮器(以下NNDRと
称す)となって、ここで値は圧縮される。圧縮された値
は第3中間層3で圧縮されたベクトルとニューロの結合
係数ベクトルとの内積が計算され、出力層から学習ベク
トルftが恒等写像として得られる。
給される。この第2中間層2の素子数は入力層の素子数
よりも少ないので、これは次元圧縮器(以下NNDRと
称す)となって、ここで値は圧縮される。圧縮された値
は第3中間層3で圧縮されたベクトルとニューロの結合
係数ベクトルとの内積が計算され、出力層から学習ベク
トルftが恒等写像として得られる。
【0008】学習の終了した5層のニューラルネットワ
ークのうち入力層、第1および第2中間層を図2に示す
ように取り出したものがNNDRである。ここで、学習
ベクトルftの最近傍参照ベクトルをrnとすると、ft
をNNDRに入力したときの、NNDRの出力には出力
ベクトルutが得られる。このutを図3に示す3層の階
層型ニューラルネットワークに供給し、最近傍参照ベク
トルrnを教師信号として学習させる。この際、階層ニ
ューラルネットワークはカテゴリ数だけ用意する。 次
に認識時について述べる。まず、認識させる特徴ベクト
ルをNNDRに入力して次元圧縮し、その結果を図4に
示す5層のニューラルネットワークに入力し、出力とし
て最近傍参照ベクトルrnnを得る。このベクトルrnnと
各カテゴリの最近傍参照ベクトルrnとの距離を求め、
距離の最小のものを認識カテゴリ候補とする。このよう
にして少数話者の発声する音声データから良好な音素認
識結果を得る。
ークのうち入力層、第1および第2中間層を図2に示す
ように取り出したものがNNDRである。ここで、学習
ベクトルftの最近傍参照ベクトルをrnとすると、ft
をNNDRに入力したときの、NNDRの出力には出力
ベクトルutが得られる。このutを図3に示す3層の階
層型ニューラルネットワークに供給し、最近傍参照ベク
トルrnを教師信号として学習させる。この際、階層ニ
ューラルネットワークはカテゴリ数だけ用意する。 次
に認識時について述べる。まず、認識させる特徴ベクト
ルをNNDRに入力して次元圧縮し、その結果を図4に
示す5層のニューラルネットワークに入力し、出力とし
て最近傍参照ベクトルrnnを得る。このベクトルrnnと
各カテゴリの最近傍参照ベクトルrnとの距離を求め、
距離の最小のものを認識カテゴリ候補とする。このよう
にして少数話者の発声する音声データから良好な音素認
識結果を得る。
【0009】
【発明の効果】以上述べたように、この発明によれば、
LVQによる不特定話者音素認識方法において、ニュー
ラルネットワークによる恒等写像器を用いることによ
り、学習データと認識データとのパターン変動を吸収
し、少数話者の発声する音声データで学習させても良好
な音素認識結果が得られる。
LVQによる不特定話者音素認識方法において、ニュー
ラルネットワークによる恒等写像器を用いることによ
り、学習データと認識データとのパターン変動を吸収
し、少数話者の発声する音声データで学習させても良好
な音素認識結果が得られる。
【図1】この発明の一実施例である恒等写像の説明図。
【図2】図1から次元圧縮器を抽出した説明図。
【図3】3層ニューラルネットワークの説明図。
【図4】認識時の恒等写像の説明図。
1…第1中間層、2…第2中間層、3…第3中間層。
Claims (1)
- 【請求項1】 階層型ニューラルネットワークで構築し
た次元圧縮器で音声データを圧縮し、その圧縮されたデ
ータと学習ベクトル量子化法によって得られる参照ベク
トルとの写像関数をもう1つの階層型ニューラルネット
ワークで学習させて学習データと認識データの変動を吸
収し、少数話者の音声データで学習ベクトル量子化法に
不特定性を持たせるようにしたことを特徴とする不特定
話者音素認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4013516A JPH05204399A (ja) | 1992-01-29 | 1992-01-29 | 不特定話者音素認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4013516A JPH05204399A (ja) | 1992-01-29 | 1992-01-29 | 不特定話者音素認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05204399A true JPH05204399A (ja) | 1993-08-13 |
Family
ID=11835321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4013516A Pending JPH05204399A (ja) | 1992-01-29 | 1992-01-29 | 不特定話者音素認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05204399A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7190358B2 (en) | 1997-11-17 | 2007-03-13 | Semiconductor Energy Laboratory Co., Ltd. | Picture display device and method of driving the same |
WO2014114116A1 (en) * | 2013-01-28 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and system for voiceprint recognition |
US9502038B2 (en) | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
JP2019185748A (ja) * | 2018-04-12 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | インタラクティブ言語習得のシステム、及び方法 |
CN111274816A (zh) * | 2020-01-15 | 2020-06-12 | 湖北亿咖通科技有限公司 | 一种基于神经网络的命名实体识别方法和车机 |
-
1992
- 1992-01-29 JP JP4013516A patent/JPH05204399A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7190358B2 (en) | 1997-11-17 | 2007-03-13 | Semiconductor Energy Laboratory Co., Ltd. | Picture display device and method of driving the same |
WO2014114116A1 (en) * | 2013-01-28 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and system for voiceprint recognition |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US9502038B2 (en) | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
JP2019185748A (ja) * | 2018-04-12 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | インタラクティブ言語習得のシステム、及び方法 |
CN111274816A (zh) * | 2020-01-15 | 2020-06-12 | 湖北亿咖通科技有限公司 | 一种基于神经网络的命名实体识别方法和车机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN107301864B (zh) | 一种基于Maxout神经元的深度双向LSTM声学模型 | |
US5185848A (en) | Noise reduction system using neural network | |
EP0342630B1 (en) | Speech recognition with speaker adaptation by learning | |
CN110223714B (zh) | 一种基于语音的情绪识别方法 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
Morito et al. | Partially Shared Deep Neural Network in sound source separation and identification using a UAV-embedded microphone array | |
Guzhov et al. | Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio | |
US5758021A (en) | Speech recognition combining dynamic programming and neural network techniques | |
CN107507625A (zh) | 声源距离确定方法及装置 | |
KR100306848B1 (ko) | 신경회로망을 이용한 선택적 주의집중 방법 | |
JP3521429B2 (ja) | ニューラルネットワークを用いた音声認識装置およびその学習方法 | |
JPH03201079A (ja) | パターンマッチング装置 | |
Mak et al. | Speaker identification using multilayer perceptrons and radial basis function networks | |
CN113808581B (zh) | 一种声学和语言模型训练及联合优化的中文语音识别方法 | |
AU655235B2 (en) | Signal processing arrangements | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
JP2003524792A (ja) | 音声認識システムと方法 | |
JPH05204399A (ja) | 不特定話者音素認識方法 | |
JP2736361B2 (ja) | ニューラルネット構成方法 | |
Salmela et al. | Isolated spoken number recognition with hybrid of self-organizing map and multilayer perceptron | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning | |
JP3521844B2 (ja) | ニューラルネットワークを用いた認識装置 | |
JPH05119791A (ja) | 話者認識方式 |