JPH0744195A - 音声認識用リカレントニューラルネットワーク - Google Patents

音声認識用リカレントニューラルネットワーク

Info

Publication number
JPH0744195A
JPH0744195A JP5185670A JP18567093A JPH0744195A JP H0744195 A JPH0744195 A JP H0744195A JP 5185670 A JP5185670 A JP 5185670A JP 18567093 A JP18567093 A JP 18567093A JP H0744195 A JPH0744195 A JP H0744195A
Authority
JP
Japan
Prior art keywords
layer
rnn
output
neuron
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5185670A
Other languages
English (en)
Inventor
Hidetaka Miyazawa
秀毅 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP5185670A priority Critical patent/JPH0744195A/ja
Publication of JPH0744195A publication Critical patent/JPH0744195A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 対象語彙による単語数に拘らずに迅速に認識
でき、しかも単語の追加,変更に際してもモデル変形を
要しない音声認識用RNNを提供する。 【構成】 音声特徴ベクトルの次元数に応じた数のニュ
ーロを備えた入力層aと、認識対象とする音素数に応じ
た数のRNNの集団から成る中間層bと、音素数に応じ
た数のニューロを備えた出力層cとから音声認識用RN
Nを構成している。入力層a及び出力層cが備える各ニ
ューロは、中間層bが備えるRNNの集団中の各ニュー
ロとの間で互いに結合されている。ここでは、特定の音
声特徴ベクトルが入力されたときに各層における各ニュ
ーロの出力値を求め、出力層cの各ニューロの出力値が
最大となる音素をそのフレームの音素認識結果とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数のニューロを結合
したリカレントニューラルネットワーク(以下、RNN
と称する)に関し、詳しくは音声認識用RNNに関す
る。
【0002】
【従来の技術】従来、RNNのネットワークを構成して
いる各ユニット間はランダムに結合されている。これは
各ユニットが動的な非線形ユニットで構成されているか
らで、その動作は所定の状態方程式(微分方程式)で表
わされる所定の時系列パターンを成している。
【0003】このようなRNNには、図2に示す如く、
各ニューロ間が互いに隣接するもの同士で結合された完
全結合型のものがある。この完全結合型RNNにおける
動作は、次式に示す状態方程式(数1、数2)で表わさ
れる。
【0004】
【数1】
【0005】
【数2】
【0006】但し、ここでxi ,yi ,Xi は、それぞ
れi番目ニューロにおける内部活性度,出力値,外部入
力を表わし、wijはj番目ニューロからi番目ニューロ
への結合係数(結合荷重とも呼ばれる)を表わす。又、
τi は内部活性度の時定数で、Nは総ニューロ数であ
る。更に、特性関数f(x)にはジグモイド関数f
(x)=tanh(x)か線形関数f(x)=xかの何
れかが選択される。
【0007】完全結合型RNNは、その状態が微分方程
式で表わされるので、時系列パターンの処理能力に優れ
る上、外部入力がない場合でも自励発振するという性質
を持つ。殊に、特性関数を線形関数にすると、2N個の
ニューロがあればN個の周波数成分を持つ複数減衰正弦
波を近似できるという能力がある。
【0008】このようなRNNは様々な分野で利用され
ている。例えば、電子通信情報学会技術研究報告SP−
25によれば、RNNを用いて単語モデルを構築するこ
とによって音声認識を行う技術が開示されている。
【0009】
【発明が解決しようとする課題】ところで、RNNによ
り音声認識を行う場合、音声のような時系列パターンを
どのネットワークで扱うかが問題になる。一般にRNN
の状態方程式は時系列パターンの近似化に優れるが、R
NNを音声認識に適応させると、対象とする単語毎にR
NNのモデルを作る必要がある。それ故、語彙によって
対象とする単語が多くなると必要とするRNNのモデル
の数も多くなって複雑化されるという問題がある。又、
認識の対象となる単語が追加されたり、或いは変更され
たりすると、その都度RNNのモデルを対応させて追
加,変更しなければならないという不便もある。
【0010】そこで、単語単位でなく音素単位でモデル
を構築した方が一層柔軟に音声認識を行い得るようにな
るが、RNNだけで音素モデルを構築しようとすると、
時間情報の履歴が必要以上に残ってしまい、実用化に耐
え得る程の認識率が得られないという問題がある。
【0011】本発明は、かかる問題点を解決すべくなさ
れたもので、その技術的課題は、対象語彙による単語数
に拘らず迅速に認識でき、しかも単語の追加,変更に際
してもモデル変形を要しない音声認識用RNNを提供す
ることにある。
【0012】
【課題を解決するための手段】本発明によれば、音声特
徴ベクトル信号をそれぞれ入力すべく、該音声特徴ベク
トルの次元数に対応した数のニューロを備えた入力層
と、認識対象とする音素数に対応した数のRNNの集団
から成る中間層と、音素認識結果信号をそれぞれ出力す
べく、音素数に対応した数のニューロを備えた出力層と
を備え、入力層及び出力層が備える各ニューロは、RN
Nの集団中の各ニューロとの間で互いに結合されて成る
音声認識用RNNが得られる。
【0013】又、本発明によれば、上記音声認識用RN
Nにおいて、更に、入力層はRNNの集団中の各ニュー
ロとの間でのみ互いに結合された第1のバイアスニュー
ロを備え、中間層は出力層が備える各ニューロとの間で
のみ互いに結合された第2のバイアスニューロを備え、
第1及び第2のバイアスニューロ同士は非結合で成る音
声認識用RNNが得られる。
【0014】
【作用】入力層に音声特徴ベクトルが入力されると、入
力層はその音声特徴ベクトルの値をそのまま中間層に出
力する。中間層は各入力層の出力値と対応する結合係数
の積を全入力層に対して加算された値を、(第2発明で
は中間層バイアス値をさらに加え)外部入力として計算
された出力値を出力層に送出する。出力層は各中間層の
出力値と、対応する結合係数の積を全中間層に対して加
算された値を、(第2発明では出力層バイアス値を加
え)入力として、特性関数によって変換された値を出力
する。この出力値が最大となる音素をそのフレームの音
素認識結果とする。
【0015】
【実施例】以下に実施例を挙げ、本発明の音声認識用R
NNについて、図面を参照して詳細に説明する。図1
は、本発明の一実施例である音声認識用RNNの基本構
成を示したものである。
【0016】この音声認識用RNNは、音声特徴ベクト
ルの次元数に対応した数のニューロを備えた入力層a
と、認識対象とする音素数に対応した数のRNNの集団
(以下、RNNグループと呼ぶ)から成る中間層bと、
音素数に対応した数のニューロを備えた出力層cとを備
えて構成されている。
【0017】ここで、入力層aと出力層cとに備えられ
る各ニューロは、それぞれ結合係数f,gとして示され
るように、中間層bが備えるRNNグループ中の各ニュ
ーロとの間で互いに結合されている。この中間層bが備
えるRNNグループは、例えば音素<a>の認識を担当
するRNN要素dや、音素<i>の認識を担当するRN
N要素e等として例示することができる。これらのRN
Nグループは、認識対象となる音素毎に独立して存在し
ている。このように、中間層bをRNNグループとして
構築することにより、音声のような時系列パターンの認
識を程度良く行わせることができる。
【0018】加えて、入力層aは中間層bが備えるRN
Nグループ中の各ニューロとの間でのみ互いに結合され
た第1のバイアスニューロ(中間層用バイアスニュー
ロ)hを備えている。又、中間層bにも出力層cが備え
る各ニューロとの間でのみ互いに結合された第2のバイ
アスニューロ(出力層用バイアスニューロ)iが備えら
れている。因みに、これらのバイアスニューロh,i同
士は非結合で構成されている。こうした構成により、入
力層aの各ニューロがそれぞれ音声特徴ベクトル信号を
入力すると、中間層bのRNNグループがそれぞれ担当
の音素毎の認識を行い、結果的に出力層cの各ニューロ
からそれぞれ音素認識結果信号を出力することができ
る。
【0019】次に、この音声認識用RNNによる音声認
識動作を簡単に説明する。先ず、入力層aの各ニューロ
に対し、音声特徴ベクトル信号がそれぞれ入力される
と、入力層aの各ニューロはそれらの音声特徴ベクトル
の信号値をそのまま中間層bのRNNグループ中の各ニ
ューロへと出力する。
【0020】又、中間層bのRNNグループ中の該当す
る各ニューロでは、入力層aの各ニューロからの信号出
力値と、これに対応する結合係数の積とを入力層aの各
ニューロ分に対して加えた値に、更に中間層用バイアス
ニューロhによる中間層バイアス値を加算した値を外部
入力とした上で、次式に基づいて算出した値の出力信号
を出力層cの各ニューロへと出力する。
【0021】
【数3】
【0022】更に、出力層cの各ニューロでは、中間層
bの各ニューロからの信号出力値と、これに対応する結
合係数の積とを中間層bの各ニューロ分に対して加えた
値に、更に出力層用バイアスニューロiによる出力層バ
イアス値を加算した値を外部入力とした上で、特性関数
(シグモイド関数)によって変換された値の出力信号を
出力する。
【0023】即ち、ここでは特定の音声特徴ベクトルが
入力されたとき、上述したように各層における各ニュー
ロの出力値を求め、出力層cの各ニューロの出力値が最
大となる音素をそのフレームの音素認識結果とする。こ
の音声認識用RNNの場合、中間層bにのみRNNを用
いているので、認識に必要な時間情報の履歴が余計に長
くなることを防止できる。
【0024】
【発明の効果】以上に述べた通り、本発明の音声認識用
RNNによれば、中間層のみをRNNの集団として構成
すると共に、中間層のRNNの集団中の各ニューロを入
力層及び出力層に備えた各ニューロに対して互いに結合
しているので、音声を対象とする時系列パターンの認識
が対象語彙による単語数に拘らず容易にして迅速に行い
得るようになる。即ち、この音声認識用RNNの場合、
単語の追加,変更に際してもモデル変形を要しないとい
う格別の長所を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音声認識用RNNの基
本構成説明図である。
【図2】従来の完全結合型RNNの基本構成説明図であ
る。
【符号の説明】
a…入力層 b…中間層 c…出力層 d,e…RNN要素 f,g…結合係数 h,i…バイアスニューロ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声特徴ベクトル信号をそれぞれ入力す
    べく、該音声特徴ベクトルの次元数に対応した数のニュ
    ーロを備えた入力層と、認識対象とする音素数に対応し
    た数のリカレントニューラルネットワークの集団から成
    る中間層と、音素認識結果信号をそれぞれ出力すべく、
    前記音素数に対応した数のニューロを備えた出力層とを
    備え、前記入力層及び前記出力層が備える各ニューロ
    は、前記リカレントニューラルネットワークの集団中の
    各ニューロとの間で互いに結合されて成ることを特徴と
    する音声認識用リカレントニューラルネットワーク。
  2. 【請求項2】 請求項1記載の音声認識用リカレントニ
    ューラルネットワークにおいて、更に、前記入力層は前
    記リカレントニューラルネットワークの集団中の各ニュ
    ーロとの間でのみ互いに結合された第1のバイアスニュ
    ーロを備え、前記中間層は前記出力層が備える各ニュー
    ロとの間でのみ互いに結合された第2のバイアスニュー
    ロを備え、前記第1及び第2のバイアスニューロ同士は
    非結合で成ることを特徴とする音声認識用リカレントニ
    ューラルネットワーク。
JP5185670A 1993-07-28 1993-07-28 音声認識用リカレントニューラルネットワーク Pending JPH0744195A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5185670A JPH0744195A (ja) 1993-07-28 1993-07-28 音声認識用リカレントニューラルネットワーク

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5185670A JPH0744195A (ja) 1993-07-28 1993-07-28 音声認識用リカレントニューラルネットワーク

Publications (1)

Publication Number Publication Date
JPH0744195A true JPH0744195A (ja) 1995-02-14

Family

ID=16174823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5185670A Pending JPH0744195A (ja) 1993-07-28 1993-07-28 音声認識用リカレントニューラルネットワーク

Country Status (1)

Country Link
JP (1) JPH0744195A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
WO2019235191A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
CN109155132B (zh) * 2016-03-21 2023-05-30 亚马逊技术公司 说话者验证方法和系统
WO2019235191A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム
JP2019211627A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
Adeli et al. An adaptive conjugate gradient learning algorithm for efficient training of neural networks
KR100243353B1 (ko) 뉴럴 네트워크 시스템
US5095443A (en) Plural neural network system having a successive approximation learning method
EP0342630A2 (en) Speech recognition with speaker adaptation by learning
KR100306848B1 (ko) 신경회로망을 이용한 선택적 주의집중 방법
JPH08227408A (ja) ニューラルネットワーク
Pauli et al. Lipschitz-bounded 1D convolutional neural networks using the Cayley transform and the controllability Gramian
JPH07282168A (ja) カオスリカレント神経回路網とその学習方法
JPH0744195A (ja) 音声認識用リカレントニューラルネットワーク
JPH07121498A (ja) ニューラルネットワーク構築方法
Choi et al. A constructive approach for nonlinear system identification using multilayer perceptrons
JP2518007B2 (ja) 学習機構を有するダイナミック・ニユ―ラル・ネットワ―ク
JPH0535710A (ja) ニユーラルネツトワークの学習方法および学習装置
JPH01114899A (ja) ダイナミックなニューラルネットワーク
JPH09138786A (ja) ニューラルネットワークの学習装置
JPH096881A (ja) ニューラルネットワーク
JP3359074B2 (ja) ニューラルネットワークの学習方法
JP3343626B2 (ja) ファジィ推論のためのニューラルネットワーク
JPH01204171A (ja) 学習機構を有するダイナミック・ニューラル・ネットワーク
JPH0981535A (ja) ニューラルネットワークの学習方法
Goryn et al. Conjugate gradient learning algorithms for multilayer perceptrons
JP3343625B2 (ja) ファジィ推論のためのニューラルネットワーク
JPH04118741A (ja) ニューラルネットワーク装置
JPH05274456A (ja) 時系列パターンの学習方式
JP3393511B2 (ja) 文字認識装置及び方法