JPH0744195A

JPH0744195A - 音声認識用リカレントニューラルネットワーク

Info

Publication number: JPH0744195A
Application number: JP5185670A
Authority: JP
Inventors: Hidetaka Miyazawa; 秀毅宮澤
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1993-07-28
Filing date: 1993-07-28
Publication date: 1995-02-14

Abstract

(57)【要約】【目的】対象語彙による単語数に拘らずに迅速に認識
でき、しかも単語の追加，変更に際してもモデル変形を
要しない音声認識用ＲＮＮを提供する。【構成】音声特徴ベクトルの次元数に応じた数のニュ
ーロを備えた入力層ａと、認識対象とする音素数に応じ
た数のＲＮＮの集団から成る中間層ｂと、音素数に応じ
た数のニューロを備えた出力層ｃとから音声認識用ＲＮ
Ｎを構成している。入力層ａ及び出力層ｃが備える各ニ
ューロは、中間層ｂが備えるＲＮＮの集団中の各ニュー
ロとの間で互いに結合されている。ここでは、特定の音
声特徴ベクトルが入力されたときに各層における各ニュ
ーロの出力値を求め、出力層ｃの各ニューロの出力値が
最大となる音素をそのフレームの音素認識結果とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のニューロを結合
したリカレントニューラルネットワーク（以下、ＲＮＮ
と称する）に関し、詳しくは音声認識用ＲＮＮに関す
る。

【０００２】

【従来の技術】従来、ＲＮＮのネットワークを構成して
いる各ユニット間はランダムに結合されている。これは
各ユニットが動的な非線形ユニットで構成されているか
らで、その動作は所定の状態方程式（微分方程式）で表
わされる所定の時系列パターンを成している。

【０００３】このようなＲＮＮには、図２に示す如く、
各ニューロ間が互いに隣接するもの同士で結合された完
全結合型のものがある。この完全結合型ＲＮＮにおける
動作は、次式に示す状態方程式（数１、数２）で表わさ
れる。

【０００４】

【数１】

【０００５】

【数２】

【０００６】但し、ここでｘ_i ，ｙ_i ，Ｘ_i は、それぞ
れｉ番目ニューロにおける内部活性度，出力値，外部入
力を表わし、ｗ_ijはｊ番目ニューロからｉ番目ニューロ
への結合係数（結合荷重とも呼ばれる）を表わす。又、
τ_i は内部活性度の時定数で、Ｎは総ニューロ数であ
る。更に、特性関数ｆ（ｘ）にはジグモイド関数ｆ
（ｘ）＝ｔａｎｈ（ｘ）か線形関数ｆ（ｘ）＝ｘかの何
れかが選択される。

【０００７】完全結合型ＲＮＮは、その状態が微分方程
式で表わされるので、時系列パターンの処理能力に優れ
る上、外部入力がない場合でも自励発振するという性質
を持つ。殊に、特性関数を線形関数にすると、２Ｎ個の
ニューロがあればＮ個の周波数成分を持つ複数減衰正弦
波を近似できるという能力がある。

【０００８】このようなＲＮＮは様々な分野で利用され
ている。例えば、電子通信情報学会技術研究報告ＳＰ−
２５によれば、ＲＮＮを用いて単語モデルを構築するこ
とによって音声認識を行う技術が開示されている。

【０００９】

【発明が解決しようとする課題】ところで、ＲＮＮによ
り音声認識を行う場合、音声のような時系列パターンを
どのネットワークで扱うかが問題になる。一般にＲＮＮ
の状態方程式は時系列パターンの近似化に優れるが、Ｒ
ＮＮを音声認識に適応させると、対象とする単語毎にＲ
ＮＮのモデルを作る必要がある。それ故、語彙によって
対象とする単語が多くなると必要とするＲＮＮのモデル
の数も多くなって複雑化されるという問題がある。又、
認識の対象となる単語が追加されたり、或いは変更され
たりすると、その都度ＲＮＮのモデルを対応させて追
加，変更しなければならないという不便もある。

【００１０】そこで、単語単位でなく音素単位でモデル
を構築した方が一層柔軟に音声認識を行い得るようにな
るが、ＲＮＮだけで音素モデルを構築しようとすると、
時間情報の履歴が必要以上に残ってしまい、実用化に耐
え得る程の認識率が得られないという問題がある。

【００１１】本発明は、かかる問題点を解決すべくなさ
れたもので、その技術的課題は、対象語彙による単語数
に拘らず迅速に認識でき、しかも単語の追加，変更に際
してもモデル変形を要しない音声認識用ＲＮＮを提供す
ることにある。

【００１２】

【課題を解決するための手段】本発明によれば、音声特
徴ベクトル信号をそれぞれ入力すべく、該音声特徴ベク
トルの次元数に対応した数のニューロを備えた入力層
と、認識対象とする音素数に対応した数のＲＮＮの集団
から成る中間層と、音素認識結果信号をそれぞれ出力す
べく、音素数に対応した数のニューロを備えた出力層と
を備え、入力層及び出力層が備える各ニューロは、ＲＮ
Ｎの集団中の各ニューロとの間で互いに結合されて成る
音声認識用ＲＮＮが得られる。

【００１３】又、本発明によれば、上記音声認識用ＲＮ
Ｎにおいて、更に、入力層はＲＮＮの集団中の各ニュー
ロとの間でのみ互いに結合された第１のバイアスニュー
ロを備え、中間層は出力層が備える各ニューロとの間で
のみ互いに結合された第２のバイアスニューロを備え、
第１及び第２のバイアスニューロ同士は非結合で成る音
声認識用ＲＮＮが得られる。

【００１４】

【作用】入力層に音声特徴ベクトルが入力されると、入
力層はその音声特徴ベクトルの値をそのまま中間層に出
力する。中間層は各入力層の出力値と対応する結合係数
の積を全入力層に対して加算された値を、（第２発明で
は中間層バイアス値をさらに加え）外部入力として計算
された出力値を出力層に送出する。出力層は各中間層の
出力値と、対応する結合係数の積を全中間層に対して加
算された値を、（第２発明では出力層バイアス値を加
え）入力として、特性関数によって変換された値を出力
する。この出力値が最大となる音素をそのフレームの音
素認識結果とする。

【００１５】

【実施例】以下に実施例を挙げ、本発明の音声認識用Ｒ
ＮＮについて、図面を参照して詳細に説明する。図１
は、本発明の一実施例である音声認識用ＲＮＮの基本構
成を示したものである。

【００１６】この音声認識用ＲＮＮは、音声特徴ベクト
ルの次元数に対応した数のニューロを備えた入力層ａ
と、認識対象とする音素数に対応した数のＲＮＮの集団
（以下、ＲＮＮグループと呼ぶ）から成る中間層ｂと、
音素数に対応した数のニューロを備えた出力層ｃとを備
えて構成されている。

【００１７】ここで、入力層ａと出力層ｃとに備えられ
る各ニューロは、それぞれ結合係数ｆ，ｇとして示され
るように、中間層ｂが備えるＲＮＮグループ中の各ニュ
ーロとの間で互いに結合されている。この中間層ｂが備
えるＲＮＮグループは、例えば音素＜ａ＞の認識を担当
するＲＮＮ要素ｄや、音素＜ｉ＞の認識を担当するＲＮ
Ｎ要素ｅ等として例示することができる。これらのＲＮ
Ｎグループは、認識対象となる音素毎に独立して存在し
ている。このように、中間層ｂをＲＮＮグループとして
構築することにより、音声のような時系列パターンの認
識を程度良く行わせることができる。

【００１８】加えて、入力層ａは中間層ｂが備えるＲＮ
Ｎグループ中の各ニューロとの間でのみ互いに結合され
た第１のバイアスニューロ（中間層用バイアスニュー
ロ）ｈを備えている。又、中間層ｂにも出力層ｃが備え
る各ニューロとの間でのみ互いに結合された第２のバイ
アスニューロ（出力層用バイアスニューロ）ｉが備えら
れている。因みに、これらのバイアスニューロｈ，ｉ同
士は非結合で構成されている。こうした構成により、入
力層ａの各ニューロがそれぞれ音声特徴ベクトル信号を
入力すると、中間層ｂのＲＮＮグループがそれぞれ担当
の音素毎の認識を行い、結果的に出力層ｃの各ニューロ
からそれぞれ音素認識結果信号を出力することができ
る。

【００１９】次に、この音声認識用ＲＮＮによる音声認
識動作を簡単に説明する。先ず、入力層ａの各ニューロ
に対し、音声特徴ベクトル信号がそれぞれ入力される
と、入力層ａの各ニューロはそれらの音声特徴ベクトル
の信号値をそのまま中間層ｂのＲＮＮグループ中の各ニ
ューロへと出力する。

【００２０】又、中間層ｂのＲＮＮグループ中の該当す
る各ニューロでは、入力層ａの各ニューロからの信号出
力値と、これに対応する結合係数の積とを入力層ａの各
ニューロ分に対して加えた値に、更に中間層用バイアス
ニューロｈによる中間層バイアス値を加算した値を外部
入力とした上で、次式に基づいて算出した値の出力信号
を出力層ｃの各ニューロへと出力する。

【００２１】

【数３】

【００２２】更に、出力層ｃの各ニューロでは、中間層
ｂの各ニューロからの信号出力値と、これに対応する結
合係数の積とを中間層ｂの各ニューロ分に対して加えた
値に、更に出力層用バイアスニューロｉによる出力層バ
イアス値を加算した値を外部入力とした上で、特性関数
（シグモイド関数）によって変換された値の出力信号を
出力する。

【００２３】即ち、ここでは特定の音声特徴ベクトルが
入力されたとき、上述したように各層における各ニュー
ロの出力値を求め、出力層ｃの各ニューロの出力値が最
大となる音素をそのフレームの音素認識結果とする。こ
の音声認識用ＲＮＮの場合、中間層ｂにのみＲＮＮを用
いているので、認識に必要な時間情報の履歴が余計に長
くなることを防止できる。

【００２４】

【発明の効果】以上に述べた通り、本発明の音声認識用
ＲＮＮによれば、中間層のみをＲＮＮの集団として構成
すると共に、中間層のＲＮＮの集団中の各ニューロを入
力層及び出力層に備えた各ニューロに対して互いに結合
しているので、音声を対象とする時系列パターンの認識
が対象語彙による単語数に拘らず容易にして迅速に行い
得るようになる。即ち、この音声認識用ＲＮＮの場合、
単語の追加，変更に際してもモデル変形を要しないとい
う格別の長所を奏する。

【図面の簡単な説明】

【図１】本発明の一実施例に係る音声認識用ＲＮＮの基
本構成説明図である。

【図２】従来の完全結合型ＲＮＮの基本構成説明図であ
る。

【符号の説明】

ａ…入力層ｂ…中間層ｃ…出力層ｄ，ｅ…ＲＮＮ要素ｆ，ｇ…結合係数ｈ，ｉ…バイアスニューロ

Claims

【特許請求の範囲】

【請求項１】音声特徴ベクトル信号をそれぞれ入力す
べく、該音声特徴ベクトルの次元数に対応した数のニュ
ーロを備えた入力層と、認識対象とする音素数に対応し
た数のリカレントニューラルネットワークの集団から成
る中間層と、音素認識結果信号をそれぞれ出力すべく、
前記音素数に対応した数のニューロを備えた出力層とを
備え、前記入力層及び前記出力層が備える各ニューロ
は、前記リカレントニューラルネットワークの集団中の
各ニューロとの間で互いに結合されて成ることを特徴と
する音声認識用リカレントニューラルネットワーク。
【請求項２】請求項１記載の音声認識用リカレントニ
ューラルネットワークにおいて、更に、前記入力層は前
記リカレントニューラルネットワークの集団中の各ニュ
ーロとの間でのみ互いに結合された第１のバイアスニュ
ーロを備え、前記中間層は前記出力層が備える各ニュー
ロとの間でのみ互いに結合された第２のバイアスニュー
ロを備え、前記第１及び第２のバイアスニューロ同士は
非結合で成ることを特徴とする音声認識用リカレントニ
ューラルネットワーク。