JPH1152993A

JPH1152993A - 音声認識用ニューラルネットワークの学習方法

Info

Publication number: JPH1152993A
Application number: JP9206890A
Authority: JP
Inventors: Hiroshi Hasegawa; 浩長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 1999-02-26
Anticipated expiration: 2017-07-31
Also published as: JP3775454B2

Abstract

(57)【要約】【課題】連続音声データを短時間かつ正確に認識でき
る学習方法を提供すること。【解決手段】第１の学習として、孤立発話された音声
データを入力し、データ検出の出力パターンを組合せて
教師データとし、前記孤立発話データを連結した孤立発
話型の連結パターン型教師データを作成し、この教師デ
ータを用いて学習する。次に、第２の学習として、連続
発話された音声データを入力し、認識対象語を認識した
時点を区分点として、認識対象語を２分割する。分割し
た認識対象語の後半部分と認識対象語または非認識対象
語とを連結した連結パターン型教師データを作成し、こ
の教師データを用いて追加学習する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識用ニュ
ーラルネットワークの学習方法に関する。

【０００２】

【背景技術】音声認識の形態は、孤立単語音声認識と連
続音声認識の２通りに分けられる。

【０００３】また、連続音声認識の方法としては、大き
く分けて、ＤＰマッチング（Dynamic Programming Matc
hing）法、ＨＭＭ（Hidden Markov Model）法、ニュー
ラルネットワークによる方法の３通りがある。

【０００４】ＤＰマッチング法は、音声認識時に、入力
音声とその始端および終端を入力し、標準パターンと入
力音声の同じ音素同士が対応するように、動的計画法
（Dynamic Programming）を用いて時間軸を非線形に伸
縮する時間正規化をし、両者の距離が最小となるものを
認識結果とする方法である。

【０００５】また、ＨＭＭ法は、一つの音素、音節、ま
たは単語を一つのＨＭＭで表現するもので、ＨＭＭのそ
れぞれに存在確率が、また、あるＨＭＭから別のＨＭＭ
への遷移には遷移確率が学習により与えられている。Ｈ
ＭＭ法は、音声認識時に、入力音声とその始端および終
端を入力し、始端の状態から終端の状態へ遷移する確率
として、その入力音声が各々の範疇に属する確率が計算
される。そして、その確率を最大とするＨＭＭモデルに
代表される範疇を認識結果とする方法である。

【０００６】連続音声を認識する場合、連続音声を用い
て学習することが望ましい。この場合、音声認識を開始
する前に連続音声中の音素等の始端と終端を正確に検出
しておく必要がある。しかし、連続音声において、各音
素等の始端と終端を機械的に検出することは極めて難し
く、ラベリングといった専門家による作業とならざるを
得ないため、時間がかかり、正確性の面でも問題があっ
た。

【０００７】これらの問題に対処するため、ＤＰマッチ
ング法、ＨＭＭ法では、始端終端を入力しなくても音声
認識を開始できるように、可能性のある全ての始端終端
についての検出処理を繰り返し行い、最良の結果を試行
錯誤的に見つけ出すという方法も採られている。

【０００８】しかし、例えば、音声の長さがＮのとき、
始端の可能性としてはＮのオーダーがあり、終端の可能
性としてもＮのオーダーがある。このため、始端終端を
可能な組合せによって所望の認識結果を得るためには、
Ｎの２乗のオーダーがかかることもあり得る。

【０００９】

【発明が解決しようとする課題】これらの問題を解決す
るため、新しい型のニューラルネットワークとして、内
部状態が微分方程式で記述される神経細胞様素子を用い
たリカレントニューラルネットワークが提案されてい
る。

【００１０】しかし、例えば、「７７７（ななななな
な）」といった連続音声が入力された場合、入力音声中
に「７」がいくつあるか判別することは極めて困難であ
った。

【００１１】本発明の目的は、短時間かつ正確に連続音
声認識することができる音声認識用ニューラルネットワ
ークの学習方法を提供することである。

【００１２】

【課題を解決するための手段】前記課題を解決するた
め、請求項１記載の発明は、複数のダイナミックニュー
ロンを備え、音声入力される所定の認識対象語を認識す
る音声認識用ニューラルネットワークの学習方法におい
て、認識対象語の後半およびこれに連続する認識対象語
を連続発話して形成された第１の連結パターン型入力用
教師データが入力された場合には、前記連続する認識対
象語の認識のみを行い、認識対象語の後半およびこれに
連続する非認識対象語を連続発話して形成された第２の
連結パターン型入力用教師データが入力された場合に
は、認識対象語の認識を行わないように、前記複数のダ
イナミックニューロンを学習させることを特徴とする。

【００１３】本発明によれば、認識対象語の前半で認識
を行い、認識対象語の後半では認識を行わない学習がで
きるため、認識対象語が複数連続する場合でも正確に連
続音声認識することができる。

【００１４】特に、連続発話を用いて学習するため、現
実に発話される音声に適した精度の高い音声認識ができ
る。

【００１５】また、請求項２記載の発明は、請求項１に
おいて、認識対象語が入力用教師データとして入力され
た場合には、前記認識対象語の認識を行い、非認識対象
語およびこれに連続する認識対象語を連続発話して形成
された第３の連結パターン型入力用教師データが入力さ
れた場合には、前記連続する認識対象語の認識を行い、
非認識対象語およびこれに連続する非認識対象語を連続
発話して形成された第４の連結パターン型入力用教師デ
ータが入力された場合には、認識対象語の認識を行わな
いように、前記複数のダイナミックニューロンを学習さ
せることを特徴とする。

【００１６】本発明によれば、認識対象語を認識し、非
認識対象語を認識しない学習ができるため、認識対象語
と非認識対象語とが複数連続する場合でも正確に連続音
声認識することができる。

【００１７】また、請求項３記載の発明は、請求項１ま
たは２のいずれかにおいて、認識対象語およびこれに連
続する認識対象語を連続発話して形成された第１の連結
パターン型入力用教師データ並びに認識対象語およびこ
れに連続する非認識対象語を連続発話して形成された第
２の連結パターン型入力用教師データを入力し、音声認
識用ニューラルネットワークがこれらを認識する認識タ
イミングを検出する工程と、前記第１および第２の連結
パターン型入力用教師データから前記認識タイミングよ
り後半のデータを取り出し、前記第１および第２の連結
パターン型入力用教師データを生成する工程と、を含む
ことを特徴とする。

【００１８】本発明によれば、１つの認識対象語に対し
て確実に１度だけ認識することができるため、１つの認
識対象語を誤って複数と認識したり、非認識対象語と誤
認識することなく、正確に連続音声認識することができ
る。

【００１９】また、請求項４記載の発明は、請求項１〜
３のいずれかにおいて、前記各入力用教師データおよび
これに対応した遷移パターンを表す出力用教師データを
含む複数組の入出力用教師データを作成して記憶する工
程と、前記各入力用教師データを入力したときに、前記
各入力用教師データに対応した前記出力用教師データを
得るように前記複数のダイナミックニューロンを学習さ
せる処理を、前記複数組の入出力用教師データ毎に繰り
返し行う工程と、を含むことを特徴とする。

【００２０】本発明によれば、各教師データおよびこれ
に対応した遷移パターンを表す出力用教師データを含む
複数組の入出力用教師データを作成して記憶した後、入
出力用教師データが入力されたダイナミックニューロン
を学習させる処理を、入出力用教師データ毎に繰り返し
行うことにより、短時間に学習の効果を高めることがで
きる。

【００２１】また、請求項５記載の発明は、複数のダイ
ナミックニューロンを備え、音声入力される所定の認識
対象語を認識する音声認識用ニューラルネットワークの
学習方法において、認識対象語の後半およびこれに連続
する認識対象語が孤立発話して形成された孤立発話型の
第１の連結パターン型入力用教師データ並びに前記認識
対象語の後半およびこれに連続する孤立発話された非認
識対象語が連結された孤立発話型の第２の連結パターン
型入力用教師データを用い、前記孤立発話型の第１の連
結パターン型入力用教師データが入力された場合には、
前記連続する認識対象語の認識のみを行い、前記孤立発
話型の第２の連結パターン型入力用教師データが入力さ
れた場合には、認識対象語の認識を行わないように、前
記複数のダイナミックニューロンを学習させる第１の学
習工程と、前記第１の学習工程終了後に、連続発話して
形成された前記第１および第２の連結パターン型入力用
教師データを用い、請求項１〜５のいずれかの学習方法
により、前記複数のダイナミックニューロンを学習させ
る第２の学習工程と、を含むことを特徴とする本発明に
よれば、第１の学習工程においては孤立発話を用いてデ
ータを処理するため、データの入力、記憶等の点で短時
間に処理することができ、ある程度の音声認識性能が出
るようになった後、第２の学習工程において、さらに精
度の高い音声認識を行うことができる。

【００２２】また、請求項６記載の発明は、請求項５に
おいて、前記第１の学習工程では、認識対象語が入力用
教師データとして入力された場合には、前記認識対象語
の認識を行い、非認識対象語およびこれに連続する認識
対象語が孤立発話して形成された孤立発話型の第３の連
結パターン型入力用教師データが入力された場合には、
前記連続する認識対象語の認識を行い、非認識対象語お
よびこれに連続する非認識対象語が孤立発話して形成さ
れた孤立発話型の第４の連結パターン型入力用教師デー
タが入力された場合には、認識対象語の認識を行わない
ように、前記複数のダイナミックニューロンを学習させ
ることを特徴とする。

【００２３】本発明によれば、第１の学習工程において
も、認識対象語を認識し、非認識対象語を認識しない学
習ができるので、第２の学習工程を開始する時点ではさ
らに高精度の音声認識を行える状態となっているため、
さらに短時間に所望の音声認識ができるようになる。

【００２４】また、請求項７記載の発明は、請求項１〜
６のいずれかにおいて、複数のダイナミックニューロン
を備えるニューラルネットワークの状態空間内に、複数
の認識対象語に対応して、アトラクタを異なる位置に複
数形成するように、前記複数のダイナミックニューロン
を学習させることを特徴とする。

【００２５】通常は１つの認識対象単位に対して１つの
出力用ニューロンを用意する必要があるが、本発明によ
れば、より少ないニューロンで学習することができるた
め、処理が軽くなり、より短時間に連続音声認識するこ
とができる。

【００２６】なお、アトラクタとは、出力用ニューロン
の出力値の収束状態をいう。

【００２７】また、上記の各発明は、認識対象語の検出
後、その出力値をリセットすることにより、音声データ
が連続入力された場合でも正確に音声認識することがで
きる。

【００２８】

【発明の実施の形態】以下、音声認識用ニューラルネッ
トワークの学習方法に本発明を適用した好適な実施の形
態について、図面を参照しつつ詳細に説明する。

【００２９】図１は、本発明による学習方法を実現する
ための音声認識装置の一実施の形態の構成図を示す。図
１に示す音声認識装置は、特徴抽出部１０と、音声認識
処理手段であるニューラルネットワーク２００と、アト
ラクタ判定部４０と、内部状態初期値設定部６０とを有
する。

【００３０】特徴抽出部１０は、図２に示すように、入
力されるアナログ音声データ１００をフレーム単位で切
り出し、特徴ベクトル１１０に変換して、ニューラルネ
ットワーク２００に出力する。この特徴ベクトル１１０
は、図２（Ａ）に示すように、アナログ音声データ１０
０を所定のフレーム１０２の単位で順次取り出す。図２
（Ｂ）に示すように、フレーム単位で切り出された音声
データ１００は、線形予測分析やフィルタバンク等で特
徴が抽出され、図２（Ｃ）に示す特徴ベクトル１１０の
列として、ニューラルネットワーク２００に順次入力さ
れる。ニューラルネットワーク２００は、複数のダイナ
ミックニューロンにより構成されている。

【００３１】ニューラルネットワーク２００内の複数の
ダイナミックニューロンは、内部状態初期値設定部６０
から出力される所定の値によって初期化されている。各
ダイナミックニューロンは、詳細には後述するように、
所定の複数のデータを認識することができるよう、異な
る特徴のパターンで学習されている。特徴抽出部１０か
ら出力される特徴ベクトル１１０は、ニューラルネット
ワーク２００の複数のダイナミックニューロンにそれぞ
れ入力される。ニューラルネットワークは、入力データ
に演算処理を施して認識動作を行う。

【００３２】この認識動作により判定された結果は、出
力結果データ１２０として、アトラク夕判定部４０に入
力される。出力結果データ１２０としては、例えば、４
つの座標値Ｐ１、Ｐ２、Ｐ３、Ｐ４の値が出力される。
アトラク夕判定部４０は、出力結果データ１２０である
４つの座標値Ｐ１、Ｐ２、Ｐ３、Ｐ４を用いて、どのア
トラクタが選択されたのかを判別し、この判別結果を認
識結果１５０として出力する。ここで、認識すべき複数
のデータが属するものを範疇、いわゆる力テゴリとし、
この力テゴリが複数用意されている。そして、１つのニ
ューラルネットワーク２００内には、前記複数の力テゴ
リがそれぞれ異なる位置に埋め込まれており、この複数
の力テゴリの内のあるカテゴリから他の力テゴリへの軌
跡の落ち着く先がアトラクタである。

【００３３】なお、アトラクタとは、出力用ニューロン
の出力値の収束状態をいう。具体的には、ある時刻にお
けるニューラルネットワーク２００の状態空間では、例
えば、Ｎ次元の状態空間の任意の一点として表される。
例えば、図３に示すように、４つの座標値Ｐ１、Ｐ２、
Ｐ３、Ｐ４における点Ｑ１〜Ｑ４である。そして、この
ニューラルネットワーク２００の経時変化は、ある点Ｑ
１から他の異なる点Ｑ２等への軌跡として表すことがで
きる。この力テゴリが示す座標値は収束状態を示すもの
である。なお、アトラクタは、最終的には、収束して収
束点となる以外に、例えば周期軌道やカオスになった
り、発散したりするものである。このような音声認識装
置を用いることにより、複数のダイナミックニューロン
を含む１つのニューラルネットワーク２００で、音声デ
ータ等の複数のデータを認識することが可能である。

【００３４】図４は、１０個の数字が音声入力された場
合のアトラクタの座標値の割り当ての一例である。この
ように、例えば、状態空間が３次元であれば８つの状
態、４次元であれば１６の状態を表すことができる。

【００３５】次に、この音声認識装置のニューラルネッ
トワーク２００の構成について説明する。図５は、図１
に示すニューラルネットワーク２００の構成例を簡略化
して表したものである。このニューラルネットワーク２
００は、神経細胞を構成する複数のダイナミックニュー
ロン２１０を相互に接続して構成されている。各ニュー
ロン２１０の結合部には、大きさが可変の重み付けがそ
れぞれなされている。このニューラルネットワーク２０
０は、特徴ベクトル１１０を入力する入力用ダイナミッ
クニューロン２１０と、この特徴ベクトル１１０の入力
により状態が遷移した後の値を出力する出力用ダイナミ
ックニューロン２１０とを別個のものとして示してい
る。具体的には、１０個の入力用ダイナミックニューロ
ン２１０−１〜２１０−１０に１０個の特徴ベクトル１
１０がそれぞれ入力され、複数のダイナミツクニューロ
ン２１０を介した値はアトラクタを判別するための値と
して、出力用ダイナミックニューロン２１０−１１〜２
１０−１４からそれぞれ出力される。

【００３６】各ダイナミックニューロン２１０は、その
内部状態値Ｘが、当該ダイナミックニューロン２１０に
与えられる入力データＺｊ（ｊ＝０〜ｎ：ｎは自然数）
および内部状態値Ｘを用いて表された関数Ｘ＝Ｇ（Ｘ，
Ｚｊ）を満足する値に時間変化するダイナミックニュー
ロン２１０として形成され、その内部状態値Ｘが、関数
Ｆ（Ｘ）を満足する値に変換して出力されるよう形成さ
れている。

【００３７】ニューラルネットワーク２００では、各ダ
イナミックニューロン２１０間の重みを学習により変化
させることによって、複数の入力データに対応して正確
なアトラクタを設定することができる。

【００３８】図６は、ダイナミックニューロン２１０の
構成を模式的に示している。各ダイナミックニューロン
２１０は、所定の内部状態値Ｘを記憶する内部状態値記
憶手段２２０と、前記内部状態値Ｘおよび以下に説明す
る入力データＺｊが入力されて、内部状態値記憶手段２
２０の内部状態値Ｘを更新する内部状態値更新手段２４
０と、内部状態値Ｘを外部出力値Ｙに変換する出力値生
成手段２６０とを含む。

【００３９】各ダイナミックニューロン２１０は、上記
の構成をそれぞれ備えることにより、内部状態値Ｘを基
にし、この内部状態値Ｘを順次更新していく。これによ
り、ダイナミックニューロン２１０に入力されるデータ
の過去の履歴が、内部状態値Ｘとして変換されて保存さ
れる。すなわち、内部状態値Ｘとして、入力値の時間的
な履歴が保存され、この履歴は外部出力値Ｙに反映され
る。ダイナミックニューロン２１０は、上記のダイナミ
ックな動作を行う。これにより、静的なニューロンを用
いたニューラルネットワークとは異なり、ニューラルネ
ツトワークの構造等に依存することなく、時系列データ
を処理することができ、ニューラルネットワーク２００
全体の回路規模を小さくすることができる。これによ
り、処理が軽くなり、より短時間に高精度の音声認識が
可能となる。

【００４０】図７は、ダイナミックニューロン２１０の
構造の一具体例を示す。内部状態記憶手段２２０は、内
部状態値Ｘを記憶するメモリ２２２を含んで構成され
る。また、内部状態値更新手段２４０は、入力データＺ
ｊの積算手段２４２と、演算を行って新たな内部状態値
Ｘを求め、メモリ２２２に記憶されている内部状態値Ｘ
を更新する演算部２４４とを含む。また、出力値生成手
段２６０は、演算部２６２を含む、この演算部２６２
は、メモリ２２２に記憶されている内部状態値Ｘを、値
域制限した外部出力値Ｙにシグモイド（ロジスティッ
ク）関数等を用いて変換するように形成されている。

【００４１】ここで、内部状態値Ｘおよび外部出力値Ｙ
のそれぞれの時間変化において、現在の内部状態値をＸ
ｃｕｒｒ、更新される内部状態値をＸｎｅｘｔ、この更
新動作時点での入力データをＺｊとするときに、内部状
態更新手段２４０の動作を形式的に関数Ｇで表すとする
と、更新される内部状態値Ｘｎｅｘｔは、Ｘｎｅｘｔ＝
Ｇ（Ｘｃｕｒｒ、Ｚ１、・・・Ｚｊ・・・、Ｚｎ）と
表現することができる。

【００４２】この演算式の表現の具体的な形としては様
々なものが考えられるが、例えば１階の微分方程式を用
いて、以下に示す数１の演算式で示すことができる。こ
こで、τは定数である。

【００４３】

【数１】

【００４４】なお、内部状態値更新手段２４０の動作を
示す演算式としては、上記の演算式に限定されることな
く、単純な線形変換やしきい値関数等を用いることも可
能である。

【００４５】また、各ダイナミックニューロン２１０へ
の入力データＺｊとしては、ある重みが乗算されること
により重み付けされたダイナミックニューロン２１０自
身の出力や、結合重みが乗算されることにより重み付け
された他のダイナミックニューロン２１０の出力等が含
まれる。

【００４６】図７においては、各ダイナミックニューロ
ン２１０には、重み付けされたダイナミックニューロン
２１０自身の出力や、重み付けされた他のダイナミック
ニューロン２１０からの出力が与えられる。特に、１０
個のダイナミックニューロン２１０−１〜２１０−１０
には、重み付けされたダイナミックニューロン２１０自
身の出力や重み付けされた他のダイナミックニューロン
２１０からの出力の他に、特徴抽出部１０からの特徴ベ
クトル１１０が与えられる。

【００４７】そして、出力用ダイナミックニューロン２
１０である４個のダイナミックニューロン２１０−１１
〜２１０−１４から外部出力値Ｙが出力される。

【００４８】次に、ニューラルネットワーク２００の内
部状態値Ｘの初期値の設定について説明する。上記のよ
うに、各ダイナミックニューロン２１０は、内部状態値
記憶手段２２０内に記憶された内部状態値Ｘを、内部状
態値更新手段２４０で順次更新していくように構成され
ている。したがって、ニューラルネットワーク２００内
のダイナミックニューロン２１０は、その動作に先立っ
て、予め初期値を設定することが必要である。

【００４９】このため、図１に示す内部状態初期値設定
部６０は、ニューラルネットワーク２００の動作の開始
に先立って、予め設定された初期値を、ニューラルネッ
トワーク２００内の全てのダイナミックニューロン２１
０に対して出力する。具体的には、ニューラルネットワ
ーク２００の動作の開始に先立って、全てのダイナミッ
クニューロン２１０に対して、適当に選択された内部状
態値Ｘの初期値をセットすると共に、この内部状態値Ｘ
の初期値に対応する外部出力値Ｙをセットする。このよ
うに、ニューラルネットワーク２００内の全てのダイナ
ミックニューロン２１０に初期値をセットすることによ
り、ニューラルネットワーク２００の動作は速やかに開
始されることとなる。

【００５０】次に、図１に示すニューラルネットワーク
２００の学習方法について説明する。図８は、ニューラ
ルネットワーク２００に対して所望の認識対象データを
学習させるための学習装置３００の構成を示す。この学
習装置３００は、発話された音声から作成した入力用教
師データを記憶する入力用教師データ記憶部３１０と、
この入力用教師データに対応した前記状態空間内の遷移
パターンを表す出力用教師データを含む複数組の出力用
教師データを記憶する出力用教師データ記憶部３１２
と、学習させたい入力用教師データを選択する入力用教
師データ選択部３１４と、この入力用教師データ選択部
３１４で選択された入力用教師データに対応する出力用
教師データを選択する出力用教師データ選択部３１６
と、ニューラルネットワーク２００の学習を制御する学
習制御部３１８とを含む。

【００５１】この学習装置３００による学習を行う場
合、まず、学習対象となるニューラルネットワーク２０
０を構成する全てのダイナミックニューロン２１０に、
内部状態初期値設定部６０からの内部状態値Ｘの初期値
をセットする。

【００５２】次に、学習させたい入力用教師データが、
入力用教師データ選択部３１４で選択され、この選択さ
れた入力用教師データは学習制御部３１８に入力され
る。このとき、選択された入力用教師データに対応する
出力用教師データが、出力用教師データ選択部３１６で
選択され、この選択された出力用教師データも学習制御
部３１８に入力される。

【００５３】学習制御部３１８においては、入力された
連続音声データは、特徴抽出部１０に入力されて特徴ベ
クトル１１０が抽出される。この抽出された特徴ベクト
ル１１０は、ニューラルネットワーク２００に入力用教
師データＺｊとして入力される。

【００５４】ニューラルネットワーク２００では、全て
のダイナミックニューロン２１０について、それぞれ入
力用教師データＺｊの和を求め、その内部状態値Ｘが更
新される。そして、更新された内部状態値Ｘによりダイ
ナミックニューロン２１０の外部出力値Ｙを求める。

【００５５】初期状態では、ニューラルネットワーク２
００の各ダイナミックニューロン２１０間の結合強度と
しては、ランダムな値が与えられている。従って、図５
のダイナミックニューロン２１０−１１〜２１０−１４
から出力される座標値Ｐ１、Ｐ２、Ｐ３、Ｐ４は、不正
確な値であるが、これらの値が正しい値となるように、
徐々に各ダイナミックニューロン２１０の重みを変更し
ていく。

【００５６】このように、この学習装置３００では、入
力された音声データから形成された入力用教師データお
よびこれに対応した遷移パターンを表す出力用教師デー
タを含む複数組の教師データを予め用意しておき、入力
用教師データを入力した場合、この入力用教師データに
対応する出力用教師データを得るように各ダイナミック
ニューロン２１０を学習させる工程を、前記複数組の教
師データ毎に繰り返し行う。これにより、短時間に学習
の効果を高めることができる。なお、ニューラルネット
ワーク２００の学習の繰り返し回数は、数千回程度であ
る。

【００５７】図９は、入力用教師データと出力用教師デ
ータとを比較する際に使用するパターンを示す。図９に
示すように、このパターンとして、（Ａ）認識対象語の
み、（Ｂ）第１の連結パターン（認識対象語後半と認識
対象語）、（Ｃ）第２の連結パターン（認識対象語後半
と非認識対象語）、（Ｄ）第３の連結パターン（非認識
対象語後半と認識対象語）、（Ｅ）第４の連結パターン
（非認識対象語と非認識対象語）という５パターンを使
用する。この図では、横軸が時間、縦軸が認識対象語の
検出出力となっている。

【００５８】従来の学習方法では、同一の認識対象語が
連続入力された場合、この検出出力が立ち上がったまま
となり認識対象語の個数が正確には分からない場合があ
った。本発明では、認識時に出力値を初期値に戻すリセ
ットを行い、かつ、上記５パターンを用いて学習するこ
とにより、このような場合も認識対象語の個数が正確に
分かる。

【００５９】すなわち、パターン（Ｂ）（Ｃ）を用いる
ことにより、認識対象語の前半で認識を行い、認識対象
語の後半では認識を行わない学習ができるため、認識対
象語が複数連続する場合でも正確に連続音声認識するこ
とができる。また、パターン（Ｄ）（Ｅ）を用いること
により、認識対象語を認識し、非認識対象語を認識しな
い学習ができるため、認識対象語と非認識対象語とが複
数連続する場合でも正確に連続音声認識することができ
る。

【００６０】また、非認識対象語も学習対象とすること
により、さらに認識対象語と非認識対象語を正確かつ効
率的に区別できるようになる。

【００６１】このような学習方法によって、複数のアト
ラクタが形成されたニューラルネットワーク２００に対
して、アトラクタに対応する複数の音声データを入力し
た場合には、ニューラルネットワーク２００の状態空間
の遷移により、入力された複数の音声データを認識する
ことができる。

【００６２】ここで、上記の音声認識用ニューラルネッ
トワーク２００を用いた音声認識の学習方法について具
体的に説明する。

【００６３】図１０は、本発明を用いた音声認識の学習
方法を示すフローチャートである。学習は、第１の学習
工程を行い、第２の学習工程という２段階で行う。

【００６４】第１の学習工程では、予備学習の準備（ス
テップ２）および予備学習（ステップ４）を行う。

【００６５】まず、準備段階として、対象となる話者の
孤立発話データをデータ入力手段１０に入力し、変換手
段によりアナログ音声データをディジタルデータに変換
し、記憶手段に記憶する（ステップ２）。対象となる話
者分のデータを記憶した時点で孤立発話データの学習を
開始する。

【００６６】図１１に示すように、予備学習では、以下
の手順で処理する（ステップ４）。まず、ある認識対象
語に対して、対応する孤立発話データを１つ入力して認
識させ、所定点をリセット位置として設定する（ステッ
プ２０）。この際のリセット位置の設定方法を図１３に
示す。この例では、リセット位置は、各話者における各
認識対象語に対応した出力の遷移パターンの時間軸上の
中点Ｔｍである。時間軸上の中点Ｔｍは、機械的に設定
できるため、後に行う追加学習の準備が短時間ででき
る。なお、リセット位置は、時間軸上の中点Ｔｍには限
られず、認識対象語の時間軸上であればどこでもよい。

【００６７】ここで、認識とは、具体的には、ニューラ
ルネットワーク２００への各孤立発話の入力に対して、
図１２に示すように、ニューラルネットワーク２００か
らの出力がある一定の値（しきい値）を超えることを意
味する。通常は、あるしきい値を超えたところでリセッ
トし、出力を初期値に戻す。

【００６８】また、学習させる音声データは、認識対象
語だけでもよいが、非認識対象語も学習させることによ
り、連続の時系列音声データから認識対象語だけ取り出
すことができる。

【００６９】リセット位置設定後、ニューラルネットワ
ーク２００を学習させる。この方法として、各孤立発話
をつなぎ合わせて仮の連続発話として記憶部３１０に記
憶する。各孤立発話データから図９に示す５パターンの
入出力用教師データを作成する（ステップ２２）。

【００７０】５パターンの内、パターン（Ｂ）（Ｃ）の
作成は、認識対象語のリセット位置設定後、リセット位
置を区分点として出力の遷移パターンを前後に区分する
ことにより、認識対象語後半というデータを作成でき
る。

【００７１】５パターンの入出力用教師データ作成後、
これらを用いてニューラルネットワーク２００を学習さ
せる（ステップ２４）。

【００７２】学習後、望ましい出力が得られているか判
断し（ステップ２６）、十分な性能が得られると判断で
きる場合、学習を終了する。不十分な場合は、同じ教師
データを用いて学習および性能評価（ステップ２４、２
６）を繰り返し行う。

【００７３】このようにして、学習させたニューラルネ
ットワーク２００を用いても従来に比べ、高性能な連続
発話の認識ができるが、さらに性能を上げるため、この
ニューラルネットワーク２００を用いて第２の学習工程
を行う。第１の学習では、リセット位置を機械的に設定
できるため、学習を速く進めることができ、１つの認識
対象語に対して１回のみリセットを行うため、１つの認
識対象語に対して認識しなかったり、複数回認識したり
することはない。したがって、従来必要だったラベリン
グという作業は必要無くなる。さらに、このように学習
が進んだ段階で第２の学習を行うため、短時間かつ正確
な学習を実現することにおいて、より効果的である。

【００７４】第２の学習工程では、図１０に示すよう
に、以下の処理を行う（ステップ６〜１４）。

【００７５】各話者毎の連続発話を入力、Ａ／Ｄ変換、
記憶し、入力用の連続発話データおよび連続発話を用い
た各連結パターンデータを作成する（ステップ６）。入
力用の連続発話データを用いてテスト駆動を行う（ステ
ップ８）。

【００７６】図１４に示すように、テスト駆動の手順は
以下のようになる。入力された連続発話データをニュー
ラルネットワーク２００に入力し（ステップ３４）、入
力された認識対象語を認識した際の出力の時間軸上でリ
セットがかかる位置（しきい値を超える座標および時
点）を調べ、記憶する（ステップ３６）。この工程をテ
スト駆動と呼ぶ。

【００７７】図１２に示すように、テスト駆動で得られ
た認識対象語のリセット位置を区分点として、図９に示
す５パターンの内、パターン（Ｂ）（Ｃ）の連結パター
ン型教師データを作成する（ステップ１０）。同様に、
非認識対象語と認識対象語を連結してパターン（Ｄ）、
非認識対象語と非認識対象語を連結してパターン（Ｅ）
を作成する。その後、追加学習を行う（ステップ１
２）。

【００７８】図１５に示すように、追加学習の手順は以
下のようになる。作成された５パターンの教師データを
ニューラルネットワーク２００に入力し（ステップ４
０）、各ダイナミックニューロン２１０の重みづけを順
次更新しながら、ニューラルネットワーク２００を学習
させる（ステップ４２）。これら５パターンの学習は、
ある１パターンを正確に認識できるようになってから次
のパターンの学習を行ってもよいが、ニューラルネット
ワーク２００を用いて学習するため、５パターン同時に
並列的に学習させることもできる。これにより、さら
に、学習時間を短縮できる。

【００７９】図１０に示すように、追加学習後、追加学
習により実際に出力された出力と望ましい出力とを比較
し、十分な性能が得られるかどうか判断し、十分であれ
ば学習を終了する（ステップ１４）。不十分であれば、
テスト駆動から追加学習、性能比較までの手順（ステッ
プ８〜１４）を繰り返し行うことにより、どの話者に対
しても最適な音声認識ができるニューラルネットワーク
２００を実現することができる。

【００８０】以上が学習の流れであるが、ここで、例え
ば、「０」「１」・・・「９」の数字を組合せた連続発
話データを学習する方法を具体的に説明する。この場
合、表に示す１００パターンの連続発話データに対して
十分な音声認識が行えるよう上記の学習の流れに沿って
学習する。

【００８１】図１６は、上記１００パターンを示す。ま
ず、予備学習として、「ぜろ」「いち」・・・「なな」
・・・「きゅう」という１０個の孤立発話データをニュ
ーラルネットワーク２００に入力する。入力された各孤
立発話データに対する出力の遷移パターンの時間軸上の
中点を区分点として、各孤立発話データを組合せ「ぜろ
ぜろ」「ぜろいち」・・・「きゅうきゅう」という連続
発話に近似した連結パターン型入力用教師データを機械
的に作成する。

【００８２】なお、時系列の音声データの中から認識対
象語を取り出すためには、認識対象語だけでなく、非認
識対象語も学習させておくことが必要である。また、孤
立発話された認識対象語の学習により、図９に示す５パ
ターンの内、パターン（Ａ）について学習できることに
なる。

【００８３】単独の孤立発話データおよび連続発話に近
似した連結パターン型入力用教師データをニューラルネ
ットワーク２００に入力して学習させ、望ましい出力が
得られるようになったニューラルネットワーク２００を
用いてテスト駆動を行う。

【００８４】テスト駆動では、連続発話データから形成
された入力用教師データを入力し、認識対象語に対する
出力のリセット位置を自動判定させる。このリセット位
置を区分点として５パターンの連結パターン型出力用教
師データを作成し、追加学習を行う。

【００８５】予備学習だけでも従来の学習に比べ十分な
性能は得られるが、図１６に示す「「ごーぜろ」のよう
に、孤立発話の組合せだけだと「ごぜろ」となってしま
い、実際のなめらかな連続発話と異なるため、真に最適
な認識を行うため、連続発話を用いた学習を行うことが
好ましい。

【００８６】例えば、「ろく」が認識対象語とすると、
５パターンは、図９の（Ａ）は「ろく」（Ｂ）は「ろ
く」の後半＋「ろく」、（Ｃ）は「ろく」の後半＋「ぜ
ろ」〜「ご」および「ろく」の後半＋「なな」〜「きゅ
う」（Ｄ）は、「ぜろ」〜「ご」＋「ろく」および「な
な」〜「きゅう」＋「ろく」（Ｅ）は「ぜろ」〜「ご」
および「なな」〜「きゅう」のそれぞれの数字の組合せ
となる。

【００８７】パターン（Ａ）については、予備学習の段
階で孤立発話について学習済みであるため、ここでは改
めて学習しない。例えば、パターン（Ｂ）は「ろく」後
半＋「ろく」となるが、最初の「ろく」後半については
出力を出さないようにし、これに連続する「ろく」を認
識すると出力を出す学習を行う。同様にパターン（Ｃ）
は「ろく」後半＋「なな」等となるが、最初の「ろく」
後半については出力を出さないようにし、これに連続す
る「なな」等についても誤認識して出力を出すことのな
いように学習を行う。

【００８８】パターン（Ｄ）は「ぜろ」＋「ろく」等で
あるが、非認識対象語「ぜろ」等では誤認識して出力を
出すことのないように学習を行い、これに連続する認識
対象語「ろく」を認識すると出力を出す学習を行う。同
様に、パターン（Ｅ）は「ぜろ」＋「ぜろ」等である。

【００８９】この２パターンは、認識対象語が「ろく」
のとき、パターン（Ｄ）（Ｅ）であるが、認識対象語を
「ぜろ」とすると、パターン（Ｂ）（Ｃ）として使用で
きる。すなわち、学習が進むにつれて徐々に必要な学習
量も減らすことができ、効率的な学習ができる。

【００９０】もちろん、２連続の発話だけでなく、３連
続以上の連続発話データに対しても連結パターン型教師
データを２連続から３連続、４連続と増やしていくこと
により、２連続の場合と同様に学習できる。

【００９１】以上のように、本発明を用いた学習方法に
よれば、ラベリングせずに連続発話を学習できるため、
短時間かつ正確に連続音声を認識することができる。

【図面の簡単な説明】

【図１】本発明が適用された学習方法を実現するための
機能ブロック図である。

【図２】音声データから特徴を抽出する手順を示す概略
図である。

【図３】アトラクタの一例を示す図である。

【図４】入力データとアトラクタの座標値との関係を示
す図である。

【図５】本発明が適用されたニューラルネットワークの
概略図である。

【図６】本発明が適用されたダイナミックニューロンの
概略図である。

【図７】本発明が適用されたダイナミックニューロンの
詳細図である。

【図８】本発明が適用された学習装置の概略図である。

【図９】本発明で使用する教師パターンを示す図であ
る。

【図１０】本発明が適用された学習方法のフローチャー
トを示す図である。

【図１１】本発明が適用された学習方法の第１の工程で
ある予備学習の手順を示す図である。

【図１２】ダイナミックニューロンの出力の一例を示す
図である。

【図１３】出力を時間軸上の中点で区分することを示す
図である。

【図１４】本発明が適用された学習方法の第２の工程で
あるテスト駆動の手順を示す図である。

【図１５】本発明が適用された学習方法の第２の工程で
ある追加学習の手順を示す図である。

【図１６】学習対象の一例を示す図である。

【符号の説明】

１０特徴抽出部２０ニューラルネットワーク型パターン認識手段４０アトラクタ制御部６０内部状態初期値設定部１１０特徴ベクトル１２０出力結果データ２００ニューラルネットワーク２１０ダイナミックニューロン２２０内部状態値記憶手段２４０内部状態値更新手段２６０出力値生成手段３００学習装置３１０入力データ記憶部３１２出力データ記憶部３１４入力データ選択部３１６出力データ選択部３１８学習制御部

Claims

【特許請求の範囲】

【請求項１】複数のダイナミックニューロンを備え、
音声入力される所定の認識対象語を認識する音声認識用
ニューラルネットワークの学習方法において、認識対象語の後半およびこれに連続する認識対象語を連
続発話して形成された第１の連結パターン型入力用教師
データが入力された場合には、前記連続する認識対象語
の認識のみを行い、認識対象語の後半およびこれに連続する非認識対象語を
連続発話して形成された第２の連結パターン型入力用教
師データが入力された場合には、認識対象語の認識を行
わないように、前記複数のダイナミックニューロンを学
習させることを特徴とする音声認識用ニューラルネット
ワークの学習方法。
【請求項２】請求項１において、認識対象語が入力用教師データとして入力された場合に
は、前記認識対象語の認識を行い、非認識対象語およびこれに連続する認識対象語を連続発
話して形成された第３の連結パターン型入力用教師デー
タが入力された場合には、前記連続する認識対象語の認
識を行い、非認識対象語およびこれに連続する非認識対象語を連続
発話して形成された第４の連結パターン型入力用教師デ
ータが入力された場合には、認識対象語の認識を行わな
いように、前記複数のダイナミックニューロンを学習さ
せることを特徴とする音声認識用ニューラルネットワー
クの学習方法。
【請求項３】請求項１または２のいずれかにおいて、認識対象語およびこれに連続する認識対象語を連続発話
して形成された第１の連結パターン型入力用教師データ
並びに認識対象語およびこれに連続する非認識対象語を
連続発話して形成された第２の連結パターン型入力用教
師データを入力し、音声認識用ニューラルネットワーク
がこれらを認識する認識タイミングを検出する工程と、前記第１および第２の連結パターン型入力用教師データ
から前記認識タイミングより後半のデータを取り出し、
前記第１および第２の連結パターン型入力用教師データ
を生成する工程と、を含むことを特徴とする音声認識用ニューラルネットワ
ークの学習方法。
【請求項４】請求項１〜３のいずれかにおいて、前記各入力用教師データおよびこれに対応した遷移パタ
ーンを表す出力用教師データを含む複数組の入出力用教
師データを作成して記憶する工程と、前記各入力用教師データを入力したときに、前記各入力
用教師データに対応した前記出力用教師データを得るよ
うに前記複数のダイナミックニューロンを学習させる処
理を、前記複数組の入出力用教師データ毎に繰り返し行
う工程と、を含むことを特徴とする音声認識用ニューラルネットワ
ークの学習方法。
【請求項５】複数のダイナミックニューロンを備え、
音声入力される所定の認識対象語を認識する音声認識用
ニューラルネットワークの学習方法において、認識対象語の後半およびこれに連続する認識対象語が孤
立発話して形成された孤立発話型の第１の連結パターン
型入力用教師データ並びに前記認識対象語の後半および
これに連続する非認識対象語が孤立発話して形成された
孤立発話型の第２の連結パターン型入力用教師データを
用い、前記孤立発話型の第１の連結パターン型入力用教
師データが入力された場合には、前記連続する認識対象
語の認識のみを行い、前記孤立発話型の第２の連結パターン型入力用教師デー
タが入力された場合には、前記認識対象語の認識を行わ
ないように、前記複数のダイナミックニューロンを学習
させる第１の学習工程と、前記第１の学習工程終了後に、連続発話して形成された
前記第１および第２の連結パターン型入力用教師データ
を用い、請求項１〜５のいずれかの学習方法により、前
記複数のダイナミックニューロンを学習させる第２の学
習工程と、を含むことを特徴とする音声認識用ニューラルネットワ
ークの学習方法。
【請求項６】請求項５において、前記第１の学習工程では、認識対象語が入力用教師データとして入力された場合に
は、前記認識対象語の認識を行い、非認識対象語およびこれに連続する認識対象語が孤立発
話して形成された孤立発話型の第３の連結パターン型入
力用教師データが入力された場合には、前記連続する認
識対象語の認識を行い、非認識対象語およびこれに連続する非認識対象語が孤立
発話して形成された孤立発話型の第４の連結パターン型
入力用教師データが入力された場合には、認識対象語の
認識を行わないように、前記複数のダイナミックニュー
ロンを学習させることを特徴とする音声認識用ニューラ
ルネットワークの学習方法。
【請求項７】請求項１〜６のいずれかにおいて、複数のダイナミックニューロンを備えるニューラルネッ
トワークの状態空間内に、複数の認識対象語に対応し
て、アトラクタを異なる位置に複数形成するように、前
記複数のダイナミックニューロンを学習させることを特
徴とする音声認識用ニューラルネットワークの学習方
法。