JPH06274197A

JPH06274197A - 音声認識装置

Info

Publication number: JPH06274197A
Application number: JP5058103A
Authority: JP
Inventors: Satoru Nakamura; 哲中村; Kazuhiko Miyata; 和彦宮田; Toshio Akaha; 俊夫赤羽; Seiji Hamaguchi; 清治濱口
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1993-03-18
Filing date: 1993-03-18
Publication date: 1994-09-30
Anticipated expiration: 2018-05-26
Also published as: JP3410756B2

Abstract

(57)【要約】【目的】動的計画法の計算量を削減でき効率よくパタ
ーン認識を行うことができる音声認識装置を提供するこ
とにある。【構成】入力音声の特徴的な部位を抽出する複数の音
声イベント検出ニューラウネットワークと、複数の音声
イベント検出ニューラルネットワークの出力に基づいて
単語の尤度を求める単語検出ニューラルネットワークと
を備えており、入力音声に対して認識対象単語の特徴に
応じて連結された音声イベント検出ニューラルネットワ
ークを時間軸上にそれぞれ独立に走査して各音声イベン
ト検出ニューラルネットワーク及び単語検出ニューラル
ネットワークの出力に基づいて入力音声を認識する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、任意の単語を認識でき
る音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置は、任意の語彙を認
識するために単音節や音素の特徴系列を単位とし、これ
らの組合せで認識を行なっていた。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声認識装置では、照合における標準パターン
としては、これらの単位に相当する時系列全体を対象と
して標準パターンが構成されており、このため発声毎の
時間構造の異なりを正規化するための時間正規化マッチ
ングを動的計画法（ＤＰ）などで行なう必要があり、構
成が複雑になってしまうという問題点があった。。更
に、上述した従来の音声認識装置では、音素などに対応
する標準パターンは、自らの音素カテゴリーへの尤度し
か計算できずパターン識別の性能が低いという問題点が
あった。

【０００４】従って、上述した従来の音声認識装置で
は、認識単位の効率的なとり方、音素特徴の自動走査、
動的計画法の計算量の削減、認識単位と標準パターンの
学習法に関する問題点があった。

【０００５】本発明の目的は、上述した従来の音声認識
装置における問題点に鑑み、動的計画法の計算量を削減
でき効率よくパターン認識を行うことができる音声認識
装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明の目的は、入力音
声の特徴的な部位を抽出する複数の音声イベント検出手
段と、複数の音声イベント検出手段の出力に基づいて単
語の尤度を求める単語検出手段とを備えており、入力音
声に対して認識対象単語の特徴に応じて連結された音声
イベント検出手段を時間軸上にそれぞれ独立に走査して
各音声イベント検出手段及び単語検出手段の出力に基づ
いて入力音声を認識する音声認識装置によって達成され
る。

【０００７】本発明の音声認識装置は、入力音声の特徴
的な部位に対応する正参照ベクトルと特徴的な部位に対
応しない反参照ベクトルとの尤度に基づいて入力音声を
認識するように構成してもよい。

【０００８】本発明の音声認識装置は、特定の音素を対
象とする音声イベント検出手段の学習を行なうときに、
該当する音素と同じ音素の学習データに対して正参照ベ
クトルを学習データに近付くように修正し、該当する音
素と異なる音素の学習データに対して反参照ベクトルを
近付けるように修正するように構成してもよい。

【０００９】本発明の音声認識装置は、特定の音素を対
象とする音声イベント検出手段の学習を行なうときに、
該当する音素と同じ音素の学習データに対しては正参照
ベクトルを学習データに近付くようにかつ反参照ベクト
ルを遠ざけるように修正し、該当する音素と異なる音素
の学習データに対しては正参照ベクトルを学習データか
ら遠ざけるようにかつ反参照ベクトルを近付けるように
修正するように構成してもよい。

【００１０】本発明の音声認識装置は、正参照ベクトル
及び反参照ベクトルで構成された参照ベクトルの出力の
最大値から反参照ベクトルの出力の最大値を減じること
により音声イベント検出手段の出力を求めるように構成
してもよい。

【００１１】本発明の音声認識装置は、認識すべき音声
を含む音響信号に対し各音声イベント検出手段を走査し
各時刻において単語照合の終端を仮定して単語検出手段
からの出力を求めて出力の時系列の極大値に基づいて該
当する単語を検出して連続的に認識を行なうように構成
してもよい。

【００１２】

【作用】本発明の音声認識装置では、複数の音声イベン
ト検出手段は、入力音声の特徴的な部位を抽出し、単語
検出手段は、複数の音声イベント検出手段の出力に基づ
いて単語の尤度を求めて、入力音声に対して認識対象単
語の特徴に応じて連結された音声イベント検出手段を時
間軸上にそれぞれ独立に走査して各音声イベント検出手
段及び単語検出手段の出力に基づいて入力音声を認識す
る。

【００１３】本発明の音声認識装置では、入力音声の特
徴的な部位に対応する正参照ベクトルと特徴的な部位に
対応しない反参照ベクトルとの尤度に基づいて入力音声
を認識する。

【００１４】本発明の音声認識装置では、特定の音素を
対象とする音声イベント検出手段の学習を行なうとき
に、該当する音素と同じ音素の学習データに対して正参
照ベクトルを学習データに近付くように修正し、該当す
る音素と異なる音素の学習データに対して反参照ベクト
ルを近付けるように修正する。

【００１５】本発明の音声認識装置では、特定の音素を
対象とする音声イベント検出手段の学習を行なうとき
に、該当する音素と同じ音素の学習データに対しては正
参照ベクトルを学習データに近付くようにかつ反参照ベ
クトルを遠ざけるように修正し、該当する音素と異なる
音素の学習データに対しては正参照ベクトルを学習デー
タから遠ざけるようにかつ反参照ベクトルを近付けるよ
うに修正する。

【００１６】本発明の音声認識装置では、正参照ベクト
ル及び反参照ベクトルで構成された参照ベクトルの出力
の最大値から反参照ベクトルの出力の最大値を減じるこ
とにより音声イベント検出手段の出力を求める。

【００１７】本発明の音声認識装置では、認識すべき音
声を含む音響信号に対し各音声イベント検出手段を走査
し各時刻において単語照合の終端を仮定して単語検出手
段からの出力を求めて出力の時系列の極大値に基づいて
該当する単語を検出して連続的に認識を行なう。

【００１８】

【実施例】以下、図面を参照して、本発明の音声認識装
置の実施例を詳細に説明する。

【００１９】図１は、本発明の音声認識装置の一実施例
の構成を示すブロック図である。

【００２０】図１の音声認識装置は、マイクロホン１
１、マイクロホン１１に接続されたアナログ／デジタル
（Ａ／Ｄ）変換器１２、Ａ／Ｄ変換器１２に接続された
マイクロプロセッサ１３、マイクロプロセッサ１３に接
続されており音声イベント検出手段及び単語検出手段を
構成しているリード・オンリー・メモリ（ＲＯＭ）１
４、マイクロプロセッサ１３に接続されたランダム・ア
クセス・メモリ（ＲＡＭ）１５、マイクロプロセッサ１
３に接続された外部インタフェース１６によって構成さ
れている。

【００２１】次に、図１の音声認識装置の動作を説明す
る。

【００２２】入力音声は、マイクロホン１１で集音され
て電気信号に変換され、低域通過フィルターをかけた
後、Ａ／Ｄ変換器１２でアナログ信号からデジタル信号
に変換される。

【００２３】Ａ／Ｄ変換器１２でデジタル信号に変換さ
れた音声信号は、バスを経てマイクロプロセッサ１３に
転送される。

【００２４】マイクロプロセッサ１３は、ＲＯＭ１４に
格納されている音声認識プログラムにより、同じくＲＯ
Ｍ１４に格納されている認識単語音素列と対応するニュ
ーラルネットを呼び出し、ワーキングエリアをＲＡＭ１
５としてデータを一時的に格納しながら認識処理を行な
い、認識結果を外部インタフェース１６を通じて外部に
出力する。

【００２５】図２に音声波形の一例を示す。図２は、無
声破裂音／ｋ／の一例であるが、破裂部分が雑音の中に
現れている。この破裂時刻は発声の試行によりいろいろ
変わり得る。このように、音声の特徴を表す音声イベン
トは、ある程度決まった特徴時系列が時間軸上で揺らぎ
ながら生じていると考えることができる。

【００２６】本発明では、音声イベントをとらえるため
Ｌフレームの特徴時系列を用いて、この特徴時系列に基
づいてニューラルネットを構成するものとする。

【００２７】ニューラルネットは、図３に示すような層
状のパーセプトロン型のニューラルネットかあるいは、
図４に示すような学習ベクトル量子化（ＬＶＱ（Learni
ng Vector Quantization））型のニューラルネットのい
ずれでもよいが、ここでは図４のＬＶＱ型ニューラルネ
ットについて説明する。

【００２８】ＬＶＱ型ニューラルネットでは、複数の参
照ベクトルがあり、それらとのベクトルの距離や内積を
基にニューラルネットワークの出力を計算する。また、
層状ニューラルネットワークとの対比として各参照ベク
トル自体を出力ユニット、参照ベクトルの値をユニット
の重み、これらとの内積を出力ユニットからの出力と呼
ぶ。また、音素イベントに対応して学習された参照ベク
トル群と内積演算を含めて音素イベントニューラルネッ
トワークと呼ぶ。なお、ＬＶＱ型はニューラルネットワ
ークかどうかについて議論があるが、現状ではニューラ
ルネットワークの一種とされている。

【００２９】音声の認識の単位として簡単のため音素を
例に説明する。ＬＶＱ型ニューラルネットでは、図５に
示すようにある音素のカテゴリーｋを示すために参照ベ
クトルＶｋｉ｛ｉ＝０，．．，Ｎ｝を用意し、このカテ
ゴリーにはいる学習データが提示されると参照ベクトル
をそのベクトルの方向に移動し、異なるカテゴリーに入
ると遠ざけるように学習を行なう。

【００３０】しかし、該当カテゴリーに属すことを示す
正参照ベクトルだけでは充分な識別ができないため、本
発明ではそのカテゴリーでないことを示す反参照ベクト
ルＵｋｊ｛ｊ＝０，．．，Ｍ｝を用意する。従って、該
当カテゴリーに属す学習データが提示されると参照ベク
トルＶｋｉは学習データの方向に移動され、反参照ベク
トルＵｋｊは遠ざかるように移動される。また、逆に該
当カテゴリーに属さない学習データが提示されると参照
ベクトルＶｋｉは遠ざける方向に、反参照ベクトルＵｋ
ｊは近付く方向に訂正される。

【００３１】認識すべき入力が与えられるとこれらの正
反参照ベクトルとの内積を計算し、次式のようにそのカ
テゴリーとの尤度を計算する。

【００３２】Ｄ（ｌ，ｋ）＝ｈ（ｆ（ｄ（Ｘｌ，Ｖ
ｋ））−ｇ（ｄ（Ｘｌ，Ｕｋ）））ｌｓ＜ｌ＜ｌｅここで、Ｘｌは、認識すべき入力音声の１フレーム目を
開始点とする時系列パターンであり、ｌｓは照合開始時
刻、ｌｅは照合終了時刻である。また、関数ｄ（Ｘｌ，
Ｖｋ）はＸｌとカテゴリーｋの正参照ベクトルとの類似
度、関数ｄ（Ｘｌ，Ｕｋ）はＸｌとカテゴリーｋの反参
照ベクトルとの類似度である。

【００３３】例えば、関数ｄによって求まる正参照ベク
トルへの類似度は各正参照ベクトルへの出力の最大値関
数、反参照ベクトルへの類似度は反参照ベクトルの出力
の最大値関数でそれぞれ構成できる。

【００３４】ｆは入力と各正参照ベクトル群とそのカテ
ゴリーへの尤度を求める関数、ｇは入力と各反参照ベク
トル群とそのカテゴリーへの反尤度を求める関数、例え
ばｍａｘである。

【００３５】ｈは、対象区間ｌｓからｌｅ間で走査した
ときの最適位置決め関数である。この関数としては、同
様にｍａｘが考えられる。

【００３６】図６は、実際の各参照ベクトルとの距離を
示す。対象とする音素のイベント位置になると正参照ベ
クトルとの類似度が増大し、反参照ベクトルとの類似度
が減少する。

【００３７】離散単語認識の場合は、認識対象語彙の音
素列に対応する音素イベントニューラルネットワークを
連結しそれぞれのネットワークが時間拘束を考慮しなが
ら時間軸を走査して最大値を求めた後、単語検出ニュー
ラルネットワークで重みつきの和を求め認識結果を得
る。単語検出ニューラルネットワークの構造は図４に示
されている。その認識対象単語において信頼できる音素
イベントに重みがかかるように学習される。

【００３８】次に音素イベントニューラルネットワーク
の学習について説明する。

【００３９】まず、各音素イベントニューラルネットワ
ークは、一定量のラベル付けを行なった音声データベー
スから初期学習を行なう。

【００４０】音素毎に特徴点を人間が指示してその部位
の学習を行なう。学習は先に述べたＬＶＱ学習とする。

【００４１】次に、図７に示すように、この音素イベン
トニューラルネットワークを用いて学習単語を認識す
る。認識を行なったときに各音素イベントニューラルネ
ットワークが時間軸上を走査して求まった音素イベント
の位置において各音素イベントニューラルネットワーク
の再学習を行ない最適化を行なう。これを最適化学習と
呼ぶ。

【００４２】次に、この音素イベントニューラルネット
ワークを用いて単語検出ニューラルネットワークの学習
を行なう。単語検出ニューラルネットワークは、本実施
例では各音素イベントニューラルネットワークの和とし
て構成しているが、ＬＶＱ型の参照ベクトルの集合によ
り構成し、学習単語のデータを用いて学習してもよい。
これは、対象単語内での各音素イベントニューラルネッ
トワークの出力のパターンを記憶する働きを持つ。

【００４３】上記各処理手順を、図８〜図１４を参照し
て説明する。

【００４４】図８は、初期学習の動作を示すフローチャ
ートである。

【００４５】まず、初期設定を行ない（ステップＳ
１）、ニューラルネットに用いる学習データをあらかじ
め付与されている音素ラベル情報で分類し音声の特徴パ
ラメータ系列を求める（ステップＳ２）。上記ステップ
Ｓ２の処理については、図９を参照して後述する。ラベ
ル毎に分類され分析された学習データのパラメータ系列
を用いてＬＶＱ型ニューラルネットの正反参照ベクトル
の学習を行なう（ステップＳ３〜Ｓ７）。この学習をあ
らかじめ決められた繰り返し終了条件（一定の回数など
を満たすなど）まで繰り返す。

【００４６】学習では、学習データの提示順序により学
習が偏らないように学習データの提示順序を音素ラベル
を乱数により決定した後（ステップＳ４）、その学習デ
ータを読み込み（ステップＳ６）、正反参照ベクトルの
学習を行なう（ステップＳ７）。この学習をステップＳ
５のループで全ての学習データに対して行なう。上記ス
テップＳ７の正反参照ベクトルの学習については、図１
０を参照して後述する。

【００４７】上記ステップＳ３で一定の条件を満たすま
で繰り返しが行なわれて学習された参照ベクトルと音素
平均長を格納して（ステップＳ８）、処理を終了する。

【００４８】次に、図９を用いて上記ステップＳ２の処
理を説明する。

【００４９】初期設定を行なった後（ステップＳ２０
１）、ラベルファイルを指定した後（ステップＳ２０
２）、ラベルファイルの読み込みを行なう（ステップＳ
２０３）。次に、ラベルファイル内の最初の音素を指定
し（ステップＳ２０４）、更に学習音素を指定した後
（ステップＳ２０５）、上記ステップＳ２０３で読み込
まれた学習データのラベルと現在の学習音素の比較を行
なう（ステップＳ２０６）。比較の結果、同一の音素で
あった場合（ステップＳ２０７）、そのラベルファイル
の音素位置に相当する音声データのパラメータを読み込
み（ステップＳ２０８）、ラベル情報を基にあらかじめ
与えた位置を決定し（ステップＳ２０９）、学習データ
バッファに格納する（ステップＳ２１０）。

【００５０】上述した処理を上記ステップＳ２０４で一
つのラベルファイル内の全ての音素に対して行なう。更
に、上記ステップＳ２０２で上記ステップＳ２０３以降
の処理を全てのラベルファイルに対して行なう。

【００５１】次に、図１０を参照して、図８のステップ
Ｓ７の正反参照ベクトルの学習について説明する。

【００５２】まず、音素の学習順によって影響されない
ように、乱数により音素の学習順を決定する（ステップ
Ｓ７０１）。次に、学習音素を指定して学習データ音素
ラベルと学習音素との比較を行なう（ステップＳ７０
３）。もし一致するときは（ステップＳ７０４）、正参
照ベクトルの学習を行なう（ステップＳ７０５）。ここ
で、入力ベクトルをＸｌとすると、正参照ベクトルＶｋ
ｉと反参照ベクトルＵｋｊは次のようになる。

【００５３】Ｖｋｉ＝Ｖｋｉ＋α（Ｘｌ−Ｖｋｉ）Ｕｋｊ＝Ｕｋｊ−α（Ｘｌ−Ｕｋｊ）また、上記ステップＳ７０４で一致しない場合は、反参
照ベクトルの学習を行なう（ステップＳ７０６）。ここ
で、入力ベクトルをＸｌとすると、正参照ベクトルＶｋ
ｉと反参照ベクトルＵｋｊは次のようになる。

【００５４】Ｖｋｉ＝Ｖｋｉ−α（Ｘｌ−Ｖｋｉ）Ｕｋｊ＝Ｕｋｊ＋α（Ｘｌ−Ｕｋｊ）次に、図１１を参照して、図４のＬＶＱ型ニューラルネ
ットの認識部である出力層における処理を説明する。

【００５５】まず、初期設定を行なった後（ステップＴ
１）、全音素のユニット重み、即ち正反参照ベクトルを
読み込み（ステップＴ２）、認識対象の単語の音素列か
ら構成される単語辞書を読み込み（ステップＴ３）、入
力音声を１フレーム読み込み（ステップＴ４）、音声検
出済みフラグをチェックして（ステップＴ５）、確認済
みの場合には処理を終了し、未検出の場合には、入力音
声の分析とノルムの計算、正規化を行なう（ステップＴ
６）。ステップＴ７からのループでは、順に各音素の参
照ベクトルとの照合を行なうと同時に単語検出の確認を
行なう。各音素の参照ベクトルとの尤度を求め発火閾値
との比較を行ない（ステップＴ８）、発火していなけれ
ば（ステップＴ９）、次の音素との照合に移る。他方、
上記ステップＴ９で発火閾値を越えている場合には、発
火時刻、発火レベルを適当な大きさを持った先入れ先出
し（ＦＩＦＯ）メモリに格納する（ステップＴ１０）。
この発火に対して単語辞書を確認し、どれかの単語の終
端音素でない場合（ステップＴ１１）、次の音素の照合
に移り、終端音素の場合、単語ネットの出力確認を行な
う（ステップＴ１２）。

【００５６】次に、図１２を参照して、図１１のステッ
プＴ１２における単語ネット出力確認処理を説明する。

【００５７】初期設定を行なった後（ステップＴ１０
１）、認識対象単語全体との照合処理をステップＴ１０
２〜ステップＴ１０７のループで行なう。

【００５８】まず、１つの認識単語を指定し（ステップ
Ｔ１０２）、その単語の終端音素が発火しているかを確
認し（ステップＴ１０３）、発火していない場合、次の
単語との照合を行なう。発火している場合、終端音素の
発火している時刻から時間逆向きに辞書の音素が発火し
ている時刻を調べ、各発火時点が継続長による許容範囲
に入っているかを調べる（ステップＴ１０５，Ｔ１０
６）。継続長による許容範囲は、例えば音素の平均継続
長の０．７５倍〜１．５倍を満たしていれば良いとする
が、学習データから学習することも可能である。

【００５９】許容範囲にはいっている場合、その音素の
発火値ＰをＯｗに加算して次の辞書中の音素を調べる
（ステップＴ１０７）。上記ステップＴ１０２で全単語
との照合が終了すると、各単語に対する尤度をソートし
単語検出フラグをオン（ＯＮ）し（ステップＴ１０
８）、上位Ｍ個の結果を出力する（ステップＴ１０
９）。

【００６０】次に、図１３を参照して、図４のＬＶＱ型
ニューラルネットの最適化学習について説明する。

【００６１】最適化学習は、認識のアルゴリズムに応じ
た最適な学習を行なうための処理であり認識性能改善に
大きな効果がある。

【００６２】まず、初期設定を行なった後（ステップＶ
１）、初期学習済みの全音素のユニット重み、即ち参照
ベクトルを読み込み（ステップＶ２）、認識対象となる
単語の音素列を読み込む（ステップＶ３）。最適化学習
はステップＶ４であらかじめ決められた繰り返し条件、
例えば一定の繰り返し数などに達するまでの繰り返しを
行なう。

【００６３】更に、ステップＶ５のループでは学習単語
全体に対し各音素の参照ベクトルの更新を行なう。

【００６４】まず、一つの学習単語を指定しそのデータ
をその単語に対応して音素を連結し認識処理を行なう
（ステップＶ６）。これにより、認識処理で決定される
各音素イベント位置が求まる。この結果求まった単語ネ
ットの出力値が閾値以下の場合には学習しないように判
断を行なう（ステップＶ７）。これは、あまりに精度が
悪い単語に対しては学習に使用しないようにするもの
で、学習が進むにつれて閾値を上回るので最終的には全
単語が学習に使われるように設定される。学習速度を改
善する効果がある。上記ステップＶ７で閾値を越えてい
た単語に対しては、単語Ｗの最適化学習を行なう（ステ
ップＶ８）。この処理を全単語に対して行ない全音素の
参照ベクトルの更新を行なって、さらに繰り返しを行な
うことで認識部と学習部の最適化がはかれる。一定の学
習が終了するとユニット重み、即ち参照ベクトル、音素
平均長が格納されて（ステップＶ９）、処理を終了す
る。

【００６５】次に、図１４を参照して、図１３のステッ
プＶ８である単語Ｗの最適化学習方法について説明す
る。

【００６６】初期設定を行なった後（ステップＶ８０
１）、ステップＶ８０２〜ステップＶ８０８のループで
は学習対象となっている単語内の音素の順に学習する。

【００６７】まず、語頭から順に音素を指定してその音
素の発火位置を読み込む（ステップＶ８０３）。ステッ
プＶ８０４からのループでは、全ての音素を順に参照し
て正参照ベクトルと反参照ベクトルの学習を行なう。

【００６８】まず、最初の学習音素を指定して認識デー
タ音素と学習音素との比較を行ない（ステップＶ８０
６）。上記ステップＶ８０６で一致している場合には正
参照ベクトルの学習を行ない（ステップＶ８０７）、一
致していない場合には反参照ベクトルの学習を行なう
（ステップＶ８０８）。ここでの正反参照ベクトルの学
習は、図１０のステップＳ７０５、Ｓ７０６におけるも
のと同一である。上記ステップＶ８０２で単語中に含ま
れる全音素の学習を終了した後処理を終了する。

【００６９】連続音声認識やワードスポッティングの場
合は、連続照合が必要になるがこれは各音素検出ニュー
ラルネットの出力を基に、図１５に示すように、連続動
的計画法（連続ＤＰ）マッチングなどを用いて各時刻を
終点と仮説して、そのときの単語全体の尤度がある閾値
を越えて最大になる点をもって検出できたとする。この
場合、各音素イベントニューラルネットはそれぞれある
一定の閾値以上の尤度がないと対象にしないことにすれ
ば、連続ＤＰの演算量を減らすことができる。

【００７０】音声の特徴は、時間系列上で音声の特徴と
なる音声イベントが位置的に変動しながら発生する形態
となっており、認識単位とする音素など全体を対象にす
ることはかえって不要な部分を含める場合がある。従っ
て、この音声イベント部分の特徴をニューラルネットワ
ークにより学習し、時間上で走査して音声系列を求め
て、認識単位となる音響パラメータ全ての時間を対象と
して認識することにより、メモリ量、計算量、認識精度
を向上することができる。

【００７１】更に、ある一定の尤度より大きい出力を有
する部分しか対象にしないので、最適音素列を求める場
合に用いる動的計画法（ＤＰ）の計算量も削減すること
ができる。

【００７２】従来の方法では入力音声と標準パターン
（モデル）との一致を距離や類似度のみで測定していた
が、本発明の音声認識装置では、類似度を測定する正参
照ベクトルとの距離に加えて相違度を求めるための反参
照ベクトルを学習しておき、この両者から本来の尤度を
計算することにより精度よく識別できる。また、音声イ
ベントのニューラルネットの学習法として目視などによ
り求めたラベル情報を基に初期学習を行ない、これを連
結して学習単語のモデルを構成し、学習単語を認識した
後、各音声イベントニューラルネットが検出した音声イ
ベントの位置で音声イベントニューラルネットを再学習
最適化することにより、認識すべき音声イベントに最も
適したニューラルネットを構成する。

【００７３】

【発明の効果】本発明の音声認識装置は、入力音声の特
徴的な部位を抽出する複数の音声イベント検出手段と、
複数の音声イベント検出手段の出力に基づいて単語の尤
度を求める単語検出手段とを備えており、入力音声に対
して認識対象単語の特徴に応じて連結された音声イベン
ト検出手段を時間軸上にそれぞれ独立に走査して各音声
イベント検出手段及び単語検出手段の出力に基づいて入
力音声を認識するので、任意の単語を効率よくかつ高い
精度で認識できる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。

【図２】音声及び音声イベントの説明図である。

【図３】層状ニューラルネットワークの一構成例を示す
説明図である。

【図４】ＬＶＱ型ニューラルネットワークの一構成例を
示す説明図である。

【図５】参照ベクトルの配置の説明図である。

【図６】各音素イベントニューラルネットの出力の説明
図である。

【図７】最適化学習位置の説明図である。

【図８】初期学習を説明するためのフローチャートであ
る。

【図９】初期学習を説明するためのフローチャートであ
る。

【図１０】初期学習を説明するためのフローチャートで
ある。

【図１１】認識部の動作を説明するためのフローチャー
トである。

【図１２】認識部の動作を説明するためのフローチャー
トである。

【図１３】最適化学習を説明するためのフローチャート
である。

【図１４】最適化学習を説明するためのフローチャート
である。

【図１５】ワードスポッティング応用の説明図である。

【符号の説明】

１１マイクロホン１２Ａ／Ｄ変換器１３マイクロプロセッサ１４ＲＯＭ１５ＲＡＭ１６外部インタフェース

───────────────────────────────────────────────────── フロントページの続き (72)発明者濱口清治大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声の特徴的な部位を抽出する複数
の音声イベント検出手段と、該複数の音声イベント検出
手段の出力に基づいて単語の尤度を求める単語検出手段
とを備えており、該入力音声に対して認識対象単語の特
徴に応じて連結された該音声イベント検出手段を時間軸
上にそれぞれ独立に走査して各該音声イベント検出手段
及び該単語検出手段の出力に基づいて該入力音声を認識
することを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置であっ
て、前記入力音声の特徴的な部位に対応する正参照ベク
トルと当該特徴的な部位に対応しない反参照ベクトルと
の尤度に基づいて前記入力音声を認識することを特徴と
する音声認識装置。
【請求項３】請求項２に記載の音声認識装置であっ
て、特定の音素を対象とする前記音声イベント検出手段
の学習を行なうときに、該当する音素と同じ音素の学習
データに対して前記正参照ベクトルを学習データに近付
くように修正し、該当する音素と異なる音素の学習デー
タに対して前記反参照ベクトルを近付けるように修正す
ることを特徴とする音声認識装置。
【請求項４】請求項２に記載の音声認識装置であっ
て、特定の音素を対象とする前記音声イベント検出手段
の学習を行なうときに、該当する音素と同じ音素の学習
データに対しては前記正参照ベクトルを学習データに近
付くようにかつ前記反参照ベクトルを遠ざけるように修
正し、該当する音素と異なる音素の学習データに対して
は前記正参照ベクトルを学習データから遠ざけるように
かつ前記反参照ベクトルを近付けるように修正すること
を特徴とする音声認識装置。
【請求項５】請求項２に記載の音声認識装置であっ
て、前記正参照ベクトル及び前記反参照ベクトルで構成
された参照ベクトルの出力の最大値から該反参照ベクト
ルの出力の最大値を減じることにより前記音声イベント
検出手段の出力を求めることを特徴とする音声認識装
置。
【請求項６】請求項２に記載の音声認識装置であっ
て、認識すべき音声を含む音響信号に対し各前記音声イ
ベント検出手段を走査し各時刻において単語照合の終端
を仮定して前記単語検出手段からの出力を求めて当該出
力の時系列の極大値に基づいて該当する単語を検出して
連続的に認識を行なうことを特徴とする音声認識装置。