JP3009962B2

JP3009962B2 - 音声認識装置

Info

Publication number: JP3009962B2
Application number: JP4049608A
Authority: JP
Inventors: 憲治坂本; 徹上田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1992-03-06
Filing date: 1992-03-06
Publication date: 2000-02-14
Anticipated expiration: 2015-02-14
Also published as: JPH05249997A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた音声認識技術に関する。

【０００２】

【従来の技術】従来の音声認識方式には、次のような方
法がある。一つの方法は、入力音声を音響分析し、各フ
レーム毎に特徴ベクトルを抽出し、抽出した特徴ベクト
ルの時系列を２次元パターンとしてニューラルネットワ
ークの入力層に入力して、入力音声を識別できるような
教師信号を出力層に与え、多層パーセプトロン型ニュー
ラルネットワークを利用した誤差逆伝播法（バックプロ
パゲーション法）により各結合の重み係数を求める演算
を行って、最適な重み係数を求める。前記重み係数が決
定したニューラルネットワークに未知の入力音声の特徴
量を入力し、出力層の出力値に応じて入力音声を識別す
る方法である。

【０００３】もう一つの方法は、入力音声の特徴ベクト
ル系列のうち代表的な特徴ベクトルを、クラスタリング
等の手法を用いて選出し、選出された特徴ベクトルを標
準パターンとして記憶しておき、未知の入力音声の特徴
ベクトル系列との間でＤＰマッチング等で時間軸方向の
補正を行いながら、両方のパターン間の距離を計算し、
最も近い標準パターンの音声を認識結果とする方法であ
る。

【０００４】

【発明が解決しようとする課題】従来のニューラルネッ
トワークを用いた音声認識装置は、話者及び発声の変化
により音声の各音韻の継続時間長が変化し、ニューラル
ネットワークの入力層に入力される特徴量が著しく変化
してしまうため安定して重み係数を求めることができ
ず、高い認識性能を出すことができなかった。前記問題
点を解決するために、入力層のユニット数に適合するよ
う特徴量の時間軸を伸縮する方法が考えられる。

【０００５】前記手法において、入力音声の特徴ベクト
ルを圧縮する際、音声の識別に必要となる情報を欠落さ
せてしまうと共に、単語中の各音韻の局所的な継続時間
のずれは依然として吸収できないという問題点が残る。

【０００６】また、標準パターンとして、特徴ベクトル
の時系列をもっておき、時間軸の非線形な伸縮を正規化
して、入力パターンと標準パターンとの距離を計算する
ＤＰマッチングの手法は計算量が多く、処理に時間が掛
かってしまう。さらに、不特定話者に対応するためには
標準パターンを複数個持つことが考えられるが、最適な
標準パターンの作成方法は難しい。

【０００７】

【課題を解決するための手段】そこで、上記問題点を解
決するために、本発明は、音声を音響分析して得られた
特徴量を入力する入力部と、入力部に入力するデータを
選択的に制御する入力制御部と、認識対象語彙のうちあ
る特定の部分音韻系列との類似度を算出する音韻演算部
と前記音韻演算部の結果を出力する出力部と（以下、こ
れらを合わせてイベントネットと言う）を、上記特定の
単語を構成する部分音韻系列をすべて含むように複数個
備え、前記イベントネットの出力を入力とする語彙演算
部を備え、入力音声をフレーム毎に音響分析して得られ
た特徴量をイベントネットの入力部に入力する際、前記
入力制御部は、イベントネットの出力部の出力値に応じ
て入力部に入力するデータを選択的に制御し、前記語彙
演算部の出力値に応じて認識結果を出力すると共に、前
記各イベントネット、各ワードネット及びスーパーネッ
トのニューラルネットワークの学習を制御する学習制御
部を備え、認識結果が誤りである場合に、各イベントネ
ットが入力した特徴量に対して、所定の手法で、誤りが
減少するよう学習する機能を有することを特徴とする。

【０００８】

【０００９】

【作用】本発明の音声認識装置によれば、各イベントネ
ットが特定の単語の部分音韻系列との類似度を出力する
ように学習されており、入力音声の特徴量に対して時間
方向に移動しながら最適な位置を検出し、最も類似度が
高くなるように時間軸の補正が行われるため、入力音声
を正確に識別し得る。

【００１０】

【実施例】次に図面を参照して本発明を詳細に説明す
る。図１は、特許請求の範囲の請求項１による音声認識
装置の一実施例である。図１において、音響分析部１０
に音声が入力される。音響分析部１０では、音声波形を
フレーム毎にＬＰＣ分析し、１２次のケプストラム係数
と短時間パワーを出力する。本実施例では、フレーム周
期２０ｍｓ、分析窓長３０ｍｓとしている。

【００１１】前記１２次のケプストラム係数と短時間パ
ワーを特徴量又は特徴ベクトルと呼ぶ。入力制御部１１
１は、出力部１１５の出力値に応じて入力すべきフレー
ム位置を決定する。入力部１１２は、入力制御部１１１
で決定されたフレーム位置の特徴量を複数フレーム分入
力する。

【００１２】本実施例では、そのフレーム数を５フレー
ムとしている。重み係数格納部１１３は、あらかじめ学
習により得られたニューラルネットの重み係数を格納し
ている。音韻演算部１１４は、重み係数格納部１１３に
格納されている重み係数を用いて、入力された特徴量と
の演算をし、認識対象単語のうち特定の単語の音韻系列
との類似度を出力する。音韻演算部１１４は、例えば、
図１９に示すような２層のニューラルネットワークであ
る。これを、イベントネットと呼ぶ。

【００１３】入力ユニット数は、入力特徴量の次元数、
すなわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニットは５個である。出力部１１５は、前記
ニューラルネットワークの各出力ユニットの最大値を出
力する。

【００１４】以上は、１つのイベントネットについての
説明であったが、イベントネットは、各認識対象毎に、
特定の単語の部分音韻系列をすべて含むように複数個あ
り、本実施例では、すべての単語について５個のイベン
トネットがあるとする。また、認識対象語彙数を２８単
語としているので、イベントネットは、全部で５×２８
＝１４０個あることになる。

【００１５】音声が入力され、各イベントネットの出力
値が計算されると、その出力値が語彙演算部１６２に入
力される。語彙演算部１６２は、重み係数格納部１６１
に格納されている重み係数を用いてニューラルネットワ
ークの演算を行い、出力を得る。語彙演算部１６２と重
み係数格納部１６１から構成されるニューラルネットワ
ークは、図２１に示すような３層のニューラルネットワ
ークである。入力ユニット数は１４０個、中間ユニット
数は５６個、出力ユニット数は２８個である。中間層３
２及び出力層３３に示されている各ユニットは、入力の
総和をシグモイド関数により変換し出力を得る。ここ
で、重み係数は既に学習済みものである。判定部１６３
は、語彙演算部１６２の各出力ユニットの出力値に応じ
て認識結果を出力する。

【００１６】以下に、イベントネットの出力の算出方法
について詳細に述べる。イベントネットのネットワーク
構成を図１９に示す。ユニット群１１が入力層、ユニッ
ト群１２が出力層である。入力層１１と出力層１２の間
の結線が重み係数を表している。入力特徴ベクトル
は、イベントネットの入力層に入力される毎に、ベクト
ルの長さが１になるよう正規化が行われる。すなわち、
特徴ベクトルの第ｉ番目の要素をｕ_i とすると、

【００１７】

【数１】

【００１８】により、正規化された特徴ベクトルｘ_i を
求める。すなわち、これが実際イベントネットの入力層
の各ユニットに入力される値である。いま、第ｊ番目の
出力ユニットの出力値をｙ_j とし、第ｉ番目の入力ユニ
ットと第ｊ番目の出力ユニットとの間の重み係数をｗ_j
_i とすると、出力値ｙ_j は、

【００１９】

【数２】

【００２０】で求められる。出力部では、この出力値ｙ
_j のうち最大値をイベントネットの出力として入力制御
部へ出力する。

【００２１】次に、入力制御部における入力フレーム決
定処理と各イベントネットの最大類似度の算出方法につ
いて詳細に述べる。

【００２２】図１７（ａ）は、ある単語Ｗの第１番目の
イベントネットの各フレームにおける出力値を示してい
る。以下同様に、図１７（ｂ）〜（ｅ）は、第２番目〜
第５番目のイベントネットの各フレームにおける出力値
を示している。この図において、縦軸は出力値、横軸は
時間（フレーム）を表している。また、太い実線で描か
れているのがフレーム毎のイベントネットの出力値であ
る。まず、図１７（ａ）において、入力音声の語頭を仮
定する。以下、この語頭は、すべてのイベントネットの
出力を求める毎に１フレームずつ右（次のフレーム）に
シフトされ、すべてのフレームを語頭と仮定した、いわ
ゆるワードスポッティング処理になる。語頭の時刻をｔ
_s ₁ とする。第１番目のイベントネットの出力値を、時
間ｔｒの間、１フレーム毎に求める。この範囲を探索範
囲と呼ぶ。tｔｒ、多数話者の発声する単語の平均長か
らあらかじめ決められる値で、各イベントネットを当間
隔に配置するという意味で、ｔｒ＝（単語の平均長）／
（１単語当たりのイベントネットの数−１）で求められ
る。次に、イベントネットの最大類似度の決定方法であ
るが、以下の規則（１）〜（３）に従う。

【００２３】規則（１）：探索範囲内の出力値がθ_h を
越えた場合で、そのフレーム数が５フレーム以上ある場
合は、探索範囲の中心が選択される。

【００２４】規則（２）：探索範囲内の出力値がθ_l を
越えなかった場合は、探索範囲の中心が選択される。

【００２５】規則（３）：その他の場合は、探索範囲内
の最大値が選択される。

【００２６】θ_h 及びθ_l は、長母音に対する処置と極
端なマッチングを防ぐための閾値であり、本実施例で
は、それぞれ、０．８，０．４としている。なお、出力
値（類似度）の最大値は１である。

【００２７】最大類似度を算出するのと同時に、次のイ
ベントネットの探索範囲の開始時刻が決定される。すな
わち、上記で選択されたフレームが次のイベントネット
の探索範囲の開始時刻になる。図１７では、以下のよう
になる。図１７（ａ）において、規則（３）より、選択
されたフレームがｔ_c ₁ であり、その時の出力値Ｅ₁が
第１番目のイベントネットの出力値（最大類似度）とな
る。

【００２８】図１７（ｂ）において、規則（３）より、
選択されたフレームがｔ_c ₂ であり、その時の出力値Ｅ
₂ が第２番目のイベントネットの出力値となる。図１７
（ｃ）において、規則（１）より、選択されたフレーム
がｔ_c ₃ であり、その時の出力値Ｅ₃ が第３番目のイベ
ントネットの出力値となる。図１７（ｄ）において、規
則（２）より、選択されたフレームがｔ_c ₄ であり、そ
の時の出力値Ｅ₄ が第４番目のイベントネットの出力値
となる。図１７（ｅ）において、規則（３）より、選択
されたフレームがｔ_c ₅ であり、その時の出力値Ｅ₅ が
第５番目のイベントネットの出力値となる。

【００２９】次に、判定部における判定方法について詳
細に述べる。図１８において、（ａ）、（ｂ），（ｃ）
は、それぞれの単語に対応するユニットの出力値（太い
実線）を示している。縦軸が出力値を示し、横軸が時間
（フレーム）を示している。語頭を各フレーム毎にシフ
トして得られるユニットの出力値のうち、初めてθ_sを
越えた時刻からｔ_i _n _t 後までの間の各ユニットの最大
値を求める。

【００３０】ｔ_i _n _t は、部分マッチングの防止や処理
時間の削減等で決められる数値であるが、本実施例で
は、ｔ_i _n _t ＝２４（フレーム）としている。図１８
（ａ）において、時刻ｔ_s で第１番目のユニットの出力
値がθ_s を越えた。したがって、各ユニットについて、
時刻ｔ_e （＝ｔ_s ＋ｔ_i _n _t ）までの間で最大値を求
め、それぞれ、ｍａｘ₁ ，．．，ｍａｘ_i ，．．，ｍａ
ｘ₂ ₈ と求まる。このうち、最大値を出力したユニット
に対応する単語を認識結果とする。図１８の場合、ｍａ
ｘ₁ が最大値となっているので、第１番目の単語が認識
結果として出力される。

【００３１】図２は、特許請求の範囲の請求項２による
音声認識装置の一実施例である。図２において、特許請
求の範囲の請求項１の実施例で説明したイベントネット
の各出力は、重み係数格納部２６１と演算部２６２から
構成されるニューラルネットワークに入力される。これ
をワードネットと呼ぶ。ワードネットは、図２０に示す
ように３層のニューラルネットワークである。

【００３２】中間層２２及び出力層２３の各ユニット
は、入力の総和をシグモイド関数により変換し、出力す
る。入力層２１のユニット数は、１単語当たりのイベン
トネット数（本実施例では、５個）、中間層２２のユニ
ット数は５個、出力層２３のユニット数は１個である。
重み係数は、既に学習済みのものである。なお、ワード
ネットは、認識対象単語毎あり、合計２８個ある。判定
部２７１では、特許請求の範囲の請求項１の実施例で説
明したのと同様の手法でもって、各ワードネットの出力
値を判定し、認識結果を出力する。

【００３３】図３は、特許請求の範囲の請求項３による
音声認識装置の一実施例である。図３において、特許請
求の範囲の請求項２の実施例で説明したワードネットの
各出力は、重み係数格納部３７１と語彙演算部３７２か
ら構成されるニューラルネットワークに入力される。語
彙演算部３７２は、図２１に示すように３層のニューラ
ルネットワークである。これを、スーパーネットと呼
ぶ。

【００３４】中間層３２及び出力層３３の各ユニット
は、入力の総和をシグモイド関数により変換し、出力す
る。入力層３１のユニット数は２８個、中間層３２のユ
ニット数は２８個、出力層３３のユニット数は２８個で
ある。重み係数は、既に学習済みのものである。語彙演
算部３７２では、各ワードネットの出力を入力し、重み
係数格納部３７１に格納されている重み係数を用いてニ
ューラルネットワークの演算を行い、出力を得る。判定
部３７３では、スーパーネットの出力で最大出力を出力
しているユニットに対応した単語を認識結果として出力
する。

【００３５】図４は、特許請求の範囲の請求項４による
音声認識装置の一実施例である。図４において、入力部
４１２は、入力制御部４１１で指定されたフレーム位置
の特徴量を入力する。音韻演算部４１４は、重み係数格
納部４１３に格納されている重み係数と入力部より入力
した特徴量から特定の音韻系列との類似度を出力する。
音韻演算部４１４は、図１９に示すような２層のニュー
ラルネットワークである。これを、イベントネットと呼
ぶ。

【００３６】入力ユニット数は入力特徴量の次元数、す
なわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニット数は５個である。出力部４１５では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。単語演算部４６２では、各イベントネットの
出力を入力し、重み係数格納部４６１に格納されている
重み係数を用いてニューラルネットワークの演算を行
う。単語演算部４６２は、図２０に示すような３層のニ
ューラルネットワークである。これを、ワードネットと
呼ぶ。

【００３７】ワードネットの中間層２２及び出力層２３
の各ユニットは、入力の総和をシグモイド関数により変
換し、出力する。入力ユニット数は５個、中間ユニット
数は５個、出力ユニット数は１個である。入力制御部４
１１は、単語演算部４６２の出力値に応じて、特許請求
の範囲の請求項１の実施例で説明したのと同様の手法で
もって、各イベントネットの入力フレームの決定を行
う。単語出力部４７１は、単語演算部４６２の最大出力
値を語彙演算部４８２に出力する。語彙演算部４８２
は、各単語出力部の出力を入力として、重み係数格納部
４８１に格納されている重み係数を用いてニューラルネ
ットワークの演算を行う。語彙演算部４８２は、図２１
に示すような３層のニューラルネットワークである。こ
れを、スーパーネットと呼ぶ。

【００３８】スーパーネットの中間層３２及び出力層３
３の各ユニットは、入力の総和をシグモイド関数により
変換し、出力する。入力ユニット数は２８個、中間ユニ
ット数は２８個、出力ユニット数は２８個である。判定
部４８３では、スーパーネットの各出力ユニットに出力
される出力値を、特許請求の範囲の請求項１で説明した
のと同様の手法で判定し、認識結果を出力する。

【００３９】図５は、特許請求の範囲の請求項５による
音声認識装置の一実施例である。図５において、入力部
５１２は、入力制御部５１１で指定されたフレーム位置
の特徴量を入力する。音韻演算部５１４は、重み係数格
納部５１３に格納されている重み係数と入力部より入力
した特徴量から特定の音韻系列との類似度を出力する。
音韻演算部５１４は、図１９に示すような２層のニュー
ラルネットワークである。これを、イベントネットと呼
ぶ。

【００４０】入力ユニット数は入力特徴量の次元数、す
なわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニット数は５個である。出力部５１５では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。単語演算部５６２では、各イベントネットの
出力を入力し、重み係数格納部５６１に格納されている
重み係数を用いてニューラルネットワークの演算を行
う。単語演算部６２は、図２０に示すような３層のニュ
ーラルネットワークである。これを、ワードネットと呼
ぶ。

【００４１】入力ユニット数は５個、中間ユニット数は
５個、出力ユニット数は１個である。語彙演算部５７２
は、各単語演算部の出力を入力として、重み係数格納部
５７１に格納されている重み係数を用いてニューラルネ
ットワークの演算を行う。語彙演算部５７２は、図２１
に示すような３層のニューラルネットワークである。こ
れを、スーパーネットと呼ぶ。

【００４２】入力ユニット数は２８個、中間ユニット数
は２８個、出力ユニット数は２８個である。入力制御部
５１１は、スーパーネットの各対応するユニットの出力
値に応じて、特許請求の範囲の請求項１の実施例で説明
したのと同様の手法でもって、各イベントネットの入力
フレームの決定を行う。判定部５７３では、スーパーネ
ットの各出力ユニットに出力される出力値を、特許請求
の範囲の請求項１で説明したのと同様の手法で判定し、
認識結果を出力する。

【００４３】図６は、特許請求の範囲の請求項６による
音声認識装置の第１の一実施例である。図６において、
入力部６１２は、入力制御部６１１で指定されたフレー
ム位置の特徴量を入力する。音韻演算部６１４は、重み
係数格納部６１３に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部６１４は、図１９に示すような２層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。

【００４４】入力ユニット数は入力特徴量の次元数、す
なわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニット数は５個である。出力部６１５では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。入力制御部６１１は、出力部６１５の出力値
に応じて、特許請求の範囲の請求項１の実施例で説明し
たのと同様の手法でもって、各イベントネットの入力フ
レームの決定を行う。語彙演算部６６２では、各イベン
トネットの出力を入力し、重み係数格納部６６１に格納
されている重み係数を用いてニューラルネットワークの
演算を行う。語彙演算部６６２は、図２１に示すような
３層のニューラルネットワークである。これを、スーパ
ーネットと呼ぶ。

【００４５】入力ユニット数は１４０個、中間ユニット
数は５６個、出力ユニット数は２８個である。判定部６
６３では、スーパーネットの出力ユニットに各出力され
る出力値を、特許請求の範囲の請求項１で説明したのと
同様の手法で判定し、認識結果を出力する。ここで、前
記認識結果が誤りである場合、各イベントネットの学習
制御部を起動し、認識結果の誤りが減少するように、各
重み係数の変更を行う。

【００４６】以下に、イベントネットの学習手順につい
て詳細に述べる。いま、入力された単語をＷ_i （第ｉ番
目の単語）、認識された単語をＷ_j （ｊ≠ｉ，第ｊ番目
の単語）とする。単語Ｗ_j の各イベントネットにおい
て、認識時に各イベントネットが選択した入力データに
対して、各イベントネットの出力値が小さくなるよう
に、各重み係数の変更を行う。このときの学習則は、Ｌ
ＶＱに従う。同様に、単語W_iの各イベントネットにおい
て、認識時に各イベントネットが選択した入力データに
対して、各イベントネットの出力値が大きくなるよう
に、各重み係数の変更を行う。このときの学習則は、Ｌ
ＶＱに従う。学習された重み係数は、各イベントネット
の重み係数格納部に格納され、次回の認識時には、これ
らが用いられる。

【００４７】図７は、特許請求の範囲の請求項６による
音声認識装置の第２の一実施例である。図７において、
入力部７１２は、入力制御部７１１で指定されたフレー
ム位置の特徴量を入力する。音韻演算部７１４は、重み
係数格納部７１３に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部７１４は、図１９に示すような２層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。

【００４８】入力ユニット数は入力特徴量の次元数、す
なわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニット数は５個である。出力部７１５では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。入力制御部７１１は、出力部７１５の出力値
に応じて、特許請求の範囲の請求項１の実施例で説明し
たのと同様の手法でもって、各イベントネットの入力フ
レームの決定を行う。単語演算部７６２では、各イベン
トネットの出力を入力し、重み係数格納部７６１に格納
されている重み係数を用いてニューラルネットワークの
演算を行う。単語演算部７６２は、図２０に示すような
３層のニューラルネットワークである。これを、ワード
ネットと呼ぶ。

【００４９】入力ユニット数は５個、中間ユニット数は
５個、出力ユニット数は１個である。判定部７７１で
は、各ワードネットの出力ユニットに出力される出力値
を、特許請求の範囲の請求項１で説明したのと同様の手
法で判定し、認識結果を出力する。ここで、前記認識結
果が誤りである場合、各イベントネットの学習制御部を
起動し、認識結果の誤りが減少するように、各重み係数
の変更を行う。学習は、特許請求の範囲の請求項６の第
１の実施例で説明したのと同様の手法で行う。

【００５０】図８は、特許請求の範囲の請求項６による
音声認識装置の第３の一実施例である。図８において、
入力部８１２は、入力制御部８１１で指定されたフレー
ム位置の特徴量を入力する。音韻演算部８１４は、重み
係数格納部８１３に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部８１４は、図１９に示すような２層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。入力ユニット数は入力特徴量の次元数、すな
わち、５（フレーム）×１３（次元）＝６５個である。
出力ユニット数は５個である。出力部８１５では、前記
出力各出力ユニットの出力値のうち最大のものが出力さ
れる。入力制御部８１１は、出力部８１５の出力値に応
じて、特許請求の範囲の請求項１の実施例で説明したの
と同様の手法でもって、各イベントネットの入力フレー
ムの決定を行う。

【００５１】単語演算部８６２では、各イベントネット
の出力を入力し、重み係数格納部８６１に格納されてい
る重み係数を用いてニューラルネットワークの演算を行
う。単語演算部８６２は、図２０に示すような３層のニ
ューラルネットワークである。これを、ワードネットと
呼ぶ。入力ユニット数は５個、中間ユニット数は５個、
出力ユニット数は１個である。語彙演算部８７２は、各
ワードネットの出力を入力として、重み係数格納部８７
１に格納されている重み係数を用いてニューラルネット
ワークの演算を行う。語彙演算部８７２は、図２１に示
すような３層のニューラルネットワークである。これ
を、スーパーネットと呼ぶ。

【００５２】入力ユニット数は２８個、中間ユニット数
は２８個、出力ユニット数は２８個である。判定部８７
３では、スーパーネットの各出力ユニットに出力される
出力値を、特許請求の範囲の請求項１で説明したのと同
様の手法で判定し、認識結果を出力する。ここで、前記
認識結果が誤りである場合、各イベントネットの学習制
御部を起動し、認識結果の誤りが減少するように、各重
み係数の変更を行う。学習は、特許請求の範囲の請求項
６の第１の実施例で説明したのと同様の手法で行う。

【００５３】図９は、特許請求の範囲の請求項６による
音声認識装置の第４の一実施例である。図９において、
入力部９１２は、入力制御部９１１で指定されたフレー
ム位置の特徴量を入力する。音韻演算部９１４は、重み
係数格納部９１３に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部９１４は、図１９に示すような２層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。

【００５４】入力ユニット数は入力特徴量の次元数、す
なわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニット数は５個である。出力部９１５では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。単語演算部９６２では、各イベントネットの
出力を入力し、重み係数格納部９６１に格納されている
重み係数を用いてニューラルネットワークの演算を行
う。単語演算部９６２は、図２０に示すような３層のニ
ューラルネットワークである。これを、ワードネットと
呼ぶ。

【００５５】入力ユニット数は５個、中間ユニット数は
５個、出力ユニット数は１個である。入力制御部９１１
は、出力部９６３の出力値に応じて、特許請求の範囲の
請求項１の実施例で説明したのと同様の手法でもって、
各イベントネットの入力フレームの決定を行う。

【００５６】語彙演算部９７２は、各ワードネットの出
力を入力として、重み係数格納部９７１に格納されてい
る重み係数を用いてニューラルネットワークの演算を行
う。語彙演算部９７２は、図２１に示すような３層のニ
ューラルネットワークである。これを、スーパーネット
と呼ぶ。入力ユニット数は２８個、中間ユニット数は２
８個、出力ユニット数は２８個である。判定部９７３で
は、スーパーネットの各出力ユニットに出力される出力
値を、特許請求の範囲の請求項１で説明したのと同様の
手法で判定し、認識結果を出力する。ここで、前記認識
結果が誤りである場合、各イベントネットの学習制御部
を起動し、認識結果の誤りが減少するように、各重み係
数の変更を行う。学習は、特許請求の範囲の請求項６の
第１の実施例で説明したのと同様の手法で行う。

【００５７】図１０は、特許請求の範囲の請求項６によ
る音声認識装置の第５の一実施例である。図１０におい
て、入力部１０１２は、入力制御部１０１１で指定され
たフレーム位置の特徴量を入力する。音韻演算部１０１
４は、重み係数格納部１０１３に格納されている重み係
数と入力部より入力した特徴量から特定の音韻系列との
類似度を出力する。音韻演算部１０１４は、図１９に示
すような２層のニューラルネットワークである。これ
を、イベントネットと呼ぶ。

【００５８】入力ユニット数は入力特徴量の次元数、す
なわち、５（フレーム）×１３（次元）＝６５個であ
る。出力ユニット数は５個である。出力部１０１５で
は、前記出力各出力ユニットの出力値のうち最大のもの
が出力される。単語演算部１０６２では、各イベントネ
ットの出力を入力し、重み係数格納部１０６１に格納さ
れている重み係数を用いてニューラルネットワークの演
算を行う。

【００５９】単語演算部１０６２は、図２０に示すよう
な３層のニューラルネットワークである。これを、ワー
ドネットと呼ぶ。入力ユニット数は５個、中間ユニット
数は５個、出力ユニット数は１個である。語彙演算部１
０７２は、各ワードネットの出力を入力として、重み係
数格納部１０７１に格納されている重み係数を用いてニ
ューラルネットワークの演算を行う。語彙演算部１０７
２は、図２１に示すような３層のニューラルネットワー
クである。これを、スーパーネットと呼ぶ。

【００６０】入力ユニット数は２８個、中間ユニット数
は２８個、出力ユニット数は２８個である。入力制御部
１０１１は、スーパーネットの各対応するユニットの出
力値に応じて、特許請求の範囲の請求項１の実施例で説
明したのと同様の手法でもって、各イベントネットの入
力フレームの決定を行う。判定１０７３では、スーパー
ネットの各出力ユニットに出力される出力値を、特許請
求の範囲の請求項１で説明したのと同様の手法で判定
し、認識結果を出力する。ここで、前記認識結果が誤り
である場合、各イベントネットの学習制御部を起動し、
認識結果の誤りが減少するように、各重み係数の変更を
行う。学習は、特許請求の範囲の請求項６の第１の実施
例で説明したのと同様の手法で行う。

【００６１】図１１は、特許請求の範囲の請求項７によ
る音声認識装置の第１の一実施例である。図１１におい
て、単語演算部１１１２は、各イベントネットからの入
力データを入力し、重み係数格納部１１１１に格納され
ている重み係数を用いてニューラルネットワークの演算
を行う。単語演算部１１１２は、図２０に示すような３
層のニューラルネットワークである。これを、ワードネ
ットと呼ぶ。入力ユニット数は５個、中間ユニット数は
５個、出力ユニット数は１個である。判定部１１６１で
は、各単語演算部からの出力値を、特許請求の範囲の請
求項１で説明したのと同様の手法で判定し、認識結果を
出力する。ここで、前記認識結果が誤りである場合、各
ワードネットの学習制御部を起動し、認識結果の誤りが
減少するように、各重み係数の変更を行う。

【００６２】以下に、ワードネットの学習手順について
詳細に述べる。いま、入力された単語をＷ_i （第ｉ番目
の単語）、認識された単語をＷ_j （ｊ≠ｉ，第ｊ番目の
単語）とする。単語Ｗ_j のワードネットにおいて、認識
時にワードネットが選択した入力データに対して、ワー
ドネットの出力値が小さくなるように、各重み係数の変
更を行う。このときの学習則は、バックプロパゲーショ
ン法に従う。同様に、単語W_iのワードネットにおいて、
認識時にワードネットが選択した入力データに対して、
ワードネットの出力値が大きくなるように、各重み係数
の変更を行う。このときの学習則は、バックプロパゲー
ション法に従う。学習された重み係数は、各ワードネッ
の重み係数格納部に格納され、次回の認識時には、これ
らが用いられる。

【００６３】図１２は、特許請求の範囲の請求項７によ
る音声認識装置の第２の一実施例である。図１２におい
て、単語演算部１２１２は、各イベントネットからの入
力データを入力し、重み係数格納部１２１１に格納され
ている重み係数を用いてニューラルネットワークの演算
を行う。単語演算部１２１２は、図２０に示すような３
層のニューラルネットワークである。これを、ワードネ
ットと呼ぶ。

【００６４】入力ユニット数は５個、中間ユニット数は
５個、出力ユニット数は１個である。語彙演算部１２６
２は、各ワードネットの出力を入力として、重み係数格
納部１２６１に格納されている重み係数を用いてニュー
ラルネットワークの演算を行う。語彙演算部１２６２
は、図２１に示すような３層のニューラルネットワーク
である。これを、スーパーネットと呼ぶ。

【００６５】入力ユニット数は２８個、中間ユニット数
は２８個、出力ユニット数は２８個である。判定部１２
６３では、スーパーネットの各ユニットの出力値を、特
許請求の範囲の請求項１で説明したのと同様の手法で判
定し、認識結果を出力する。ここで、前記認識結果が誤
りである場合、各ワードネットの学習制御部を起動し、
認識結果の誤りが減少するように、各重み係数の変更を
行う。学習は、特許請求の範囲の請求項７の第１の実施
例で説明したのと同様の手法で行う。

【００６６】図１３は、特許請求の範囲の請求項８によ
る音声認識装置の一実施例である。図１３において、語
彙演算部１３１２は、各ワードネットの出力を入力とし
て、重み係数格納部１３１１に格納されている重み係数
を用いてニューラルネットワークの演算を行う。語彙演
算部１３１２は、図２１に示すような３層のニューラル
ネットワークである。これを、スーパーネットと呼ぶ。

【００６７】入力ユニット数は２８個、中間ユニット数
は２８個、出力ユニット数は２８個である。判定部１３
１４では、スーパーネットの各ユニットの出力値を、特
許請求の範囲の請求項２で説明したのと同様の手法で判
定し、認識結果を出力する。ここで、前記認識結果が誤
りである場合、各ワードネットの学習制御部を起動し、
認識結果の誤りが減少するように、各重み係数の変更を
行う。

【００６８】以下に、スーパーネットの学習手順につい
て詳細に述べる。いま、入力された単語をW_i（第ｉ番目
の単語）、認識された単語をW_j（ｊ≠ｉ，第ｊ番目の単
語）とする。認識時にスーパーネットが入力した入力デ
ータに対して、第ｉ番目のユニットに１を、その他のユ
ニットに０を教師信号として与え、学習を行う。このと
きの学習則は、バックプロパゲーション法に従う。学習
された重み係数は、スーパーネットの重み係数格納部に
格納され、次回の認識時には、これらが用いられる。

【００６９】図１４は、イベントネットの計算をする
際、計算量の削減を図るために行う処理の流れ図であ
る。第１４図において、まず、ｉに１をセットする（Ｓ
１）。語頭を仮定しているフレームを１フレーム右（次
のフレーム）にシフトし（Ｓ２）、特徴量を入力する
（Ｓ３）。第ｉ番目の単語の第１番目のイベントネット
の出力値を求め（Ｓ４）、あらかじめ定めた値θ_E と比
較する（Ｓ５）。

【００７０】もし、この値が値θ_E より大きかったら、
単語の始まりを検出したので、すべてのイベントネット
の出力値を求める通常の認識動作に入る（Ｓ８）。も
し、値θ_E 以下なら、次の単語の第１番目のイベントネ
ットについて、同様の操作を行う（Ｓ６，Ｓ７）。すべ
ての単語の第１番目のイベントネットの出力値が値θ_E
以下なら、最初の状態へ戻る。以上の手法により、全フ
レームに対して、音声の検出を行うと共に、音声の無い
区間に対しては、認識対象単語１単語当たり１個のイベ
ントネットの計算だけで済み計算量の削減になる。な
お、値θ_E は、音韻検出時の最低類似度と等しく、本実
施例では、θ_E ＝０．８である。

【００７１】図１５は、認識動作時の計算量削減と、認
識対象外の単語の入力を排除するための処理の流れ図で
ある。図１５において、まず、ｉを１にセットする（Ｓ
１１）。語頭を仮定しているフレームを１フレーム右
（次のフレーム）にシフトする（Ｓ１２）。前述の手法
により、第ｉ番目のワードネットの出力値を求め（Ｓ１
３）、あらかじめ定めた値θ_W と比較する（Ｓ１４）。
もし、この値が値θ_W より大きかったら、単語を検出し
たので、すべてのイベントネットの出力値を求める通常
の認識動作に入る（Ｓ１７）。もし、値θ_W 以下なら、
次の単語のワードネットについて、同様の操作を行う
（Ｓ１５，Ｓ１６）。すべての単語のワードネットの出
力値が値θ_W 以下なら、最初の状態へ戻る。以上の手
法により、全フレームに対して、音声の検出を行うと共
に、不要語や認識対象外の単語の検出を未然に防ぐこと
ができ、不用意に認識結果を出力しないようにできる。
なお、値θ_W は、単語検出時の最低類似度と等しく、本
実施例では、θ_W ＝０．８である。

【００７２】図１６は、イベントネットの学習と、ワー
ドネットの学習と、スーパーネットの学習を同時に行
い、認識率の向上を図るための処理の流れ図である。図
１６において、まず、イベントネットの学習を行う（Ｓ
２１）。学習後、認識評価を行って、そのときの誤差を
あらかじめ定めた値θ_CEと比較する（Ｓ２２）。もし、
この誤差が値θ_C _E より大きい場合、再度、イベントネ
ットの学習を行う。

【００７３】もし、誤差が値θ_C _E 以下なら、次のステ
ップに進み、ワードネットの学習を行う（Ｓ２３）。学
習後、認識評価を行って、そのときの誤差をあらかじめ
定めた値θ_C _w と比較する（Ｓ２４）。もし、この誤差
が値θ_C _w より大きい場合、再度、ワードネットの学習
を行う。もし、誤差が値θ_C _w 以下なら、次のステップ
に進み、スーパーネットの学習を行う（Ｓ２５）。学習
後、認識評価を行って、そのときの誤差をあらかじめ定
めた値θ_C _S と比較する（Ｓ２６）。もし、この誤差が
値θ_C _S より大きい場合、再度、ワードネットの学習を
行う。もし、誤差が値θ_C _S 以下なら、すべての学習を
終了する。値θ_C _E ，θ_C _W ，θ_C _S の間には、θ_C _E
＞θ_C _W ＞θ_C _S の関係がある。

【００７４】

【発明の効果】本発明の音声認識装置を用いれば、各イ
ベントネットが特定の音韻系列の検出器として働くと同
時に学習を行い、より精度の高い認識性能が自動的に得
られる。

【図面の簡単な説明】

【図１】本発明の請求項１の音声認識装置における一実
施例である。

【図２】本発明の請求項２の音声認識装置における一実
施例である。

【図３】本発明の請求項３の音声認識装置における一実
施例である。

【図４】本発明の請求項４の音声認識装置における一実
施例である。

【図５】本発明の請求項５の音声認識装置における一実
施例である。

【図６】本発明の請求項６の音声認識装置における第１
の一実施例である。

【図７】本発明の請求項６の音声認識装置における第２
の一実施例である。

【図８】本発明の請求項６の音声認識装置における第３
の一実施例である。

【図９】本発明の請求項６の音声認識装置における第４
の一実施例である。

【図１０】本発明の請求項６の音声認識装置における第
５の一実施例である。

【図１１】本発明の請求項７の音声認識装置における第
１の一実施例である。

【図１２】本発明の請求項７の音声認識装置における第
２の一実施例である。

【図１３】本発明の請求項８の音声認識装置における一
実施例である。

【図１４】イベントネットの計算手順を説明する流れ図
である。

【図１５】ワードネットの計算手順を説明する流れ図で
ある。

【図１６】学習の手順を説明する流れ図である。

【図１７】入力フレームを決定する手法を説明する図で
ある。

【図１８】認識結果を決定する手法を説明する図であ
る。

【図１９】イベントネットの構成図である。

【図２０】ワードネットの構成図である。

【図２１】スーパーネットの構成図である。

【符号の説明】

１０音響分析部１１０イベントネット１１１入力制御部１１２入力部１１３重み係数格納部１１４音韻演算部１１５出力部２６０ワードネット３７０スーパーネット

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 - 9/26 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を音響分析して得られた特徴量を多
層のニューラルネットワークの入力層の各ユニットに入
力し、出力層の各ユニットの出力値に応じて認識結果を
得る音声認識装置において、音声を音響分析して得られ
た特徴量を入力する入力部と、入力部に入力するデータ
を選択的に制御する入力制御部と、認識対象語彙のうち
ある特定の部分音韻系列との類似度を算出する音韻演算
部と前記音韻演算部のニューラルネットワークの重み係
数を格納する重み係数格納部と前記音韻演算部の結果を
出力する出力部とを、前記音韻演算部が前記特定の単語
を構成する部分音韻系列をすべてについて類似度を算出
するように複数個備え、前記各出力部の出力を入力とす
る語彙演算部と、入力音声をフレーム毎に音響分析して
得られた特徴量を前記入力部に入力する際、前記入力制
御部は、前記出力部の出力値に応じて前記入力部に入力
するデータを選択的に制御し、前記出力部の出力を入力
とする単語演算部と単語演算部のニューラルネットワー
クの重み係数を格納する重み係数格納部とを、各認識対
象単語毎に備え、前記単語演算部の出力を入力とする入
力制御部を備え、入力音声をフレーム毎に音響分析して
得られた特徴量を前記入力部に入力する際、前記入力制
御部は、前記単語出力部の出力値に応じて入力部に入力
するデータを選択的に制御することを特徴とする音声認
識装置。
【請求項２】音声を音響分析して得られた特徴量を多
層のニューラルネットワークの入力層の各ユニットに入
力し、出力層の各ユニットの出力値に応じて認識結果を
得る音声認識装置において、音声を音響分析して得られ
た特徴量を入力する入力部と、入力部に入力するデータ
を選択的に制御する入力制御部と、認識対象語彙のうち
ある特定の部分音韻系列との類似度を算出する音韻演算
部と前記音韻演算部のニューラルネットワークの重み係
数を格納する重み係数格納部と前記音韻演算部の結果を
出力する出力部とを、前記音韻演算部が前記特定の単語
を構成する部分音韻系列をすべてについて類似度を算出
するように複数個備え、前記各出力部の出力を入力とす
る語彙演算部と、前記出力部の出力を入力とする単語演
算部と単語演算部のニューラルネットワークの重み係数
を格納する重み係数格納部とを、各認識対象単語毎に備
え、前記単語演算部の出力を入力とする単語演算部と、
前記各単語演算部の出力を入力とする語彙演算部と前記
語彙演算部のニューラルネットワークの重み係数を格納
する重み係数格納部とを備え、前記語彙演算部の出力を
入力とする入力制御部を備え、入力音声をフレーム毎に
音響分析して得られた特徴量を前記入力部に入力する
際、前記入力制御部は、前記語彙演算部の出力値に応じ
て入力部に入力するデータを選択的に制御することを特
徴とする音声認識装置。
【請求項３】請求項１または２に記載の音声認識装置
において、各音韻演算部のニューラルネットワークの学
習を制御する学習制御部を備え、認識結果が誤りである
場合に、前記各音韻演算部が入力した特徴量に対して、
重み係数を変更することにより、誤りが減少するよう学
習することを特徴とする音声認識装置。
【請求項４】請求項１、２または３に記載の音声認識
装置おいて、各単語演算部のニューラルネットワークの
学習を制御する学習制御部を備え、認識結果が誤りであ
る場合に、各単語演算部が入力した入力値に対して、重
み係数を変更することにより、誤りが減少するよう学習
することを特徴とする音声認識装置。
【請求項５】請求項１、２、３または４に記載の音
声認識装置において、語彙演算部のニューラルネットワ
ークの学習を制御する学習制御部を備え、認識結果が誤
りである場合に、語彙演算部が入力した入力値に対し
て、重み係数を変更することにより、誤りが減少するよ
う学習することを特徴とする音声認識装置。