JP3009962B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3009962B2
JP3009962B2 JP4049608A JP4960892A JP3009962B2 JP 3009962 B2 JP3009962 B2 JP 3009962B2 JP 4049608 A JP4049608 A JP 4049608A JP 4960892 A JP4960892 A JP 4960892A JP 3009962 B2 JP3009962 B2 JP 3009962B2
Authority
JP
Japan
Prior art keywords
input
unit
output
word
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4049608A
Other languages
English (en)
Other versions
JPH05249997A (ja
Inventor
憲治 坂本
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4049608A priority Critical patent/JP3009962B2/ja
Publication of JPH05249997A publication Critical patent/JPH05249997A/ja
Application granted granted Critical
Publication of JP3009962B2 publication Critical patent/JP3009962B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた音声認識技術に関する。
【0002】
【従来の技術】従来の音声認識方式には、次のような方
法がある。一つの方法は、入力音声を音響分析し、各フ
レーム毎に特徴ベクトルを抽出し、抽出した特徴ベクト
ルの時系列を2次元パターンとしてニューラルネットワ
ークの入力層に入力して、入力音声を識別できるような
教師信号を出力層に与え、多層パーセプトロン型ニュー
ラルネットワークを利用した誤差逆伝播法(バックプロ
パゲーション法)により各結合の重み係数を求める演算
を行って、最適な重み係数を求める。前記重み係数が決
定したニューラルネットワークに未知の入力音声の特徴
量を入力し、出力層の出力値に応じて入力音声を識別す
る方法である。
【0003】もう一つの方法は、入力音声の特徴ベクト
ル系列のうち代表的な特徴ベクトルを、クラスタリング
等の手法を用いて選出し、選出された特徴ベクトルを標
準パターンとして記憶しておき、未知の入力音声の特徴
ベクトル系列との間でDPマッチング等で時間軸方向の
補正を行いながら、両方のパターン間の距離を計算し、
最も近い標準パターンの音声を認識結果とする方法であ
る。
【0004】
【発明が解決しようとする課題】従来のニューラルネッ
トワークを用いた音声認識装置は、話者及び発声の変化
により音声の各音韻の継続時間長が変化し、ニューラル
ネットワークの入力層に入力される特徴量が著しく変化
してしまうため安定して重み係数を求めることができ
ず、高い認識性能を出すことができなかった。前記問題
点を解決するために、入力層のユニット数に適合するよ
う特徴量の時間軸を伸縮する方法が考えられる。
【0005】前記手法において、入力音声の特徴ベクト
ルを圧縮する際、音声の識別に必要となる情報を欠落さ
せてしまうと共に、単語中の各音韻の局所的な継続時間
のずれは依然として吸収できないという問題点が残る。
【0006】また、標準パターンとして、特徴ベクトル
の時系列をもっておき、時間軸の非線形な伸縮を正規化
して、入力パターンと標準パターンとの距離を計算する
DPマッチングの手法は計算量が多く、処理に時間が掛
かってしまう。さらに、不特定話者に対応するためには
標準パターンを複数個持つことが考えられるが、最適な
標準パターンの作成方法は難しい。
【0007】
【課題を解決するための手段】そこで、上記問題点を解
決するために、本発明は、音声を音響分析して得られた
特徴量を入力する入力部と、入力部に入力するデータを
選択的に制御する入力制御部と、認識対象語彙のうちあ
る特定の部分音韻系列との類似度を算出する音韻演算部
と前記音韻演算部の結果を出力する出力部と(以下、こ
れらを合わせてイベントネットと言う)を、上記特定の
単語を構成する部分音韻系列をすべて含むように複数個
備え、前記イベントネットの出力を入力とする語彙演算
部を備え、入力音声をフレーム毎に音響分析して得られ
た特徴量をイベントネットの入力部に入力する際、前記
入力制御部は、イベントネットの出力部の出力値に応じ
て入力部に入力するデータを選択的に制御し、前記語彙
演算部の出力値に応じて認識結果を出力すると共に、前
記各イベントネット、各ワードネット及びスーパーネッ
トのニューラルネットワークの学習を制御する学習制御
部を備え、認識結果が誤りである場合に、各イベントネ
ットが入力した特徴量に対して、所定の手法で、誤りが
減少するよう学習する機能を有することを特徴とする。
【0008】
【0009】
【作用】本発明の音声認識装置によれば、各イベントネ
ットが特定の単語の部分音韻系列との類似度を出力する
ように学習されており、入力音声の特徴量に対して時間
方向に移動しながら最適な位置を検出し、最も類似度が
高くなるように時間軸の補正が行われるため、入力音声
を正確に識別し得る。
【0010】
【実施例】次に図面を参照して本発明を詳細に説明す
る。図1は、特許請求の範囲の請求項1による音声認識
装置の一実施例である。図1において、音響分析部10
に音声が入力される。音響分析部10では、音声波形を
フレーム毎にLPC分析し、12次のケプストラム係数
と短時間パワーを出力する。本実施例では、フレーム周
期20ms、分析窓長30msとしている。
【0011】前記12次のケプストラム係数と短時間パ
ワーを特徴量又は特徴ベクトルと呼ぶ。入力制御部11
1は、出力部115の出力値に応じて入力すべきフレー
ム位置を決定する。入力部112は、入力制御部111
で決定されたフレーム位置の特徴量を複数フレーム分入
力する。
【0012】本実施例では、そのフレーム数を5フレー
ムとしている。重み係数格納部113は、あらかじめ学
習により得られたニューラルネットの重み係数を格納し
ている。音韻演算部114は、重み係数格納部113に
格納されている重み係数を用いて、入力された特徴量と
の演算をし、認識対象単語のうち特定の単語の音韻系列
との類似度を出力する。音韻演算部114は、例えば、
図19に示すような2層のニューラルネットワークであ
る。これを、イベントネットと呼ぶ。
【0013】入力ユニット数は、入力特徴量の次元数、
すなわち、5(フレーム)×13(次元)=65個であ
る。出力ユニットは5個である。出力部115は、前記
ニューラルネットワークの各出力ユニットの最大値を出
力する。
【0014】以上は、1つのイベントネットについての
説明であったが、イベントネットは、各認識対象毎に、
特定の単語の部分音韻系列をすべて含むように複数個あ
り、本実施例では、すべての単語について5個のイベン
トネットがあるとする。また、認識対象語彙数を28単
語としているので、イベントネットは、全部で5×28
=140個あることになる。
【0015】音声が入力され、各イベントネットの出力
値が計算されると、その出力値が語彙演算部162に入
力される。語彙演算部162は、重み係数格納部161
に格納されている重み係数を用いてニューラルネットワ
ークの演算を行い、出力を得る。語彙演算部162と重
み係数格納部161から構成されるニューラルネットワ
ークは、図21に示すような3層のニューラルネットワ
ークである。入力ユニット数は140個、中間ユニット
数は56個、出力ユニット数は28個である。中間層3
2及び出力層33に示されている各ユニットは、入力の
総和をシグモイド関数により変換し出力を得る。ここ
で、重み係数は既に学習済みものである。判定部163
は、語彙演算部162の各出力ユニットの出力値に応じ
て認識結果を出力する。
【0016】以下に、イベントネットの出力の算出方法
について詳細に述べる。イベントネットのネットワーク
構成を図19に示す。ユニット群11が入力層、ユニッ
ト群12が出力層である。入力層11と出力層12の間
の結線が重み係数を表している。 入力特徴ベクトル
は、イベントネットの入力層に入力される毎に、ベクト
ルの長さが1になるよう正規化が行われる。すなわち、
特徴ベクトルの第i番目の要素をui とすると、
【0017】
【数1】
【0018】により、正規化された特徴ベクトルxi
求める。すなわち、これが実際イベントネットの入力層
の各ユニットに入力される値である。いま、第j番目の
出力ユニットの出力値をyj とし、第i番目の入力ユニ
ットと第j番目の出力ユニットとの間の重み係数をwj
i とすると、出力値yj は、
【0019】
【数2】
【0020】で求められる。出力部では、この出力値y
j のうち最大値をイベントネットの出力として入力制御
部へ出力する。
【0021】次に、入力制御部における入力フレーム決
定処理と各イベントネットの最大類似度の算出方法につ
いて詳細に述べる。
【0022】図17(a)は、ある単語Wの第1番目の
イベントネットの各フレームにおける出力値を示してい
る。以下同様に、図17(b)〜(e)は、第2番目〜
第5番目のイベントネットの各フレームにおける出力値
を示している。この図において、縦軸は出力値、横軸は
時間(フレーム)を表している。また、太い実線で描か
れているのがフレーム毎のイベントネットの出力値であ
る。まず、図17(a)において、入力音声の語頭を仮
定する。以下、この語頭は、すべてのイベントネットの
出力を求める毎に1フレームずつ右(次のフレーム)に
シフトされ、すべてのフレームを語頭と仮定した、いわ
ゆるワードスポッティング処理になる。語頭の時刻をt
s 1 とする。第1番目のイベントネットの出力値を、時
間trの間、1フレーム毎に求める。この範囲を探索範
囲と呼ぶ。ttr、多数話者の発声する単語の平均長か
らあらかじめ決められる値で、各イベントネットを当間
隔に配置するという意味で、tr=(単語の平均長)/
(1単語当たりのイベントネットの数−1)で求められ
る。次に、イベントネットの最大類似度の決定方法であ
るが、以下の規則(1)〜(3)に従う。
【0023】規則(1):探索範囲内の出力値がθh
越えた場合で、そのフレーム数が5フレーム以上ある場
合は、探索範囲の中心が選択される。
【0024】規則(2):探索範囲内の出力値がθl
越えなかった場合は、探索範囲の中心が選択される。
【0025】規則(3):その他の場合は、探索範囲内
の最大値が選択される。
【0026】θh 及びθl は、長母音に対する処置と極
端なマッチングを防ぐための閾値であり、本実施例で
は、それぞれ、0.8,0.4としている。なお、出力
値(類似度)の最大値は1である。
【0027】最大類似度を算出するのと同時に、次のイ
ベントネットの探索範囲の開始時刻が決定される。すな
わち、上記で選択されたフレームが次のイベントネット
の探索範囲の開始時刻になる。図17では、以下のよう
になる。図17(a)において、規則(3)より、選択
されたフレームがtc 1 であり、その時の出力値E1
第1番目のイベントネットの出力値(最大類似度)とな
る。
【0028】図17(b)において、規則(3)より、
選択されたフレームがtc 2 であり、その時の出力値E
2 が第2番目のイベントネットの出力値となる。図17
(c)において、規則(1)より、選択されたフレーム
がtc 3 であり、その時の出力値E3 が第3番目のイベ
ントネットの出力値となる。図17(d)において、規
則(2)より、選択されたフレームがtc 4 であり、そ
の時の出力値E4 が第4番目のイベントネットの出力値
となる。図17(e)において、規則(3)より、選択
されたフレームがtc 5 であり、その時の出力値E5
第5番目のイベントネットの出力値となる。
【0029】次に、判定部における判定方法について詳
細に述べる。図18において、(a)、(b),(c)
は、それぞれの単語に対応するユニットの出力値(太い
実線)を示している。縦軸が出力値を示し、横軸が時間
(フレーム)を示している。語頭を各フレーム毎にシフ
トして得られるユニットの出力値のうち、初めてθs
越えた時刻からti n t 後までの間の各ユニットの最大
値を求める。
【0030】ti n t は、部分マッチングの防止や処理
時間の削減等で決められる数値であるが、本実施例で
は、ti n t =24(フレーム)としている。図18
(a)において、時刻ts で第1番目のユニットの出力
値がθs を越えた。したがって、各ユニットについて、
時刻te (=ts +ti n t )までの間で最大値を求
め、それぞれ、max1 ,..,maxi ,..,ma
2 8 と求まる。このうち、最大値を出力したユニット
に対応する単語を認識結果とする。図18の場合、ma
1 が最大値となっているので、第1番目の単語が認識
結果として出力される。
【0031】図2は、特許請求の範囲の請求項2による
音声認識装置の一実施例である。図2において、特許請
求の範囲の請求項1の実施例で説明したイベントネット
の各出力は、重み係数格納部261と演算部262から
構成されるニューラルネットワークに入力される。これ
をワードネットと呼ぶ。ワードネットは、図20に示す
ように3層のニューラルネットワークである。
【0032】中間層22及び出力層23の各ユニット
は、入力の総和をシグモイド関数により変換し、出力す
る。入力層21のユニット数は、1単語当たりのイベン
トネット数(本実施例では、5個)、中間層22のユニ
ット数は5個、出力層23のユニット数は1個である。
重み係数は、既に学習済みのものである。なお、ワード
ネットは、認識対象単語毎あり、合計28個ある。判定
部271では、特許請求の範囲の請求項1の実施例で説
明したのと同様の手法でもって、各ワードネットの出力
値を判定し、認識結果を出力する。
【0033】図3は、特許請求の範囲の請求項3による
音声認識装置の一実施例である。図3において、特許請
求の範囲の請求項2の実施例で説明したワードネットの
各出力は、重み係数格納部371と語彙演算部372か
ら構成されるニューラルネットワークに入力される。語
彙演算部372は、図21に示すように3層のニューラ
ルネットワークである。これを、スーパーネットと呼
ぶ。
【0034】中間層32及び出力層33の各ユニット
は、入力の総和をシグモイド関数により変換し、出力す
る。入力層31のユニット数は28個、中間層32のユ
ニット数は28個、出力層33のユニット数は28個で
ある。重み係数は、既に学習済みのものである。語彙演
算部372では、各ワードネットの出力を入力し、重み
係数格納部371に格納されている重み係数を用いてニ
ューラルネットワークの演算を行い、出力を得る。判定
部373では、スーパーネットの出力で最大出力を出力
しているユニットに対応した単語を認識結果として出力
する。
【0035】図4は、特許請求の範囲の請求項4による
音声認識装置の一実施例である。図4において、入力部
412は、入力制御部411で指定されたフレーム位置
の特徴量を入力する。音韻演算部414は、重み係数格
納部413に格納されている重み係数と入力部より入力
した特徴量から特定の音韻系列との類似度を出力する。
音韻演算部414は、図19に示すような2層のニュー
ラルネットワークである。これを、イベントネットと呼
ぶ。
【0036】入力ユニット数は入力特徴量の次元数、す
なわち、5(フレーム)×13(次元)=65個であ
る。出力ユニット数は5個である。出力部415では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。単語演算部462では、各イベントネットの
出力を入力し、重み係数格納部461に格納されている
重み係数を用いてニューラルネットワークの演算を行
う。単語演算部462は、図20に示すような3層のニ
ューラルネットワークである。これを、ワードネットと
呼ぶ。
【0037】ワードネットの中間層22及び出力層23
の各ユニットは、入力の総和をシグモイド関数により変
換し、出力する。入力ユニット数は5個、中間ユニット
数は5個、出力ユニット数は1個である。入力制御部4
11は、単語演算部462の出力値に応じて、特許請求
の範囲の請求項1の実施例で説明したのと同様の手法で
もって、各イベントネットの入力フレームの決定を行
う。単語出力部471は、単語演算部462の最大出力
値を語彙演算部482に出力する。語彙演算部482
は、各単語出力部の出力を入力として、重み係数格納部
481に格納されている重み係数を用いてニューラルネ
ットワークの演算を行う。語彙演算部482は、図21
に示すような3層のニューラルネットワークである。こ
れを、スーパーネットと呼ぶ。
【0038】スーパーネットの中間層32及び出力層3
3の各ユニットは、入力の総和をシグモイド関数により
変換し、出力する。入力ユニット数は28個、中間ユニ
ット数は28個、出力ユニット数は28個である。判定
部483では、スーパーネットの各出力ユニットに出力
される出力値を、特許請求の範囲の請求項1で説明した
のと同様の手法で判定し、認識結果を出力する。
【0039】図5は、特許請求の範囲の請求項5による
音声認識装置の一実施例である。図5において、入力部
512は、入力制御部511で指定されたフレーム位置
の特徴量を入力する。音韻演算部514は、重み係数格
納部513に格納されている重み係数と入力部より入力
した特徴量から特定の音韻系列との類似度を出力する。
音韻演算部514は、図19に示すような2層のニュー
ラルネットワークである。これを、イベントネットと呼
ぶ。
【0040】入力ユニット数は入力特徴量の次元数、す
なわち、5(フレーム)×13(次元)=65個であ
る。出力ユニット数は5個である。出力部515では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。単語演算部562では、各イベントネットの
出力を入力し、重み係数格納部561に格納されている
重み係数を用いてニューラルネットワークの演算を行
う。単語演算部62は、図20に示すような3層のニュ
ーラルネットワークである。これを、ワードネットと呼
ぶ。
【0041】入力ユニット数は5個、中間ユニット数は
5個、出力ユニット数は1個である。語彙演算部572
は、各単語演算部の出力を入力として、重み係数格納部
571に格納されている重み係数を用いてニューラルネ
ットワークの演算を行う。語彙演算部572は、図21
に示すような3層のニューラルネットワークである。こ
れを、スーパーネットと呼ぶ。
【0042】入力ユニット数は28個、中間ユニット数
は28個、出力ユニット数は28個である。入力制御部
511は、スーパーネットの各対応するユニットの出力
値に応じて、特許請求の範囲の請求項1の実施例で説明
したのと同様の手法でもって、各イベントネットの入力
フレームの決定を行う。判定部573では、スーパーネ
ットの各出力ユニットに出力される出力値を、特許請求
の範囲の請求項1で説明したのと同様の手法で判定し、
認識結果を出力する。
【0043】図6は、特許請求の範囲の請求項6による
音声認識装置の第1の一実施例である。図6において、
入力部612は、入力制御部611で指定されたフレー
ム位置の特徴量を入力する。音韻演算部614は、重み
係数格納部613に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部614は、図19に示すような2層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。
【0044】入力ユニット数は入力特徴量の次元数、す
なわち、5(フレーム)×13(次元)=65個であ
る。出力ユニット数は5個である。出力部615では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。入力制御部611は、出力部615の出力値
に応じて、特許請求の範囲の請求項1の実施例で説明し
たのと同様の手法でもって、各イベントネットの入力フ
レームの決定を行う。語彙演算部662では、各イベン
トネットの出力を入力し、重み係数格納部661に格納
されている重み係数を用いてニューラルネットワークの
演算を行う。語彙演算部662は、図21に示すような
3層のニューラルネットワークである。これを、スーパ
ーネットと呼ぶ。
【0045】入力ユニット数は140個、中間ユニット
数は56個、出力ユニット数は28個である。判定部6
63では、スーパーネットの出力ユニットに各出力され
る出力値を、特許請求の範囲の請求項1で説明したのと
同様の手法で判定し、認識結果を出力する。ここで、前
記認識結果が誤りである場合、各イベントネットの学習
制御部を起動し、認識結果の誤りが減少するように、各
重み係数の変更を行う。
【0046】以下に、イベントネットの学習手順につい
て詳細に述べる。いま、入力された単語をWi (第i番
目の単語)、認識された単語をWj (j≠i,第j番目
の単語)とする。単語Wj の各イベントネットにおい
て、認識時に各イベントネットが選択した入力データに
対して、各イベントネットの出力値が小さくなるよう
に、各重み係数の変更を行う。このときの学習則は、L
VQに従う。同様に、単語Wiの各イベントネットにおい
て、認識時に各イベントネットが選択した入力データに
対して、各イベントネットの出力値が大きくなるよう
に、各重み係数の変更を行う。このときの学習則は、L
VQに従う。学習された重み係数は、各イベントネット
の重み係数格納部に格納され、次回の認識時には、これ
らが用いられる。
【0047】図7は、特許請求の範囲の請求項6による
音声認識装置の第2の一実施例である。図7において、
入力部712は、入力制御部711で指定されたフレー
ム位置の特徴量を入力する。音韻演算部714は、重み
係数格納部713に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部714は、図19に示すような2層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。
【0048】入力ユニット数は入力特徴量の次元数、す
なわち、5(フレーム)×13(次元)=65個であ
る。出力ユニット数は5個である。出力部715では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。入力制御部711は、出力部715の出力値
に応じて、特許請求の範囲の請求項1の実施例で説明し
たのと同様の手法でもって、各イベントネットの入力フ
レームの決定を行う。単語演算部762では、各イベン
トネットの出力を入力し、重み係数格納部761に格納
されている重み係数を用いてニューラルネットワークの
演算を行う。単語演算部762は、図20に示すような
3層のニューラルネットワークである。これを、ワード
ネットと呼ぶ。
【0049】入力ユニット数は5個、中間ユニット数は
5個、出力ユニット数は1個である。判定部771で
は、各ワードネットの出力ユニットに出力される出力値
を、特許請求の範囲の請求項1で説明したのと同様の手
法で判定し、認識結果を出力する。ここで、前記認識結
果が誤りである場合、各イベントネットの学習制御部を
起動し、認識結果の誤りが減少するように、各重み係数
の変更を行う。学習は、特許請求の範囲の請求項6の第
1の実施例で説明したのと同様の手法で行う。
【0050】図8は、特許請求の範囲の請求項6による
音声認識装置の第3の一実施例である。図8において、
入力部812は、入力制御部811で指定されたフレー
ム位置の特徴量を入力する。音韻演算部814は、重み
係数格納部813に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部814は、図19に示すような2層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。入力ユニット数は入力特徴量の次元数、すな
わち、5(フレーム)×13(次元)=65個である。
出力ユニット数は5個である。出力部815では、前記
出力各出力ユニットの出力値のうち最大のものが出力さ
れる。入力制御部811は、出力部815の出力値に応
じて、特許請求の範囲の請求項1の実施例で説明したの
と同様の手法でもって、各イベントネットの入力フレー
ムの決定を行う。
【0051】単語演算部862では、各イベントネット
の出力を入力し、重み係数格納部861に格納されてい
る重み係数を用いてニューラルネットワークの演算を行
う。単語演算部862は、図20に示すような3層のニ
ューラルネットワークである。これを、ワードネットと
呼ぶ。入力ユニット数は5個、中間ユニット数は5個、
出力ユニット数は1個である。語彙演算部872は、各
ワードネットの出力を入力として、重み係数格納部87
1に格納されている重み係数を用いてニューラルネット
ワークの演算を行う。語彙演算部872は、図21に示
すような3層のニューラルネットワークである。これ
を、スーパーネットと呼ぶ。
【0052】入力ユニット数は28個、中間ユニット数
は28個、出力ユニット数は28個である。判定部87
3では、スーパーネットの各出力ユニットに出力される
出力値を、特許請求の範囲の請求項1で説明したのと同
様の手法で判定し、認識結果を出力する。ここで、前記
認識結果が誤りである場合、各イベントネットの学習制
御部を起動し、認識結果の誤りが減少するように、各重
み係数の変更を行う。学習は、特許請求の範囲の請求項
6の第1の実施例で説明したのと同様の手法で行う。
【0053】図9は、特許請求の範囲の請求項6による
音声認識装置の第4の一実施例である。図9において、
入力部912は、入力制御部911で指定されたフレー
ム位置の特徴量を入力する。音韻演算部914は、重み
係数格納部913に格納されている重み係数と入力部よ
り入力した特徴量から特定の音韻系列との類似度を出力
する。音韻演算部914は、図19に示すような2層の
ニューラルネットワークである。これを、イベントネッ
トと呼ぶ。
【0054】入力ユニット数は入力特徴量の次元数、す
なわち、5(フレーム)×13(次元)=65個であ
る。出力ユニット数は5個である。出力部915では、
前記出力各出力ユニットの出力値のうち最大のものが出
力される。単語演算部962では、各イベントネットの
出力を入力し、重み係数格納部961に格納されている
重み係数を用いてニューラルネットワークの演算を行
う。単語演算部962は、図20に示すような3層のニ
ューラルネットワークである。これを、ワードネットと
呼ぶ。
【0055】入力ユニット数は5個、中間ユニット数は
5個、出力ユニット数は1個である。入力制御部911
は、出力部963の出力値に応じて、特許請求の範囲の
請求項1の実施例で説明したのと同様の手法でもって、
各イベントネットの入力フレームの決定を行う。
【0056】語彙演算部972は、各ワードネットの出
力を入力として、重み係数格納部971に格納されてい
る重み係数を用いてニューラルネットワークの演算を行
う。語彙演算部972は、図21に示すような3層のニ
ューラルネットワークである。これを、スーパーネット
と呼ぶ。入力ユニット数は28個、中間ユニット数は2
8個、出力ユニット数は28個である。判定部973で
は、スーパーネットの各出力ユニットに出力される出力
値を、特許請求の範囲の請求項1で説明したのと同様の
手法で判定し、認識結果を出力する。ここで、前記認識
結果が誤りである場合、各イベントネットの学習制御部
を起動し、認識結果の誤りが減少するように、各重み係
数の変更を行う。学習は、特許請求の範囲の請求項6の
第1の実施例で説明したのと同様の手法で行う。
【0057】図10は、特許請求の範囲の請求項6によ
る音声認識装置の第5の一実施例である。図10におい
て、入力部1012は、入力制御部1011で指定され
たフレーム位置の特徴量を入力する。音韻演算部101
4は、重み係数格納部1013に格納されている重み係
数と入力部より入力した特徴量から特定の音韻系列との
類似度を出力する。音韻演算部1014は、図19に示
すような2層のニューラルネットワークである。これ
を、イベントネットと呼ぶ。
【0058】入力ユニット数は入力特徴量の次元数、す
なわち、5(フレーム)×13(次元)=65個であ
る。出力ユニット数は5個である。出力部1015で
は、前記出力各出力ユニットの出力値のうち最大のもの
が出力される。単語演算部1062では、各イベントネ
ットの出力を入力し、重み係数格納部1061に格納さ
れている重み係数を用いてニューラルネットワークの演
算を行う。
【0059】単語演算部1062は、図20に示すよう
な3層のニューラルネットワークである。これを、ワー
ドネットと呼ぶ。入力ユニット数は5個、中間ユニット
数は5個、出力ユニット数は1個である。語彙演算部1
072は、各ワードネットの出力を入力として、重み係
数格納部1071に格納されている重み係数を用いてニ
ューラルネットワークの演算を行う。語彙演算部107
2は、図21に示すような3層のニューラルネットワー
クである。これを、スーパーネットと呼ぶ。
【0060】入力ユニット数は28個、中間ユニット数
は28個、出力ユニット数は28個である。入力制御部
1011は、スーパーネットの各対応するユニットの出
力値に応じて、特許請求の範囲の請求項1の実施例で説
明したのと同様の手法でもって、各イベントネットの入
力フレームの決定を行う。判定1073では、スーパー
ネットの各出力ユニットに出力される出力値を、特許請
求の範囲の請求項1で説明したのと同様の手法で判定
し、認識結果を出力する。ここで、前記認識結果が誤り
である場合、各イベントネットの学習制御部を起動し、
認識結果の誤りが減少するように、各重み係数の変更を
行う。学習は、特許請求の範囲の請求項6の第1の実施
例で説明したのと同様の手法で行う。
【0061】図11は、特許請求の範囲の請求項7によ
る音声認識装置の第1の一実施例である。図11におい
て、単語演算部1112は、各イベントネットからの入
力データを入力し、重み係数格納部1111に格納され
ている重み係数を用いてニューラルネットワークの演算
を行う。単語演算部1112は、図20に示すような3
層のニューラルネットワークである。これを、ワードネ
ットと呼ぶ。入力ユニット数は5個、中間ユニット数は
5個、出力ユニット数は1個である。判定部1161で
は、各単語演算部からの出力値を、特許請求の範囲の請
求項1で説明したのと同様の手法で判定し、認識結果を
出力する。ここで、前記認識結果が誤りである場合、各
ワードネットの学習制御部を起動し、認識結果の誤りが
減少するように、各重み係数の変更を行う。
【0062】以下に、ワードネットの学習手順について
詳細に述べる。いま、入力された単語をWi (第i番目
の単語)、認識された単語をWj (j≠i,第j番目の
単語)とする。単語Wj のワードネットにおいて、認識
時にワードネットが選択した入力データに対して、ワー
ドネットの出力値が小さくなるように、各重み係数の変
更を行う。このときの学習則は、バックプロパゲーショ
ン法に従う。同様に、単語Wiのワードネットにおいて、
認識時にワードネットが選択した入力データに対して、
ワードネットの出力値が大きくなるように、各重み係数
の変更を行う。このときの学習則は、バックプロパゲー
ション法に従う。学習された重み係数は、各ワードネッ
の重み係数格納部に格納され、次回の認識時には、これ
らが用いられる。
【0063】図12は、特許請求の範囲の請求項7によ
る音声認識装置の第2の一実施例である。図12におい
て、単語演算部1212は、各イベントネットからの入
力データを入力し、重み係数格納部1211に格納され
ている重み係数を用いてニューラルネットワークの演算
を行う。単語演算部1212は、図20に示すような3
層のニューラルネットワークである。これを、ワードネ
ットと呼ぶ。
【0064】入力ユニット数は5個、中間ユニット数は
5個、出力ユニット数は1個である。語彙演算部126
2は、各ワードネットの出力を入力として、重み係数格
納部1261に格納されている重み係数を用いてニュー
ラルネットワークの演算を行う。語彙演算部1262
は、図21に示すような3層のニューラルネットワーク
である。これを、スーパーネットと呼ぶ。
【0065】入力ユニット数は28個、中間ユニット数
は28個、出力ユニット数は28個である。判定部12
63では、スーパーネットの各ユニットの出力値を、特
許請求の範囲の請求項1で説明したのと同様の手法で判
定し、認識結果を出力する。ここで、前記認識結果が誤
りである場合、各ワードネットの学習制御部を起動し、
認識結果の誤りが減少するように、各重み係数の変更を
行う。学習は、特許請求の範囲の請求項7の第1の実施
例で説明したのと同様の手法で行う。
【0066】図13は、特許請求の範囲の請求項8によ
る音声認識装置の一実施例である。図13において、語
彙演算部1312は、各ワードネットの出力を入力とし
て、重み係数格納部1311に格納されている重み係数
を用いてニューラルネットワークの演算を行う。語彙演
算部1312は、図21に示すような3層のニューラル
ネットワークである。これを、スーパーネットと呼ぶ。
【0067】入力ユニット数は28個、中間ユニット数
は28個、出力ユニット数は28個である。判定部13
14では、スーパーネットの各ユニットの出力値を、特
許請求の範囲の請求項2で説明したのと同様の手法で判
定し、認識結果を出力する。ここで、前記認識結果が誤
りである場合、各ワードネットの学習制御部を起動し、
認識結果の誤りが減少するように、各重み係数の変更を
行う。
【0068】以下に、スーパーネットの学習手順につい
て詳細に述べる。いま、入力された単語をWi(第i番目
の単語)、認識された単語をWj(j≠i,第j番目の単
語)とする。認識時にスーパーネットが入力した入力デ
ータに対して、第i番目のユニットに1を、その他のユ
ニットに0を教師信号として与え、学習を行う。このと
きの学習則は、バックプロパゲーション法に従う。学習
された重み係数は、スーパーネットの重み係数格納部に
格納され、次回の認識時には、これらが用いられる。
【0069】図14は、イベントネットの計算をする
際、計算量の削減を図るために行う処理の流れ図であ
る。第14図において、まず、iに1をセットする(S
1)。語頭を仮定しているフレームを1フレーム右(次
のフレーム)にシフトし(S2)、特徴量を入力する
(S3)。第i番目の単語の第1番目のイベントネット
の出力値を求め(S4)、あらかじめ定めた値θE と比
較する(S5)。
【0070】もし、この値が値θE より大きかったら、
単語の始まりを検出したので、すべてのイベントネット
の出力値を求める通常の認識動作に入る(S8)。も
し、値θE 以下なら、次の単語の第1番目のイベントネ
ットについて、同様の操作を行う(S6,S7)。すべ
ての単語の第1番目のイベントネットの出力値が値θE
以下なら、最初の状態へ戻る。以上の手法により、全フ
レームに対して、音声の検出を行うと共に、音声の無い
区間に対しては、認識対象単語1単語当たり1個のイベ
ントネットの計算だけで済み計算量の削減になる。な
お、値θE は、音韻検出時の最低類似度と等しく、本実
施例では、θE =0.8である。
【0071】図15は、認識動作時の計算量削減と、認
識対象外の単語の入力を排除するための処理の流れ図で
ある。図15において、まず、iを1にセットする(S
11)。語頭を仮定しているフレームを1フレーム右
(次のフレーム)にシフトする(S12)。前述の手法
により、第i番目のワードネットの出力値を求め(S1
3)、あらかじめ定めた値θW と比較する(S14)。
もし、この値が値θW より大きかったら、単語を検出し
たので、すべてのイベントネットの出力値を求める通常
の認識動作に入る(S17)。もし、値θW 以下なら、
次の単語のワードネットについて、同様の操作を行う
(S15,S16)。すべての単語のワードネットの出
力値が値θW 以下なら、最初の状態へ戻る。 以上の手
法により、全フレームに対して、音声の検出を行うと共
に、不要語や認識対象外の単語の検出を未然に防ぐこと
ができ、不用意に認識結果を出力しないようにできる。
なお、値θW は、単語検出時の最低類似度と等しく、本
実施例では、θW =0.8である。
【0072】図16は、イベントネットの学習と、ワー
ドネットの学習と、スーパーネットの学習を同時に行
い、認識率の向上を図るための処理の流れ図である。図
16において、まず、イベントネットの学習を行う(S
21)。学習後、認識評価を行って、そのときの誤差を
あらかじめ定めた値θCEと比較する(S22)。もし、
この誤差が値θC E より大きい場合、再度、イベントネ
ットの学習を行う。
【0073】もし、誤差が値θC E 以下なら、次のステ
ップに進み、ワードネットの学習を行う(S23)。学
習後、認識評価を行って、そのときの誤差をあらかじめ
定めた値θC w と比較する(S24)。もし、この誤差
が値θC w より大きい場合、再度、ワードネットの学習
を行う。もし、誤差が値θC w 以下なら、次のステップ
に進み、スーパーネットの学習を行う(S25)。学習
後、認識評価を行って、そのときの誤差をあらかじめ定
めた値θC S と比較する(S26)。もし、この誤差が
値θC S より大きい場合、再度、ワードネットの学習を
行う。もし、誤差が値θC S 以下なら、すべての学習を
終了する。値θC E ,θC W ,θC S の間には、θC E
>θC W >θC S の関係がある。
【0074】
【発明の効果】本発明の音声認識装置を用いれば、各イ
ベントネットが特定の音韻系列の検出器として働くと同
時に学習を行い、より精度の高い認識性能が自動的に得
られる。
【図面の簡単な説明】
【図1】本発明の請求項1の音声認識装置における一実
施例である。
【図2】本発明の請求項2の音声認識装置における一実
施例である。
【図3】本発明の請求項3の音声認識装置における一実
施例である。
【図4】本発明の請求項4の音声認識装置における一実
施例である。
【図5】本発明の請求項5の音声認識装置における一実
施例である。
【図6】本発明の請求項6の音声認識装置における第1
の一実施例である。
【図7】本発明の請求項6の音声認識装置における第2
の一実施例である。
【図8】本発明の請求項6の音声認識装置における第3
の一実施例である。
【図9】本発明の請求項6の音声認識装置における第4
の一実施例である。
【図10】本発明の請求項6の音声認識装置における第
5の一実施例である。
【図11】本発明の請求項7の音声認識装置における第
1の一実施例である。
【図12】本発明の請求項7の音声認識装置における第
2の一実施例である。
【図13】本発明の請求項8の音声認識装置における一
実施例である。
【図14】イベントネットの計算手順を説明する流れ図
である。
【図15】ワードネットの計算手順を説明する流れ図で
ある。
【図16】学習の手順を説明する流れ図である。
【図17】入力フレームを決定する手法を説明する図で
ある。
【図18】認識結果を決定する手法を説明する図であ
る。
【図19】イベントネットの構成図である。
【図20】ワードネットの構成図である。
【図21】スーパーネットの構成図である。
【符号の説明】
10 音響分析部 110 イベントネット 111 入力制御部 112 入力部 113 重み係数格納部 114 音韻演算部 115 出力部 260 ワードネット 370 スーパーネット
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/26 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を音響分析して得られた特徴量を多
    層のニューラルネットワークの入力層の各ユニットに入
    力し、出力層の各ユニットの出力値に応じて認識結果を
    得る音声認識装置において、音声を音響分析して得られ
    た特徴量を入力する入力部と、入力部に入力するデータ
    を選択的に制御する入力制御部と、認識対象語彙のうち
    ある特定の部分音韻系列との類似度を算出する音韻演算
    部と前記音韻演算部のニューラルネットワークの重み係
    数を格納する重み係数格納部と前記音韻演算部の結果を
    出力する出力部とを、前記音韻演算部が前記特定の単語
    を構成する部分音韻系列をすべてについて類似度を算出
    するように複数個備え、前記各出力部の出力を入力とす
    る語彙演算部と、入力音声をフレーム毎に音響分析して
    得られた特徴量を前記入力部に入力する際、前記入力制
    御部は、前記出力部の出力値に応じて前記入力部に入力
    するデータを選択的に制御し、前記出力部の出力を入力
    とする単語演算部と単語演算部のニューラルネットワー
    クの重み係数を格納する重み係数格納部とを、各認識対
    象単語毎に備え、前記単語演算部の出力を入力とする入
    力制御部を備え、入力音声をフレーム毎に音響分析して
    得られた特徴量を前記入力部に入力する際、前記入力制
    御部は、前記単語出力部の出力値に応じて入力部に入力
    するデータを選択的に制御することを特徴とする音声認
    識装置。
  2. 【請求項2】 音声を音響分析して得られた特徴量を多
    層のニューラルネットワークの入力層の各ユニットに入
    力し、出力層の各ユニットの出力値に応じて認識結果を
    得る音声認識装置において、音声を音響分析して得られ
    た特徴量を入力する入力部と、入力部に入力するデータ
    を選択的に制御する入力制御部と、認識対象語彙のうち
    ある特定の部分音韻系列との類似度を算出する音韻演算
    部と前記音韻演算部のニューラルネットワークの重み係
    数を格納する重み係数格納部と前記音韻演算部の結果を
    出力する出力部とを、前記音韻演算部が前記特定の単語
    を構成する部分音韻系列をすべてについて類似度を算出
    するように複数個備え、前記各出力部の出力を入力とす
    る語彙演算部と、前記出力部の出力を入力とする単語演
    算部と単語演算部のニューラルネットワークの重み係数
    を格納する重み係数格納部とを、各認識対象単語毎に備
    え、前記単語演算部の出力を入力とする単 語演算部と、
    前記各単語演算部の出力を入力とする語彙演算部と前記
    語彙演算部のニューラルネットワークの重み係数を格納
    する重み係数格納部とを備え、前記語彙演算部の出力を
    入力とする入力制御部を備え、入力音声をフレーム毎に
    音響分析して得られた特徴量を前記入力部に入力する
    際、前記入力制御部は、前記語彙演算部の出力値に応じ
    て入力部に入力するデータを選択的に制御することを特
    徴とする音声認識装置。
  3. 【請求項3】 請求項1または2に記載の音声認識装置
    において、各音韻演算部のニューラルネットワークの学
    習を制御する学習制御部を備え、認識結果が誤りである
    場合に、前記各音韻演算部が入力した特徴量に対して、
    重み係数を変更することにより、誤りが減少するよう学
    習することを特徴とする音声認識装置。
  4. 【請求項4】 請求項1、2または3に記載の音声認識
    装置おいて、各単語演算部のニューラルネットワークの
    学習を制御する学習制御部を備え、認識結果が誤りであ
    る場合に、各単語演算部が入力した入力値に対して、重
    み係数を変更することにより、誤りが減少するよう学習
    することを特徴とする音声認識装置。
  5. 【請求項5】 請求項1、2、3または4に記載の音
    声認識装置において、語彙演算部のニューラルネットワ
    ークの学習を制御する学習制御部を備え、認識結果が誤
    りである場合に、語彙演算部が入力した入力値に対し
    て、重み係数を変更することにより、誤りが減少するよ
    う学習することを特徴とする音声認識装置。
JP4049608A 1992-03-06 1992-03-06 音声認識装置 Expired - Fee Related JP3009962B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4049608A JP3009962B2 (ja) 1992-03-06 1992-03-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4049608A JP3009962B2 (ja) 1992-03-06 1992-03-06 音声認識装置

Publications (2)

Publication Number Publication Date
JPH05249997A JPH05249997A (ja) 1993-09-28
JP3009962B2 true JP3009962B2 (ja) 2000-02-14

Family

ID=12835953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4049608A Expired - Fee Related JP3009962B2 (ja) 1992-03-06 1992-03-06 音声認識装置

Country Status (1)

Country Link
JP (1) JP3009962B2 (ja)

Also Published As

Publication number Publication date
JPH05249997A (ja) 1993-09-28

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
JP3168779B2 (ja) 音声認識装置及び方法
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
US5621849A (en) Voice recognizing method and apparatus
US5369728A (en) Method and apparatus for detecting words in input speech data
EP1417677B1 (en) Method and system for creating speaker recognition data, and method and system for speaker recognition
JPH0416800B2 (ja)
JP2002519720A (ja) 多層ネットワークを用いた信号分類の方法と装置
US20070203700A1 (en) Speech Recognition Apparatus And Speech Recognition Method
US5758021A (en) Speech recognition combining dynamic programming and neural network techniques
US5825977A (en) Word hypothesizer based on reliably detected phoneme similarity regions
EP1431959A2 (en) Gaussian model-based dynamic time warping system and method for speech processing
JP2955297B2 (ja) 音声認識システム
JPH11149294A (ja) 音声認識装置および音声認識方法
JP2898568B2 (ja) 声質変換音声合成装置
JP3009962B2 (ja) 音声認識装置
JPH0823758B2 (ja) 話者適応形音声認識装置
Beaufays et al. Using speech/non-speech detection to bias recognition search on noisy data
JP3033322B2 (ja) 連続音声認識方法
EP1079370A2 (en) Method for training a speech recognition system with detection of confusable words
JP3100208B2 (ja) 音声認識装置
JPH0772899A (ja) 音声認識装置
JPH0552516B2 (ja)
Mantoo et al. A Systematic Review Of The Different Techniques Used For Speech Recognition

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071203

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081203

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees