JPH03269500A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03269500A
JPH03269500A JP2069248A JP6924890A JPH03269500A JP H03269500 A JPH03269500 A JP H03269500A JP 2069248 A JP2069248 A JP 2069248A JP 6924890 A JP6924890 A JP 6924890A JP H03269500 A JPH03269500 A JP H03269500A
Authority
JP
Japan
Prior art keywords
word
input
net
event
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2069248A
Other languages
English (en)
Other versions
JP2792709B2 (ja
Inventor
Koichi Yamaguchi
耕市 山口
Kenji Sakamoto
憲治 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2069248A priority Critical patent/JP2792709B2/ja
Priority to EP90125562A priority patent/EP0435282B1/en
Priority to DE69030561T priority patent/DE69030561T2/de
Publication of JPH03269500A publication Critical patent/JPH03269500A/ja
Priority to US08/024,853 priority patent/US5404422A/en
Application granted granted Critical
Publication of JP2792709B2 publication Critical patent/JP2792709B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は、不特定話者の発声する言葉を認識し得るニュ
ーラルネットワークを用いた音声認識装置に係り、特に
時間軸の非線形整合を高精度化することができる音声認
識装置に関する。
[従来の技術] ニューラルネットワークと呼ばれる神経回路網をモデル
化した新しい手法が音声認識の分野に応用されつつあり
、「ニューラルネットによる音声情報処理」、牛用・著
、bit9月号、183〜195頁、 1989年Vo
l 、 21. No、 11及び「ニューラルネット
の音声情報処理への応用」、鹿野・著、信学会専門講習
会講演論文集、27〜4o頁、昭和63年9月に記載さ
れているように、誤差逆伝播法(以後、BP法と呼ぶ)
を用いた多層パーセプトロン型ニューラルネットワーク
の他に様々なアプローチが試みられている。
従来の音声認識方法には、次のような方法がある。一つ
の方法は、入力音声を音響分析し、各フレーム毎に特徴
ベクトルを抽出し、抽出した特徴ベクトルを時系列の2
次元パターンとしてニューラルネットワークの入力層に
入力して、入力音声を識別できるような教師信号を出力
層に与え、BP法により各結合の重み係数が学習される
。入力音声は、同じ単語でも発声されるたびに継続時間
長が変わるのに対し、ニューラルネットワークの入力層
のユニット数は一定なので、入力音声データ系列を一定
の長さに正規化し、学習されたニューラルネットワーク
に未知の入力音声の特徴ベクトル系列を入力し、ニュー
ラルネットワークの出力層のユニットの出力値に応じて
入力音声を認識する。
もう一つの方法は、マルチテンプレート方式と呼ばれて
おり、各単語ごとに多数話者の音声データをクラスタ化
して、各クラスタの中心の音声データ又は各クラスタに
属する音声データの平均値を標準パターンとして蓄える
。クラスタ化には複数のアルゴリズムを組合せて用いる
。未知の入力音声に対しては、全単語の全標準パターン
と動的計画法(以後、DP (Dynamic  Pr
ogramming)マツチングと呼ぶ)を行って距離
を計算し、最も距離の小さい標準パターンが属する単語
を発声されたものと判断する。この方法にニューラルネ
ットワークを応用したものとして、出願人等による「音
声認識装置」 (特願平1−344045号)がある。
上述した従来の方法では、いずれも入力音声の語頭及び
語尾を検出する必要があり、語頭及び語尾により定めら
れる音声区間の検出は、一定のしきい値以上の短時間パ
ワーが一定時間以上継続したか否かによって行われる。
短時間パワーのしきい値としては2種類が設定され、音
声区間は、これら2種類のしきい値を組み合わせること
により、または、短時間パワーの他に零交叉、雑音区間
のスペクトルとの差等を用いて検出する。
しかし、音声は時系列パターンであり、同じ単語でも発
声されるたびに継続時間長が変わり、その内部における
音韻事象の時間変動も線形ではない。また、咳払い、紙
を捲る音等に対しても、誤動作しないことが望ましいが
不要音と認識対象語索とを区別するには、任意の文章音
声中からあらかじめ定められた言葉だけを自動的に抽出
するワードスポツティング方式が必要である。
[発明が解決しようとする問題点コ 上述のDPマツチングを用いたマルチテンプレート方式
は、認識処理に先立って音声区間の検出が必要で、音声
区間を正しく検出すること自体容易ではなく、特に音声
の始端及び終端の子音及びレベルの低い母音の検出が難
しい。また、音声の終端に付加される呼吸音等を正しく
除去する必要があるが、短時間パワーまたは零交叉数等
を用いる従来の方法では、これらの要求を充分に満たす
ことができないので、音声区間を誤って検出し、認識率
を低下させるという問題がある。
上述のワードスポツティング方式においては、連続DP
は計算量も多く、また、余計な言葉の付加及び単語音韻
の脱落を生じやすいという問題がある。
上述のニューラルネットワークを用いた方式においては
、ニューラルネットワークの入力層は一定数のユニット
から構成されているので、入力音声区間を正規化しなけ
ればならない。正規化を線形で行うと、音声に含まれて
いると共に識別に必要な音韻に固有の動的な情報が歪曲
または欠落してしまう可能性があり、単語中の非線形な
時間伸縮が補正できない。
また、上述のイベントネットを用いる方式では、音声区
間を各イベントネットの入力層に所定のアルゴリズムで
分割しているので、イベントネットを作用させる前に入
力音声区間の検出が必要であり、検出された音声区間を
一定数で分割する方式を用いているので、イベントネッ
ト等、ニューラルネットワークの標準パターンに相当す
る部分に対応する単語のもつ継続時間長に関する情報が
直接的には入力されず、従って、入力音声の継続時間長
の長短にかかわらず、ニューラルネットワークの出力を
算出して、すべての標準パターンと照合するため、リジ
ェクト能力の低下を生ずる可能性があり、更に、音声区
間内の非線形な時間軸変動に対して、同じイベントネッ
トを時間軸の前後に一定量だけ移動して追従しようとし
ているので、より大きな非線形の時間変動を伴う入力音
声について対応できないという問題がある。
本発明の目的は、安定した重み係数を求め得ると共に、
入力される音声区間内の非線形な時間軸変動に対して音
声の単語中の各音韻の局所的な継続時間のずれに適応で
きるニューラルネットワークを用いた音声認識装置を提
供することにある。
[課題を解決するための手段] 本発明によれば、前記目的は、入力音声を音響分析して
得られた特徴量を多層パーセプトロン型ニューラルネッ
トワークの入力層の各ユニットに入力し、出力層の各ユ
ニットとからの出力値に応じて音声認識を行う音声認識
装置であって、入力音声を各フレーム毎に音響分析して
得られた特徴量から該入力音声の始端を検出する検出手
段と、前記検出された入力音声の始端付近から順次、多
数話者の音声サンプルから抽出された時間間隔情報に基
づいて前記特徴量を所定の範囲内で時間的にずらし、当
該時間的にずらされた特徴量のなかで出力値が最大にな
る位置を選択して、認識対象語紮のうち特定の単語の部
分音韻系列との類似度に相当する値を出力するイベント
ネットと、前記イベントネットに接続されており当該イ
ベントネットからの出力の全てを入力し、前記入力音声
に対して前記特定の単語との類似度に相当する値を出力
するワードネットと、前記ワードネットに接続されてお
り当該ワードネットからの出力の全てを入力し、該入力
音声の属する認識分類に応じた値を出力するスーパーネ
ットとを備えていることを特徴とする音声認識装置によ
って遠戚される。
[作用] イベントネットが入力音声に対して、認識対象語索のう
ち特定の単語の部分音韻系列との類似度に相当する値を
出力し、多数話者の音声サンプルを分析することにより
隣接する前記イベントネット間の時間間隔情報を抽出し
、前記入力音声を各フレーム毎に音響分析して得られた
特徴量から該入力音声の始端を検出手段によって検出し
て該特徴量前記イベントネットの入力層の各ユニットに
入力し、前記検出された入力音声の始端付近から順次、
前記抽出された時間間隔情報に基づいて所定の範囲内で
前記イベントネットに入力する特徴量を時間的に移動し
、ワードネットがイベントネットからの出力の全てを入
力し、入力音声に対して特定の単語との類似度に相当す
る値を出力し、スーパーネットがワードネットからの出
力の全てを入力し、入力音声の属する認識分類に応じた
値を出力する。
[実施例] 以下、本発明を図面に示す一実施例により詳細に説明す
る。
第3図は、本実施例による音声認識装置の構成を示す。
マイクロホン101から入力された音声は、アンプ10
2によって増幅され、A/D変換器103でアナログか
らディジタルに変換された後、音響分析部104に入力
される。
音響分析部104では、複数の帯域濾波器(以下、BP
Fという)105を用いて入力された音声を音響分析し
、フレーム毎に各B P F 105の出力パワーの値
を出力する。
また、ネットワークの規模を小さくするために、特徴ベ
クトル106をに−L変換を用いて圧縮部107で圧縮
し、入力音声の特徴ベクトル106の次元を減少させる
圧縮部107で圧縮された特徴ベクトルIQ6は、検出
手段としての語頭検出部108で判定され、その判定結
果により入力音声の始端としての語頭が検出された場合
には、イベントネット群109の各イベントネッ)11
0  (第1図及び第2図参照)に入力される。
語頭が検出されない場合には、特徴ベクトル106は、
イベントネット群IQ9に入力されない。
語頭検出部108としては、一定のしきい値以上の値が
一定時間以上継続したか否かに依存する短時間パワーの
他に、零交叉数またはBPF分析結果を利用した低域パ
ワー比、高域パワー比等を用いることもある。
イベントネット群109への特徴ベクトル106の送付
は、検出された語頭直後から送るのではなく検出された
語頭より少し前にさかのぼった時点から送る。
このために、圧縮部107では圧縮された複数の特徴ベ
クトル106から形成された特徴ベクトル系列111(
第1図及び第2図参照)を一定フレーム分バッファに貯
えておく必要がある。
入力音声の特徴ベクトル106は、各イベントネット1
10に入力され、各イベントネット110からの出力が
各ワードネット112にそれぞれ入力される。イベント
ネット110 とワードネット112との組の数は認識
対象語量の分類数に対応しており、それぞれのワードネ
ット112の出力はスーパーネット113に入力される
入力音声の特徴ベクトル106の特定の位置におけるイ
ベントネット110の入力層の入力フレーム114に相
当する範囲が、イベントネット110の入力層に入力さ
れ、特定の認識対象の単語について入力層に入力する入
力フレーム114を時間軸方向に移動したものがN個(
但し、Nは、正の整数)あり、本実施例ではN=5であ
る。
以下、時間軸方向への移動のし方について、認識時の動
作について詳述する。
認識対象の第1番目の単語を認識する第j番目のイベン
トネットの名称をEl、とすると、各Ej 1、の出力層には2つのユニットc、”I C,。
1  」                     
   IJ     ljがある。
El、が認識を担当している単語(第1番目にIJ 相当する)の部分音韻系列(単語の継続時間長をlとお
くと、語頭からj/N付近に相当する)が入力された場
合には、 (C09,C−、)=  (1,0) IJ      IJ となるように学習されている。
逆に、上記の部分音韻系列以外のものが入力された場合
は、 (C,3,C,、)=  (0,1) IJ      IJ となるように学習されている。
即ち、C1はC6,が担当する単語中のあるIJ   
  IJ 時点に対して高い値になる。
時間軸方向へのずらし間隔は、圧縮特徴ベクトル106
の1フレームとする。計算量を削減させたいときには、
2フレームとしてもよい。
時間軸方向へのずらし範囲の量、即ちフレームの数をn
とすると、Eo、は前から順に、E、。
IJ                1JE、   
    、、n 1、1j2、・・・・・・、C9,と呼び、それぞれの
出力をC,、C,・・・・・・、C1,とlJl′  
lj2ゝ     IJnおくと、ワードネットへの入
力としては、このn個中の最大値を選択する。
nの値は、E、によって異なり、本実施例では、第1図
に示すようにEilに対して、n=5、E、2に対して
、n=7に設定されている。第1図においては、各イベ
ントネットのサーチ範囲が横棒の矢印で示されており、
各C−−(j=1゜1 2、・・・、5)の最大値選択で最大値として選択され
た位置が太い実線で表されている。例えば、Eilでは
、Eil2、Ei2ではE、  がそれ 25 ぞれ選択されている。
Eilのサーチ範囲は、検出された語頭を中心として、
その前後に一定量、例えば3フレームずつとするか、ま
たは、多数話者の統計により、単語全体の継続時間長の
標準偏差の定数倍としてもよい。
El、(但し、j〉1)のサーチ範囲は、多数j 話者の統計によりあらかじめ求められているE。
、と1つ前のEl、   (但し、マイナス−の記IJ
−1 号は、jのみに作用する、以下同様)との時間的な差の
平均m及び標準偏差σ、に基づいて、以下に詳述するよ
うに算出される。尚、平均mは、jに依存せず一定であ
る。C,、C,。
z−1’1J−2〜 ・・・、C9,の中から最大値を選ぶことでE・IJ−
nl j−1の位置が決定される。例えば、第1図において、
j=2のときC0が最大となって選択12 されている。
C9,のサーチ範囲は、このco、  の最大JIJ−
1 位置を基準にm−にσ、からm+にσ、の範囲でj  
          J ある。ここでkは定数で2〜3とする。但し、C1j−
1の一最大位置よりm−にσ、が小さい場合」 は、サーチ範囲をm−にσjとする。即ち、サーチ範囲
を(L、、R,)と設定すると、j    」 L、= MAX (m−にσ−,C、−の最大位置)、」   
1j−1 R、=m+にσ 。
J          J として表される。
第2図は、16チヤンネルBPFの出力パワーの時系列
とイベントネットEijに入力する入力フレーム114
との間の関係を示す。16チヤンネルBPFの出力パワ
ーの部分は、縦方向にBPFの番号を示して、各BPF
の出力値を結んで連続線で表し、また、横方向に時間を
示している。
第2図は、更に、イベントネットEi2を時間的にシフ
トする場合を示している。各イベントネットE1.に、
図示した入力フレーム114を入力J し、出力層のユニットからの出力を012の値が夫々、
C121、C122、・・・・・・、C1とす 27 ると、そのうち最大の値を出力しているイベントネット
E0.  (j!=1.2.・・・、7)の出力層1」
l のユニットの出力値をワードネット112の入力層のユ
ニットに入力する。
ここでも、最大値を出力したE、  が太い実25 線で表されている。図中、ラベルは、ここで用いた音声
サンプル「はちJ/hachi/の音素記号表記であり
、hは[hコ、aは[aコ、C1は無音区間、chは[
tf]、iは[iコに夫々対応する。
再び第1図を参照すると、第1図では、Ei□2が選択
されているので、E s 2のサーチ範囲は、E、  
の位置から始まり、前述の時間間隔情報13 を用いて1=7までとなっている。
j=2のとき、C,、C,、・・・・・・、C1211
22 i2□の中から、最大値であるC1  が選択さ 25 れる。
最大値選択に際しては、単純にMAX(Cijl)とせ
ずに、イベントネットの性質及び計算量により、次のよ
うな変形も考えられる。
まず、第1に、全てのC,、(j!=1.2゜fl ・・・、n)が小さい値の場合は、最大値選択を行わず
に範囲の中心jimを選択する。これによりEo、の担
当する単語以外の入力に対して、不必要J な整合を避け、リジェクト能力を高めることができる。
第2に、全てのC9−(j!=1.2.−、n)fl が大きい値のときも上述の場合と同様、l=mとする。
、これにより、長母音等に見られる同じような特徴ベク
トルが長く続く場合に、不自然な整合を避けることがで
きる。
第3に、全てのC−−(j!=1.2.−、 m)Ji が小さい値のときは、サーチ範囲を一定量αだけ拡大し
、m = m + aとしてl=m+1、m+2、・−
・・・・m+αについてC1jJ!を求め、最大値の選
択を行う。これにより、特に発声速度の遅いサンプルに
対して有効に作用する。
第4に、第j番目まで、Cijが全て小さい値のときは
、j千1番目以降のイベントネットの計算は行わず、こ
のイベントネットに接続するワードネットの出力を(0
,1)とする。つまり、第1番目の単語については、途
中で計算を打ち切り、次の第−i+1番目の単語に処理
を進める。jの値としては2〜3が適当であり、認識語
量に類似単語が少ない場合は、計算量がおよそ半分に削
減できる。
以上のように、イベントネット110は、それぞれ入力
された入力フレーム114の特徴ベクトル106とイベ
ントネット110が識別する特定の単語の部分音韻系列
との類似度に相当する値を出力する。
ワードネット112は、入力音声とワードネット112
が識別する特定の単語との類似度に相当する値を出力す
る。5つのイベントネット110の出力は全てワードネ
ット112の入力層に入力される。
ワードネット112は、単語全体として入力音声とワー
ドネット112が識別する特定の単語との類似度に相当
する値を出力する。認識対象語素数を30個とすると、
ワードネット112は30個あり、その出力すべてがス
ーパーネット113の入力層に入力される。スーパーネ
ット113の出力層には、認識対象の分類番号に対応す
る30個のユニットと。
リジェクトを表す1個のユニットとを備えている。
スーパーネット113は、入力音声が認識対象語量の中
にあるなら、その分類番号に対応する出力層のユニット
の出力値が他のユニットに比べ最大になるように各結合
の重み係数を決定する。
入力音声が認識対象語量でない場合、リジェクトに対応
する出力層のユニットの出力値が他のユニットに比べ最
大になる。スーパーネット113の出力は、認識結果判
定部115に入力される。認識結果判定部115では、
スーパーネット113の出力層において最大の出力を出
しているユニットのユニット番号を検索して出力する。
出力されたユニット番号の値が結果出力部116に入力
され、認識結果が表示される。音響分析部104から認
識結果判定部115までをディジタルシグナルプロセッ
サ(以下、DSPと略称)上に構成することが可能であ
る。
実際の認識時においては、語頭検出の直後から各標準パ
ターンのイベントネットEi1の計算を始める。即ち、
時間の経過と共に順次各Ei□、E、  ・・・・・・
、のサーチ範囲の特徴ベクトルが入12ゝ 力されるのと同期して、各E il、E i2、・・・
・・・が計算される。
次に、Ei5の計算が終了した標準パターンから順次そ
のワードネット112が計算される。最終的に全ての標
準パターンのワードネット112が計算されると、スー
パーネット113が計算され、認識結果判定部に処理が
移行する。
従来のように語尾検出の後に認識処理を行うのではなく
、語頭の出直後から認識処理が始まり、発声時間の経過
とほぼ同時に進行してイベントネットE1.による認識
処理が行なわれるので認識J 応答時間の大幅な短縮が可能になる。
次に、各ニューラルネットワークの結合の重み係数を求
める方法、即ち学習方法について詳述する。
(A)イベントネットの学習方法 本実施例においてイベントネット110は、第4図に示
す3層構造の多層パーセプトロン型ニューラルネットワ
ークにより構成されている。
第4図(a)は、入力層ユニット2011中間層ユニッ
ト202、及び出力層ユニワード203の結合状態を示
す。入力層ユニット201は、特徴ベクトル方向(第4
図(a)では紙面に対して垂直方向)に特徴ベクトルの
次元数に等しい数だけ配列されている。音声認識におい
ては、隣接するフレーム間の相関が高く、複数のフレー
ムをまとめて圧縮した方が効率がよいので、本実施例で
は、16チヤンネルのBPFの2つのフレーム分の出力
パワー値をに−L変換で6次元に圧縮したデータとフレ
ーム毎のパワーに相当する値とから構成された7次元の
特徴ベクトルを用いており、入力層ユニット201は7
つのユニットが特徴ベクトル方向に並列に配置されてい
る。また、入力音声の分析周期がlQm sで、2つの
フレームを1フレームに圧縮しているため、時間軸方向
(第4図(a)では紙面に対して横方向)の入力層ユニ
ット201の各ユニット間の時間差は20m5に相当す
る。中間層ユニット202も5つのユニットが特徴ベク
トル方向に並列に配置されている。
第4図で、各中間層ユニット202は全ての入力層ユニ
ット201 と互いに接続されている。同様に、出力層
ユニット203も2つのユニットが特徴ベクトル方向に
並列に配置されている。各出力層ユニット203は全て
の中間層ユニット202と互いに接続されている。
中間層ユニット202及び出力層ユニット203の入出
力特性を表す関数としてシグンモイド(sigmo i
 d)関数が用いられている。
第4図(b)は、イベントネット110の規模を小型化
し、処理を高速にするために、中間層ユニット202と
入力層ユニット201 との間の結線を減少して、相互
接続を制限している場合を示す。
音声の場合、互いに離れた特徴ベクトル同士が局所的に
はあまり影響を及ぼさないためにこのような接続が可能
である。
次に学習時の操作について述べる。まず、入力音声の特
徴ベクトル106をスペクトログラムにより、音韻に応
じて第1表に示すラベルの種類に分類する。上記ラベル
付けされた特徴ベクトル106のうち、ある認識対象語
量の分類に含まれる単語のn番目の特徴ベクトル106
において、その単語のに番目のラベルLkと、(k+1
)番目のラベル”k+1との境界の生起時刻、即ち語頭
を時刻0とした場合のラベルLkが出現する時刻をt。
(n)、単語長(全体の継続時間)をW(n)とし、学
習に用いる同−分類内の単語数をN とすると、ラベル
L とラベルL   の境界の平均k      k+
1 界を、ラベルの標準パターンと呼ぶ。
第5図(a)に単語/ i c h i /のラベルの
標準パターンを示す。第5図(a)において矢印は、イ
ベントネット110に入力すべき特徴ベクトル106の
中心フレーム(イベントネット110の入力層は7フレ
ームに相当するので、7フレームの内の先頭から4フレ
ーム目のこと)を示す。入力すべき特徴ベクトル106
の中心フレームは、1つ目から5つ目のイベントネyN
10の夫々の中心フレームが等間隔に並ぶよう決定され
る。
第5図(b)を参照すると、上述のようにラベルの標準
パターンを作成し、実際に、学習時において個々のイベ
ントネット110の中心フレームは、標準パターンと単
語のラベルパターンとを比較することで同じ部分音韻系
列の特徴量が入力される位置に決定され得る。
上述のように中心フレームが決定された位置から、音声
の特徴ベクトル106をイベントネット110の入力層
に入力すると、発声の変動で音韻の時系列が非線形に伸
縮していても、常に一定の部分音韻系列の特徴ベクトル
106が入力される。
認識対象語業のi番目の分類を認識するj番目のイベン
トネット110の名称をEl、とすると、j イベントネットE1、の出力層には2つのユニツJ トC・ ・、C・ ・がある。
1  j     IJ 認識すべき認識対象の部分音韻系列が入力された場合、 (C・ ・、C・ ・)= IJ      IJ という教師信号を与える。
(1,O) 上記の部分音韻系列以外のものが入力された場(C,、
、C,、)= (0,1) 13    1J という教師信号を与えて学習を行う。
学習時の高速化をはかるため、教師信号のうち、1を0
.9、Oを0.1として学習を行ってもよい。
また、教師信号を簡単に作成するために、認識すべき単
語が入力された場合、 (C・ ・、C・ ・)=(1,0) IJ      IJ を教師信号として用いてもよく、 その他の単語が入力された場合、 (C,、、C,、)= (0,1) IJ      13 を教師信号として用いてもよい。
このようにして、イベントネットE9、の冬枯l 」 合の重み係数を求める。
イベントネットE1.が、認識すべき単語以外j の単語を学習する場合、夫々のイベントネットE3、の
中心フレームは、標準パターンで中心フレJ −ムを決定したときと同様の方法、即ち各イベントネッ
トE0.を等間隔に配置する方法で決定さIJ れ得る。
学習を行ったイベントネットE1、は、認識すIJ べき単語の部分音韻が入力された場合には、C1、のユ
ニットの出力値が最大に、C1,のユニッJ     
           IJトの出力値が最小に、逆に
その他の部分音韻が入力されたときにC1,のユニット
の出力値が最小J に、C1,のユニットが最大になる。
l 」 イベントネットE0.の数は、5つに限定するIJ 必要はなく、認識する単語毎に可変として、例えば(単
語の音節数)+2個としてもよい。
(B)ワードネットの学習 ワードネットの構成は、第6図のような3層または2眉
のパーセプトロン型ニューラルネットワークである。出
力層のユニットをC8、C1と呼1 ぶ。以下に、学習時のデータの与え方について述べる。
第1に、認識すべき単語が学習サンプルの場合は、各イ
ベントネット110は、イベントネット11]自体の学
習時に定めたように、ラベル−の情報に基づいて時間軸
の非線形変動を取り除いた位置を用いる。そして、ワー
ドネット112への入力は、この時の各イベントネット
11Gの出力を用いる。
この時のワードネット112の教師信号は、(C1,C
0)= (1,0) 1 であり、各イベントネット110は、それぞれ最も望ま
しい位置で出力するので、実際の認識時に近い学習にな
る。
第2に、認識すべき以外の単語が学習サンプルの場合は
、各イベントネット110の時間軸方向のシフトは、本
実施例では3回とする。この回数は、固定されたもので
はなく、計算量との兼ね合いで3回よりも多く設定して
よい。
イベントネット11Gは、5つで、それぞれが3回シフ
トするので合計15個の配置を決定する必要があり、配
置は等間隔である。
(C)スーパーネットの学習 第7図に示すように、スーパーネット113は、3mの
パーセプトロン型ニューラルネットワークから構成され
ている。本丈施例では、認識対象の誘電数が30個なの
で、入力層のユニット601のユニット数は60個とな
る。入力層のユニット601にはそれぞれのワードネッ
ト110の出力値が入力される。中間層のユニット60
2のユニット数は30個とする。出力層のユニット60
3は、認識対象の誘電のカテゴリ一番号に対応するユニ
ット30個と、リジェクトを表すユニット1個との合計
31個のユニットを備えている。
入力音声が認識し得る語索に含まれる場合は、そのカテ
ゴリ一番号を1とすると、出力層のユニットc   c
   、、、C31に、1゛2゛ (CC、C、C)= 1’   2’    I’    31(0,0,、
1,、0) として、1番目のユニットだけが1の値を有し、その他
のユニットがOになるような教師信号を与えて学習する
また、入力音声が認識し得る誘電に含まれない場合出力
層の各ユニットに (CC、、、C3o、 C31)= 1・  2′ (0,0,、、,0,1) として、C31のユニットだけが1の値を有し、その他
のユニットがOになるような教師信号を与えて学習する
以上のようにして、各ネットワークの各結合の重み係数
を求めておく。
次に、認識時には、入力音声の特徴ベクトル106が入
力されると、パワーしきい値を用いた切り出し等の手法
で、入力音声の語頭のフレームを検出し、前述の手法を
用いて、検出された語頭より少し手前のフレームから第
1番目のイベントネットから順次作用させて行く。
最終的に第5番目のイベントネット110の最大出力値
が観測された時点で、ワードネット112の入力値が定
まり、その入力値に対応する出力値も決定される。各認
識単語毎に、このようにワードネット112の出力値を
算出し、これらを、スーパーネット113の入力とする
。スーパーネット113の出力は、第3図の認識結果判
定部115に送られ、認識結果が得られる。この時の判
定アルゴリズムを第8図に示す。第8図において、θは
スーパーネット113の各出力層のユニット603から
の出力値の最大値が所定の値よりも小さい場合に、リジ
ェクトするか否かを決定するしきい値であり、本実施例
ではθ=0.5である。
[発明の効果コ 本発明の音声認識装置によれば、話者及び発声の違いに
より、単語中の各音韻の継続時間が非線形的に変動する
ことを、各イベントネットに入力される特徴ベクトル系
列の範囲をイベントネット間の時間間隔情報に基づいて
、語頭から順に適切に選択することで、時間軸を整合し
て同じ部分音韻系列が常に同じイベントネットに入力さ
れるので、イベントネットを語頭から順に適切に選択す
ることによって語尾の検出を行うことができる。
従って、ニューラルネットワークの各結合の重み係数を
安定して求めることができ、ニューラルネットワークの
規模を縮小することができと共に、計算量を削減でき、
語尾付近の付加雑音及びパヮ−の小さい語尾音韻、話者
及び発声の変動に対して高い認識性能を得る。また、語
頭の検出直後からイベントネットによる認識処理が発声
時間の経過と共にほぼ同時進行で実行され、発声終了後
の主な認識処理が、ワードネット及びスーパーネットの
計算だけなので、認識応答時間の大幅な短縮ができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
第1図に示した実施例を「ハチ/hachiJの音声認
識に対して示した図、第3図は本発明の一実施例におけ
る構成図、第4図(a)及び第4図(b)は本発明の一
実施例におけるイベントネットの構成図、第5図(a)
及び第5図(b)は本発明の一実施例におけるラベルと
イベントネットの中心フレームとの関係を示す図、第6
図(a)及び第6図(b)は本発明の一実施例における
ワードネットの構成図、第7図はスーパーネットの構成
図、第8図は認識結果判定部の判定アルゴリズムを示す
図、である。 101・・・マイク、102・・・アンプ、103・・
・A/D変換器、104・・・音響分析部、105・・
・BPF、HI6・・・特徴ベクトル、107・・・圧
縮部、108・・・語頭検出部、109・・・イベント
ネット群、110・・・イベントネット、111・・・
特徴ベクトル系列、112・・・ワードネット、113
・・・スーパーネット、114・・・入力フレーム、1
15・・・認識結果判定部、116・・・結果出力部。 第1表 jli2図 (a) (b) 第4図 第5図 第7図 Ci Ci Ci。 1 Ci2Ci2C;3Ci3 Ci4 14 Cis C+5 (a) Ci。 Ci+ Cl2C;2 Ci3 Ci3 14 14 Ci5 cis (b) 第6図

Claims (1)

    【特許請求の範囲】
  1. 入力音声を音響分析して得られた特徴量を多層パーセプ
    トロン型ニューラルネットワークの入力層の各ユニット
    に入力し、出力層の各ユニットとからの出力値に応じて
    音声認識を行う音声認識装置であって、入力音声を各フ
    レーム毎に音響分析して得られた特徴量から該入力音声
    の始端を検出する検出手段と、前記検出された入力音声
    の始端付近から順次、多数話者の音声サンプルから抽出
    された時間間隔情報に基づいて前記特徴量を所定の範囲
    内で時間的にずらし、当該時間的にずらされた特徴量の
    なかで出力値が最大になる位置を選択して、認識対象語
    彙のうち特定の単語の部分音韻系列との類似度に相当す
    る値を出力するイベントネットと、前記イベントネット
    に接続されており当該イベントネットからの出力の全て
    を入力し、前記入力音声に対して前記特定の単語との類
    似度に相当する値を出力するワードネットと、前記ワー
    ドネットに接続されており当該ワードネットからの出力
    の全てを入力し、該入力音声の属する認識分類に応じた
    値を出力するスーパーネットとを備えていることを特徴
    とする音声認識装置。
JP2069248A 1989-12-28 1990-03-19 音声認識装置 Expired - Fee Related JP2792709B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2069248A JP2792709B2 (ja) 1990-03-19 1990-03-19 音声認識装置
EP90125562A EP0435282B1 (en) 1989-12-28 1990-12-27 Voice recognition apparatus
DE69030561T DE69030561T2 (de) 1989-12-28 1990-12-27 Spracherkennungseinrichtung
US08/024,853 US5404422A (en) 1989-12-28 1993-02-26 Speech recognition system with neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2069248A JP2792709B2 (ja) 1990-03-19 1990-03-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03269500A true JPH03269500A (ja) 1991-12-02
JP2792709B2 JP2792709B2 (ja) 1998-09-03

Family

ID=13397254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2069248A Expired - Fee Related JP2792709B2 (ja) 1989-12-28 1990-03-19 音声認識装置

Country Status (1)

Country Link
JP (1) JP2792709B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274197A (ja) * 1993-03-18 1994-09-30 Sharp Corp 音声認識装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991752B2 (ja) 1990-08-07 1999-12-20 シャープ株式会社 音声認識装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177597A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JPH01204099A (ja) * 1988-02-09 1989-08-16 Nec Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177597A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JPH01204099A (ja) * 1988-02-09 1989-08-16 Nec Corp 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274197A (ja) * 1993-03-18 1994-09-30 Sharp Corp 音声認識装置

Also Published As

Publication number Publication date
JP2792709B2 (ja) 1998-09-03

Similar Documents

Publication Publication Date Title
Zhou et al. CNN with phonetic attention for text-independent speaker verification
US8566088B2 (en) System and method for automatic speech to text conversion
US5404422A (en) Speech recognition system with neural network
Yeh et al. Segment-based emotion recognition from continuous Mandarin Chinese speech
EP0549265A2 (en) Neural network-based speech token recognition system and method
Nanavare et al. Recognition of human emotions from speech processing
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
Chachadi et al. Voice-based gender recognition using neural network
Radha et al. Accent classification of native and non-native children using harmonic pitch
Nivetha A survey on speech feature extraction and classification techniques
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
Chachadi et al. Gender recognition from speech signal using 1-D CNN
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Rabiee et al. Persian accents identification using an adaptive neural network
US5487129A (en) Speech pattern matching in non-white noise
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Raghib et al. Emotion analysis and speech signal processing
Moumin et al. Automatic Speaker Recognition using Deep Neural Network Classifiers
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JPH03269500A (ja) 音声認識装置
Hanifa et al. Comparative Analysis on Different Cepstral Features for Speaker Identification Recognition
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Zhou et al. Sound Event Detection with Speech Interference Using Convolutional Recurrent Neural Networks
Kirschning et al. Phoneme recognition using a time-sliced recurrent recognizer
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees