JP2792720B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2792720B2
JP2792720B2 JP2169062A JP16906290A JP2792720B2 JP 2792720 B2 JP2792720 B2 JP 2792720B2 JP 2169062 A JP2169062 A JP 2169062A JP 16906290 A JP16906290 A JP 16906290A JP 2792720 B2 JP2792720 B2 JP 2792720B2
Authority
JP
Japan
Prior art keywords
word
net
event
output
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2169062A
Other languages
English (en)
Other versions
JPH0457099A (ja
Inventor
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP2169062A priority Critical patent/JP2792720B2/ja
Priority to EP90125562A priority patent/EP0435282B1/en
Priority to DE69030561T priority patent/DE69030561T2/de
Publication of JPH0457099A publication Critical patent/JPH0457099A/ja
Priority to US08/024,853 priority patent/US5404422A/en
Application granted granted Critical
Publication of JP2792720B2 publication Critical patent/JP2792720B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、ニューラルネットワークを用いた音声認識
装置に関する。
[従来の技術] 一般に音声認識装置では、マイクロホンから入力され
る信号の中から発声の前後の無音区間及び雑音区間を取
除いて、音声区間だけを抽出する処理、即ち、音声区間
の検出が必要である。
音声区間の検出は、信号対雑音比(以後、S/N比と称
する)が良い場合にはそれほど困難ではない。その場合
には、音声信号のパワー時系列の値が適当なしきい値を
越える区間を音声区間として検出すればよい。
しかし、実際の環境では、種々の雑音のためS/N比が
劣化し、弱い摩擦音、音声の始端(以後、語頭と称す
る)及び終端(以後、語尾と称する)に存在する振幅の
小さい有声音などの検出が困難になる。また、非定常雑
音を音声区間として誤検出してしまうこともある。
雑音環境下における音声区間の検出方法の1つとし
て、複数の区間候補から適格な音声区間を選択する方法
がある。
上記の方法は、複数の区間の各候補について実際に音
声認識を行って、照合得点の最も高い区間を適格な音声
区間として選択する。
更に上記の方法を発展させて、データ上の全ての時刻
を頭語及び語尾の候補とし、全ての区間について音声認
識を行い、照合得点の高い区間を見つける方法がある。
その一例として、ワードスポッティングがある。ワード
スポッティングのマッチングでは連続ダイナミック・プ
ログラミング法(以後、連続DP法と称する)が用いられ
ている。
単語音声認識装置としては、山口、坂本による「音声
認識装置」(特願平2−69248号)がある。この単語音
声認識装置は、音声を音響分析して得られた特徴量を、
多層パーセプトロン型ニューラルネットワークの入力層
の各ユニットに入力し、出力層の各ユニットの出力値に
応じて音声の認識結果を得る。
上記の単語音声認識装置は、入力音声を各フレームに
ついて音響分析して得られた特徴量をイベントネットの
入力層の各ユニットに入力するときに時間間隔情報に基
づいて、あらかじめ所定の方法で検出した単語の語頭付
近から順に所定の範囲内で各イベントネットに入力する
特徴量を時間的にずらし、時間的にずらされた特徴量の
中で各イベントネットの出力値が最大になる位置を選択
することにより、入力音声の時間伸縮を補正すると共
に、最終のイベントネットの最大出力位置を入力音声の
終端としている。
[発明が解決しようとする課題] 上述の連続DP法によるワードスポッティングを用いた
音声認識装置には、認識対象語彙以外の入力に対するリ
ジェクト能力が低く、耐騒音性も低いという問題点があ
る。また、フレーム毎の局所的な距離しか観測していな
いので余計な言葉の付加、単語及び音韻の脱落を生じや
すいと共に、DPマッチングを常に実行しなければならな
いのでフレーム間距離の計算量及び記憶量が多くなると
いう問題点がある。
上述の単語音声認識装置には、語頭を何らかの方法で
あらかじめ検出しなければならず、検出誤差が大きい場
合には誤認識及びリジェクトが発生するという問題点が
ある。
本発明の目的は、上述の従来の音声認識装置の問題点
に鑑み、雑音環境下で入力音声の認識対象語彙を認識す
ることができるニュートラルネットワークを用いた音声
認識装置を提供することにある。
[課題を解決するための手段] 本発明の上述した目的は、それぞれが多層パーセプト
ロン型ニュートラルネットワークで構成された、入力音
声を各フレーム毎に音響分析して得られた特徴量を入力
するイベントネットと、イベントネットからの出力を入
力して入力音声に対して認識対象語彙のうちの特定の単
語との類似度に相当する値を出力するワードネットと、
ワードネットからの出力を入力して入力音声の属する認
識単語に応じた値を出力するスーパーネットとを備えて
おり、イベントネットは、多数話者の音声サンプルを分
析して得られた時間間隔情報に基づいて、任意の時刻を
語頭として所定の範囲内で特徴量を時間的にずらし、時
間的にずらされた特徴量の中で出力値が最大になる位置
を選択して、特定の単語中の部分音韻系列の類似度に相
当する値を出力すると共に、イベントネットが選択した
出力値が最大になる位置から認識単語の語頭及び語尾を
検出するように構成されていることを特徴とする音声認
識装置によって達成される。
[作用] イベントネットが入力音声をフレーム毎に音響分析し
て得られた特徴量を入力し、多数話者の音声サンプルを
分析して得られた隣り合うイベントネット間の時間間隔
情報に基づいて、任意の時刻を語頭として所定の範囲内
で各イベントネットに入力する特徴量を互いに時間的に
ずらし、そのイベントネットが相当する単語かそうでな
いかを判別すると共に、時間的にずらされた特徴量の中
で出力値が最大になる位置を選択して、認識対象語彙の
うち特定の単語中の部分音韻系列の類似度に相当する値
を出力し、かつイベントネットが選択した出力値が最大
になる位置から認識単語の語頭及び語尾を検出し、ワー
ドネットがイベントネットからの出力を入力して入力音
声に対して特定の単語との類似度に相当する値を出力
し、スーパーネットがワードネットからの出力を入力し
て入力音声の属する認識単語に応じた値を出力する。
[実施例] 以下、本発明の音声認識装置における一実施例を図面
を参照して詳述する。
第1図は、本実施例による音声認識装置の構成を示
す。
第1図に示す音声認識装置は、マイクロホン21、マイ
クロホン21に接続されたアンプ22、アンプ22に接続され
たアナログ/デジタル変換器(以後、A/D変換器と称す
る)23、A/D変換器23に接続されており、複数の帯域通
過フィルタ(以後、BPFと称する)25が並列に接続され
た音響分析部24、音響分析部24に接続された圧縮部26、
圧縮部26に接続された特徴ベクトル格納部27、特徴ベク
トル格納部27に接続されており、それぞれに複数のイベ
ントネット28が並列に接続された複数のイベントネット
群29、各イベントネット28に接続されており各イベント
ネット群29にそれぞれ備えられているイベントネット出
力格納部30、それぞれが各イベントネット群29に接続さ
れた複数のワードネット31、それぞれが各ワードネット
31に接続された複数のワードネット出力格納部32、複数
のワードネット31に接続されたスーパーネット33、スー
パーネット33に接続された結果判定部34、結果判定部34
に接続された結果表示部35により構成されている。
次に、第1図に示す音声認識装置の動作を説明する。
まず、マイクロホン21から入力された音声はアンプ22
によって増幅され、A/D変換器23でアナログ信号からデ
ジタル信号に変換された後、音響分析部24に入力され
る。
音響分析部24では、BPF25を用いて入力された音声を
音響分析し、フレーム毎に各BPF25の出力パワーの値を
出力する。
なお、上記の音響分析はBPF群による分析に限らず、
リニア・プレディクティブ・コーディング(Linear Pre
dictive Coding)、以後LPCと称する)又はケプストラ
ム分析等によって得られたパラメータを用いてもよい。
圧縮部26は、ネットワークの規模を小さくするため
に、K−L変換を用いて入力音声の特徴ベクトルの次元
を減少させる。
特徴ベクトル格納部27は、圧縮部26でK−L変換によ
り圧縮された特徴ベクトルを順次入力する。
しかし、動作の開始直後にはまだマイクロホン21から
実際の入力がないので特徴ベクトル格納部27は、特徴ベ
クトルの初期値として、無音区間の特徴ベクトルを擬似
的にT秒間分だけ格納しておく(ここでTの値は認識対
象語彙に依存する数を表す)。
第1図の音声認識装置では語頭検出を行わないので、
特徴ベクトル格納部27から出力された全てのフレーム
は、イベントネット28に入力される。なお、図に示すよ
うに複数のイベントネット28が並列に接続されてイベン
トネット群29を形成している。
特徴ベクトル格納部27は、第2図に示すようにリング
バッファになっており、現時点の特徴ベクトルの格納場
所はWポインタ(書き込み用)で示される。図中のFポ
インタは、仮定した語頭の時刻(フレーム)を表す。実
際には、単語によって継続時間が異なるので上記Tの値
を、各単語r(但し、r=1,2,……,R、であり、Rは語
彙数を表す)に対応して定めることにより処理の効率が
良くなる。なお、単語rはイベントネット及びワードネ
ットで構成される標準パターンである。
現在の時刻をtbとすると、Wポインタはtb、単語rの
語頭はtf rでそれぞれ表される。
上記Tの値は、語彙中の最大の継続時間程度に設定す
ればよく、本実施例ではT=1.2秒とする。
現在の時刻がtbのとき、単語rに対して仮定する語頭
は、区間[tf r,tf r+Δ]に属する全てのフレームとす
る。ここでΔはΔ=tb−tf r−Tmin rで表される。また、
Tmin rは単語rの考えられ得る最小継続時間である。
第3図に現在の時刻tb、単語rの語頭tf r、最小継続
時間Tmin r及びΔの関係を示す。
次に、第1図の音声認識装置による語頭の検出方法に
ついて説明する。
まず、区間[tf r,tf r+Δ]内の全てのフレーム、即
ち、tf r,tf r+1,tf r+2,…,tf r+Δの全てを語頭と仮定
する。
tf rが語頭のときには、単語rの先端のイベントネッ
トEr1のサーチ範囲を前後にそれぞれKフレーム(Kは
単語によって一般に異なるがここでは3とする)に設定
すると、イベントネットEr1の演算の対象となるフレー
ムの中心は、tf r−3,tf r−2,…,tf r+3になる。
また、tf r+1が語頭のときには、イベントネットEr1
の演算の対象となるフレームの中心は、tf r−2,tf r−1,
…,tf r+4である。が、これらのフレームのうちtf r
2,tf r−1,…,tf r+3は、tf rを語頭としたときに算出さ
れおり、既にイベントネット出力格納部30に納められて
いるので、その算出結果を利用する。
このイベントネット出力格納部30も特徴ベクトル格納
部27と同様にリングバッファ構造になっている。また、
イベントネット出力格納部30は、単語rに対応する各イ
ベントネット群29にそれぞれ備えられている。即ち、イ
ベントネット出力格納部30は、1つの単語rについてN
個(Nはイベントネット群29の数であり、本実施例では
N=5)存在する。
上述のようにイベントネットEr1に関しては、tf r+1
が語頭のときに新たに算出するのはtf r+4のフレーム
のみとなる。
以下、各イベントネットEr2,Er3,Er4,Er5に対して、
重複する計算の部分については、同様に各イベントネッ
ト出力格納部30から読み出しを行う。また、新たに計算
した場合は、イベントネット28からの出力結果を各イベ
ントネット出力格納部30に書き込む。
以上、tf rからtf r+Δを語頭と仮定したときの、現在
の時刻tbにおけるイベントネット28からの出力は、上述
のようにして得られる。
次に、区間[tf r,tf r+Δ]でイベントネットEr1のサ
ーチ範囲の最大値選択により決定された語頭をf1 r
f2 r、…、fp rと表す。すなわち、先頭のイベントネット
が出力格納部30に格納された複数の出力値から最大値を
選択することにより、最大値に対応した部分が語頭と決
定される。但しpはp<Δの条件を満足する値であり通
常は2〜3である。
ワードネット出力格納部32は、イベントネットEr1
上記の語頭fj r(j=1,2,…,p)を選択したときのワー
ドネット31からの出力を書き込む。
そしてワードネット出力格納部32に格納されている値
のうち最大のものを選択してスーパーネット33に出力す
る。
イベントネット28、ワードネット31及びスーパーネッ
ト33の基本動作を以下に説明する。
第4図において、特徴ベクトル系列のうち、イベント
ネット28の入力層に相当する範囲のフレーム系列が各イ
ベントネット28に入力される。
イベントネット28には、特定の認識対象の単語につい
て、入力層に入力する特徴ベクトル系列を時間軸方向に
ずらしたものがN個(但し、Nは正の整数)あり、本実
施例ではN=5である。
なお、単語によってNを異なる値としてもよい。3〜
4音節以下の通常の単語ならばN=5とし、5音節以上
の長い単語は、N=[m/2+3.5](但しmは音節数、
[x]はxを越えない最大の整数)とする。
次に、認識時において特徴ベクトル系列を時間軸方向
にずらす方法について述べる。
認識対象の第i番目の単語を認識する第j番目のイベ
ントネットの名称をEijとすると、イベントネットEij
出力層には2つのユニットCij、▲▼がある。
イベントネットEijが認識を担当している単語(第i
番目に相当する)の部分音韻系列(単語の継続時間長を
1とおくと、語頭からj/N付近に相当する)が入力され
た場合には、 となるように、イベントネットEijは学習されている。
逆に、上記の部分音韻系列以外のものが入力された場
合には、 となるようにイベントネットEijは学習されている。即
ち、ユニットCijはイベントネットEijが相当する単語中
の特定の時点に対して高い値になる。
時間軸方向へのずらし間隔は、圧縮された特徴ベクト
ル系列の1フレームとする。なお、計算量を削減させた
いときにはこれを2フレームとしてもよい。
時間軸方向へのずらし範囲の量(サーチ範囲のフレー
ム数と同じ量)をnとすると、このnの値は、イベント
ネットEijによって異なる値であり、第4図においては
イベントネットEijに対しては、n=5、イベントネッ
トEi2に対してはn=7にそれぞれ設定されている。
また、イベントネットEijは前から順にEij1,Eij2,…,
Eijnで示され、出力はそれぞれCij1,Cij2,…,Cijnで一
般的に表される。第4図には、その一部分としてEi11,E
i12,Ei13,Ei21,Ei22,Ci11及びCi12が示されている。
ワードネット31への入力としては、これらn個の
Cij1,Cij2,…,Cijn中の最大値を各jの値に対して選択
する。
なお、イベントネットEi1のサーチ範囲は、仮定され
た語頭を中心として前後に一定量、たとえば3フレーム
ずつとする。または、多数話者の統計により、単語全体
の継続時間長の標準偏差の定数倍としてもよい。
図中、イベントネットEijのサーチ範囲は、横棒の矢
印で示されており、各ユニットCijl(j=1,2,...,5)
の最大値選択で、最大値として選択された位置が太い実
線で表されている。例えば、イベントネットEi1ではE
i12、Ei2ではEi25がそれぞれ選択されている。
次に、イベントネットEij-1をイベントネットEij(j
>1)の1つ前のイベントネットとする(例えば、イベ
ントネットEi4の1つ前のイベントネットは、Ei4-1、即
ちEi3である。以下、マイナス(−)の記号は全ての符
号のサブスクリプトjのみに作用するものとする)。
イベントネットEij(j>1)のサーチ範囲は、多数
話者の統計によりあらかじめ求められているイベントネ
ットEijとイベントネットEij-1との時間的な差の平均
(m)及び標準偏差(σ)に基づいて、以下のように
算出される。なお、mはjによらず一定である。
出力Cij-1,Cij-2,…,Cij-nの中から最大値を選ぶこと
でイベントネットEji-1の位置が決定される。
イベントネットEijのサーチ範囲は、この出力Cij-1
最大位置を基準にm−Kσからm+Kσの範囲であ
る。ここでKは定数で2〜3くらいとする。ただし、C
ij-1の最大位置よりm−Kσが小さい場合は前者を採
用する。
即ち、サーチ範囲を(Lj、Rj)とおくと、 Lj= max(m−Kσj,Cij-1の最大位置)、 Rj=m+Kσ として表される。
一例として、j=2のときは上記の関係を用いて、出
力Ci21,Ci22,…,Ci27から出力Ci25が最大値として選択
される(第4図及び第5図を参照)。
また、最大値選択に際しては、単純にmax(Cijl)と
せずに、イベントネットの性質及び計算量により、次の
ような変形も考えられる。
まず、第1に、全ての出力Cijl(l=1,2,…,n)が小
さい値のときは、最大値選択を行わずにサーチ範囲の中
心l=mを選択する。これによりイベントネットEij
担当する単語以外の入力に対して不必要な整合を避け、
リジェクト能力を高めることができる。
第2に、全ての出力Cijl(l=1,2,…,n)が大きい値
のときも、上記第1の場合と同様にl=mとする。これ
により、長母音等に見られる同じような特徴ベクトルが
長く続く場合に不自然な整合を避けることができる。
第3に、全ての出力Cijl(l=1,2,…,m)が小さい値
のときは、サーチ範囲をある一定量αだけ拡大し、m=
m+αとしてl=m+1,m+2,…,m+αについて出力C
ijlを求めて最大値選択を行う。これにより、特に発声
速度の遅いサンプルに対して有効に作用する。
次に、上記のイベントネット28、ワードネット31及び
スーパーネット33の学習について説明する。
イベントネット28、ワードネット31及びスーパーネッ
ト33は、基本的には多層パーセプトロン型ニューラルネ
ットワークにおける誤差逆伝播法を用いて学習される。
ただし、イベントネット28、ワードネット31及びスー
パーネット33は、音声サンプルだけでなく、無音サンプ
ル、即ち雑音区間についても学習を行う。
雑音区間の学習のときの教師信号としては、イベント
ネットに対して、 を与える。即ち、雑音区間をそのイベントネットが担当
する部分音韻系列ではないとする。
ここで、そのイベントネットが足音等の長い無音区間
を担当している場合は、上記のような雑音区間のサンプ
ルは与えない。
雑音サンプルを与えるか否かについては、学習過程で
誤差が大きいままに維持されるサンプルを検索して、そ
れが雑音サンプルであれば、それ以降の学習からは除外
するように決定する。
ワードネットに対しても、雑音サンプルが入力された
ときは、そのワードネットが担当する単語ではないとし
て、 の教師信号を与える。
スーパーネットでは、このようなワードネットの出力
に対しては、リジェクトに相当するユニットに1を与え
て学習する。
実際の音声認識の動作時には、tbを現在の時刻に合わ
せて、tb+1,tb+2というように1フレームずつインク
リメントする。それに伴ない、語頭tf rも1フレームず
つインクリメントされる。
全ての語頭tf rついて一様に1フレームずつインクリ
メントするときは、単語rによらず語頭tf rは同じ値と
なる。
イベントネット出力格納部30に格納されている区間
[tf r、tf r+Δ]におけるイベントネットEr1の計算結
果を参照して、イベントネットEr1の出力Cr1が低い値の
フレームは、計算の効率化のためにスキップしてもよ
い。
しきい値をθ(通常0.1〜0.2)とし、tf r+i(但
し、1≦i≦Δ)においてCt1<θならば、インクリ
メント量をi+1、即ち、次の語頭仮定フレームをtf r
+i+1とする。
上述の方法により、現在の時刻tbでは、それぞれの単
語rに対して複数の語頭候補が存在する。しかし各ワー
ドネットの出力としては、複数の出力中の最大の出力の
みが選択される。
上記の選択されたワードネットの出力が、スーパーネ
ットに入力され、現在の時刻tb毎にスーパーネットの出
力が計算される。
算出されたスーパーネットの出力は、結果判定部34に
送られる。結果判定部34では、次に述べるようなしきい
値判定により認識結果を結果表示部35に出力する。
まず、Ciを第i番目の単語に対応するスーパーネット
の出力ユニットの値とし、認識語彙数をnとする。更に
Cn+1は、リジェクトに対応するスーパーネットの出力ユ
ニットの値とし、θaはしきい値であり本実施例で
はθ=0.6,θ=0.1とする。
そして、以下のルールに従って認識を行う: ならば、リジェクトする(ルール1)。
(ここで、Iはmax(Ci)=CIを満足するIである)な
らば、リジェクトする(ルール2)。
Cn+1>θ ならば、リジェクトする(ルール3)。
上記ルール1〜3以外の場合、 を満足するIを認識結果とする(ルール4)。
上記の認識結果は結果表示部35に入力されて表示され
る。
なお、イベントネット28、ワードネット31及びスーパ
ーネット33の学習の対象として認識語彙以外の音声を取
り扱ってもよい。この場合、雑音サンプルと同様の学習
方法となる。
学習サンプルの増加に伴って学習が収束するのに必要
な時間は長くなるが、認識対象語彙以外の入力に対する
リジェクト能力の向上及び、連続して発声された音声か
ら認識対象語彙を見付け出すこともできる。
従って、比較的定常な雑音に対しても有効に作用す
る。また、イベントネット28の学習の際に、数種類のレ
ベルの定常雑音を付加した音声サンプルを併せて学習の
対象とすることでニューラルネッワークの汎化能力によ
り、様々なレベルの定常雑音に対して正しい音声認識を
行うことができる。
[発明の効果] それぞれが多層パーセプトロン型ニューラルネットワ
ークで構成された、入力音声を各フレーム毎に音響分析
して得られた特徴量を入力するイベントネットと、イベ
ントネットからの出力を入力して入力音声に対して認識
対象語彙のうちの特定の単語との類似度に相当する値を
出力するワードネットと、ワードネットからの出力を入
力して入力音声の属する認識単語に応じた値を出力する
スーパーネットとを備えており、イベントネットは、多
数話者の音声サンプルを分析して得られた時間間隔情報
に基づいて、任意の時刻を語頭として所定の範囲内で特
徴量を時間的にずらし、時間的にずらされた特徴量の中
で出力値が最大になる位置を選択して、特定の単語中の
部分音韻系列の類似度に相当する値を出力すると共に、
イベントネットが選択した出力値が最大になる位置から
認識単語の語頭及び語尾を検出するように構成されてい
るので、語頭及び語尾を検出するための特別な手段を設
けることなしにワードスポッティングを効果的に行うこ
とができ、認識対象語彙以外の音声に対して誤動作せ
ず、連続して発声された音声から認識対象語彙だけを自
動的に抽出できるので、騒音等の雑音下における音声の
認識が向上する。加えて、イベントネットが部分音韻系
列を単位としているので、音素や音韻などの固定的な単
位を基に比較する場合に比べて、単語毎に認識が容易と
なるように比較単位を設定することができる。また、イ
ベントネット及びワードネットが類似度に相当する値を
出力するので、1又は0等のデジタル的な値を出力する
場合に比べて、種々の入力パターンに対して有効な出力
値を得ることができる。
【図面の簡単な説明】
第1図は本発明の音声認識装置実施例における一実施例
の構成を示すブロック図、第2図は第1図中の特徴ベク
トル格納部の構成を示す図、第3図は現時刻及び仮定し
た語頭の時間的位置関係を示す図、第4図は第1図の音
声認識部におけるニューラルネットの構成図、第5図は
イベントネットの出力の最大値選択を説明する図であ
る。 21……マイクロホン、22……アンプ、23……A/D変換
器、24……音響分析部、25……帯域通過フィルタ、26…
…圧縮部、27……特徴ベクトル格納部、28……イベント
ネット、29……イベントネット群、30……イベントネッ
ト出力格納部、31……ワードネット、32……ワードネッ
ト出力格納部、33……スーパーネット、34……結果判定
部、35……結果表示部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 9/10 301 G10L 3/00 531 G10L 3/00 561 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】それぞれが多層パーセプトロン型ニューラ
    ルネットワークで構成された、入力音声を各フレーム毎
    に音響分析して得られた特徴量を入力するイベントネッ
    トと、前記イベントネットからの出力を入力して前記入
    力音声に対して認識対象語彙のうちの特定の単語との類
    似度に相当する値を出力するワードネットと、前記ワー
    ドネットからの出力を入力して前記入力音声の属する認
    識単語に応じた値を出力するスーパーネットとを備えて
    おり、前記イベントネットは、多数話者の音声サンプル
    を分析して得られた時間間隔情報に基づいて、任意の時
    刻を語頭として所定の範囲内で前記特徴量を時間的にず
    らし、当該時間的にずらされた特徴量の中で出力値が最
    大になる位置を選択して、前記特定の単語中の部分音韻
    系列の類似度に相当する値を出力すると共に、イベント
    ネットが選択した前記出力値が最大になる位置から前記
    認識単語の語頭及び語尾を検出するように構成されてい
    ることを特徴とする音声認識装置。
JP2169062A 1989-12-28 1990-06-27 音声認識装置 Expired - Fee Related JP2792720B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2169062A JP2792720B2 (ja) 1990-06-27 1990-06-27 音声認識装置
EP90125562A EP0435282B1 (en) 1989-12-28 1990-12-27 Voice recognition apparatus
DE69030561T DE69030561T2 (de) 1989-12-28 1990-12-27 Spracherkennungseinrichtung
US08/024,853 US5404422A (en) 1989-12-28 1993-02-26 Speech recognition system with neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2169062A JP2792720B2 (ja) 1990-06-27 1990-06-27 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0457099A JPH0457099A (ja) 1992-02-24
JP2792720B2 true JP2792720B2 (ja) 1998-09-03

Family

ID=15879639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2169062A Expired - Fee Related JP2792720B2 (ja) 1989-12-28 1990-06-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP2792720B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991752B2 (ja) 1990-08-07 1999-12-20 シャープ株式会社 音声認識装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3460723B2 (ja) * 1992-05-19 2003-10-27 富士通株式会社 音声認識方式

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177597A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JP2531227B2 (ja) * 1988-02-09 1996-09-04 日本電気株式会社 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
久間、中山編著「ニューロコンピュータ工学」工業調査会(平成4年2月)P.160〜161,176〜177

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991752B2 (ja) 1990-08-07 1999-12-20 シャープ株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH0457099A (ja) 1992-02-24

Similar Documents

Publication Publication Date Title
US5404422A (en) Speech recognition system with neural network
US5791904A (en) Speech training aid
US20220343895A1 (en) User-defined keyword spotting
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP6003972B2 (ja) 音声検索装置、音声検索方法及びプログラム
JPH0990974A (ja) 信号処理方法
JP4340685B2 (ja) 音声認識装置及び音声認識方法
KR20010102549A (ko) 화자 인식 방법 및 장치
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP3798530B2 (ja) 音声認識装置及び音声認識方法
JP2792720B2 (ja) 音声認識装置
JPH0247760B2 (ja)
JP3428058B2 (ja) 音声認識装置
JPH08211897A (ja) 音声認識装置
Nouza et al. Fast keyword spotting in telephone speech
JP2792709B2 (ja) 音声認識装置
JP3615088B2 (ja) 音声認識方法及び装置
JPH0442299A (ja) 音声区間検出装置
JPS645320B2 (ja)
JPH0612090A (ja) 音声学習方式
Kuah et al. A neural network-based text independent voice recognition system
JP4883717B2 (ja) 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JPH0247758B2 (ja)
JP2003108188A (ja) 音声認識装置
Zhu A combined neural network and hidden Markov model approach to speaker recognition

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees