JP2003524792A - 音声認識システムと方法 - Google Patents

音声認識システムと方法

Info

Publication number
JP2003524792A
JP2003524792A JP2000568077A JP2000568077A JP2003524792A JP 2003524792 A JP2003524792 A JP 2003524792A JP 2000568077 A JP2000568077 A JP 2000568077A JP 2000568077 A JP2000568077 A JP 2000568077A JP 2003524792 A JP2003524792 A JP 2003524792A
Authority
JP
Japan
Prior art keywords
level
rate
input
vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000568077A
Other languages
English (en)
Inventor
コマー,ロベール ヴァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swisscom AG
Original Assignee
Swisscom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swisscom AG filed Critical Swisscom AG
Publication of JP2003524792A publication Critical patent/JP2003524792A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Character Discrimination (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Nitrogen Condensed Heterocyclic Rings (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 相互接続された計算素子(10、11)の複数のレベル(20、21、22)を含むニューラル・ネットワークシステムで、前述のレベルには、少なくともひとつの最初のレートで一連の入力音声ベクトル(2)を印加することのできる入力レベル(20)が含まれている。少なくともひとつの計算素子(10)が、送出信号のレートを減少させるためのデシメータ(102)を含んでいる。パラメータ化装置により、デジタル音声信号に基づいて、前述の音声ベクトル(2)を送出することができる。長所:音声信号の多数のフレームに相当する音声ベクトルの集まりに基づいた音声認識

Description

【発明の詳細な説明】
【0001】 本発明は、音声認識のシステムおよび方法に関するものである。とりわけ、本
発明は、ニューラル・ネットワークを用いた音声認識のシステムおよび方法に関
するものである。しかしながら、本発明は、音声認識以外の用途のための新しい
ニューラル・ネットワークに関するものでもある。
【0002】 高性能の音声認識方法は、極めて重要なものであり、特に新しい通信サービス
の開発には欠かせないものである。音声認識システムに対して要求される特性は
、とりわけ、下記のものである: 精度 − 正確な認識を可能にするようなシステム。高い認識率に達しない場合
、例えば認識率が単語の85%に達しない場合には、実際的用途はほとんどない
。 雑音に対する不感性 − システムは、騒音が存在する環境においても、例えば
、携帯電話網による通信の場合にも、十分な認識を可能にするものでなければな
らない。 豊富な語彙 − 多くの用途において、多くの異なる単語数、例えば、5,00
0以上の単語を認識できることが必要である。 話者に対する非依存性 ― 多くの用途において、話者に関係なしに、また、シ
ステムにとって未知の話者であっても、十分な認識を行うことが要求される。
【0003】 既知の音声認識システムは、一般的に、2つの異なる作業を行う。最初の作業
は、音声をデジタル信号に変換し、このデジタル信号から一連の音声パラメータ
のベクトルを抽出するものである。この作業を行う様々なシステムが知られてお
り、これらのシステムは、一般的に、例えばそれぞれ10ミリ秒の音声フレーム
を、時間および周波数の領域においてこのフレームを最良に描写するパラメータ
の集まりを含むベクトル ("features vector") に変換することを可能にするも
のである。
【0004】 2番目の作業は、受け取ったこの一連のベクトルを分類装置を用いて分類し、
これらのベクトルが、システムの訓練段階中に定義されたクラスのうちのどれ(
例えば、音素、単語または句のような音韻要素に相当するようなもの)に最も高
い確率で該当するかを定めるものである。従って、分類装置の問題は、入力され
たそれぞれの音声ベクトルについて、定義されたそれぞれのクラスへの帰属確率
を定めるということである。
【0005】 現在最も普及している音声認識システムは、図1aに示した隠れマルコフ・モ
デル(アングロ・サクソン語での名称である Hidden Markov Model (HMM) のほ
うがよく知られている)を用いて機能する分類装置を使用している。この統計的
手法は、一連のマルコフ状態81、82、83によって音声を表す。これらの様々
な状態は、ひとつの状態から他の状態への遷移の確率を示すリンク91〜96によ
って連結されている。それぞれの状態は、所与の確率分布で、ひとつの音声ベク
トルを発する。先験的に定義された一連の状態が、予め定められた音韻上のひと
つの単位、例えば、音素またはトリフォーン (triphone) を表す。この方法は、
例えば、1996年9月に IEEE Signal Processing Magazineで発表された "A
Review of Large-vocabulary Continuous-speech Recognition" (大量語彙・連
続発話の認識に関する検討)と題された論文中でSteve Young によって説明され
ている。連続する音声ベクトル間の時間関係のモデル化が非常に貧弱であるにも
かかわらず、現在のところ、この方法が最高の認識率を提供している。
【0006】 他の分類システムで、ある程度の成功をもたらすことのできたものには、図1
bに示されているような人工ニューラル・ネットワーク、とりわけ、時間遅延ニ
ューラル・ネットワーク (TDNN - Time Delay Neural Networks) あるいは回帰
ニューラル・ネットワーク (RNN - Recurrent Neural Network) を使用したもの
がある。このようなシステムの例については、とりわけ、1995年にニューヨ
ークで E. Covey 他によって Plenum Press から発行された Neural Representa
tion of Temporal Patterns の227〜249ページにおいて、J. Ghosh 他が
"Classification of Spatiotemporal Patterns with Applications to Recognit
ion of Sonar Sequences" (時空パターンの分類とソナーシークエンスの認知へ
の応用)中で説明している。これらのシステムは、すべて、入力される音声ベク
トル2用のレジスタ25を含む遅延ライン、ならびに、その構造内において遅延
素子26を使用している。レジスタ25と相互接続(シナプスによる)され、階
層状に組織された計算素子11(ニューロン)が、特定の音韻要素の識別を可能
にしている。こうして、これらのシステムは、前の情報と現在の情報との間の時
間関係をモデル化し、HMMの弱点のいくつかを補正することを可能にしているが
、HMM に完全に取って代わるには至らなかった。
【0007】 より最近のひとつの取り組みは、ハイブリッド式音声認識システムにおいて、 HMM とニューラル・ネットワークとを組み合わせるというものである。このよ
うなシステムは、例えば、1994年に Kluwer Academic Publishers (オラン
ダ)によって発行された "Connectionist Speech Recognition - A Hybrid Appr
oach" (コネクショニストモデルによる音声認識−ハイブリッドアプローチ)中
で H. Bourlard 他によって説明されている。これらのシステムは、HMM よりも
文脈および音素のモデル化が優れているという長所を有している。しかしながら
、これらのシステムを得るための代償は、使用されている誤差逆伝播アルゴリズ
ム (EBP - Error Back Propagation) のせいで訓練時間が長いこと、あるいは、
音声信号のモデル化に使用可能な加重係数の数が制限されていることである。
【0008】 これらの様々なシステムは、一般的に、それぞれの単語を連続する単音 (phon
e) としてモデル化し、また、音声信号中のそれぞれの単音を可能な限り正確に
識別するように最適化されている。原則として、それぞれの単音が正しく識別さ
れれば、単語または句が正しくモデル化されている限りにおいて、それらの単語
または句は、完全に認識される。実際には、これらのシステムはすべて、とりわ
け、フランスのポンタムーソンで1997年4月17日および18日に開催され
た ESCA-NATO tutorial and research Workshop on Robust Speech Recognition
for Unknown Communication Channels (未知のコミュニケーション・チャンネ
ルのためのエラー強さのある音声認識に関する指導と研究ワークショップ)にお
ける S. Greenberg の発表 "On the origins of speech intelligibility in th
e real world" (現実世界における音声明瞭度の起源について)において示され
ており、また、上記の Steve Young の論文中で示されているように、騒音の存
在する条件における堅牢性が不足しており、また、質的結果が不安定であるとい
う欠点を有している。
【0009】 従って、本発明のひとつの目的は、従来技術によるシステムおよび方法の欠点
を防止する音声認識のシステムおよび方法を提案することである。とりわけ、本
発明ひとつの目的は、従来技術の分類装置および分類方法と比較して改善された
音声ベクトル分類装置および分類方法を提案することにある。
【0010】 本発明の他のひとつの目的は、分類装置の複雑さを顕著に増大させることなく
、とりわけ、計算素子の数を顕著に増大させることなく、分類装置の性能を向上
させることにある。
【0011】 本発明においては、別途設けた請求事項において示した様々な特性によって、
これらの様々な目的を達成するものであり、更に、本文中の請求事項中には、好
ましい変形態様を示しておいた。
【0012】 本発明は、音声が、認識にとって同程度の重要性をもつ単音の線形の連続以上
のものであるという確認事項を出発点とするものである。様々な実験によって、
経験豊富な聞き手であっても、孤立的に提示される単音の60%以上を識別する
のには苦労することが示されている。すなわち、文脈によってのみ、人間の脳が
句を理解し、後天的にそれぞれの単音を識別することが可能になるのである。
【0013】 本発明は、この発見事項を利用して、音声認識のために、従来技術で行われて
いたよりもはるかに長い音声セグメントの特性、例えば、複数の音節、ひとつの
単語全体、更には複数の単語あるいは句全体の特性を取り込むことを提案するも
のである。
【0014】 システムの複雑さや計算素子数を増大させることを避けるために、複数のレベ
ルで構成されたシステムを伴うひとつの階層構造が提案されている。それぞれの
レベルは、少なくともひとつの時空ニューラル・ネットワーク (STNN - Spatiot
emporal Neural Network) を含んでいる。システムの様々なレベルに入力される
信号のレートは可変であり、この結果、下位のレベルに入力される音声ベクトル
のレートは、例えば、孤立した単音、あるいは、他の短い音韻要素の認識に適し
たものとなり、一方、上位のレベルに印加される信号のレートは、例えば、より
長い音韻要素(例えば、音節、トリフォーン、単語、更には、句全体)の認識を
可能にする。少なくともひとつのレベル内にデシメータを設けて、上位レベルに
印加される信号のレートを減少させる。逆に、インターポレータを設けて、学習
段階中にシステムに提供されるターゲット信号のレートを増加させる。
【0015】 こうして、本発明は、構造内でデシメーションおよびインターポレーション用
演算器を用いる複数レートのニューラル・ネットワーク構造を提案するものであ
る。本発明は、限定された数の計算素子(ニューロン)およびシナプスを用いて
、出力が多数の音声ベクトルに応じて変化するニューラル・ネットワーク、およ
び/または、学習能力が増大したニューラル・ネットワークの実現を可能にする
ものである。
【0016】 また、本発明は、様々な音声セグメント(フレーム)の重要度の重み付けを行
い、多数の先行ベクトルに応じてそれぞれの音声ベクトルを分類することを可能
にする。 例として示されている説明ならびに下記のものを示す添付図による図解によっ
て、本発明を更に理解することができる。
【0017】 下記の説明においては、音声認識のために用いられる人工ニューラル・ネット
ワークの特定の場合についてより詳しく記述されているが、専門家であれば、特
許請求の対象となっているタイプのニューラル・ネットワークが、他の用途、と
りわけ、話者識別や言語処理に必ずしも関係しない他の作業、特に、分析すべき
情報の内容を階層的に分類することができる場合に使用可能なものであることが
理解できるであろう。
【0018】 本発明においては、音声認識はニューラル・ネットワークによって行われ、こ
のニューラル・ネットワーク内では、少なくともひとつの計算素子(すなわち、
ニューロン)が、図2aに概略的に示されているようなデシメーション用演算器
102を含んでいる。このデシメーション用演算器の機能は、レート(サンプ
リング周波数) Fx のデジタル入力信号 x(n) を、整数の係数 M により減少さ
れたレート Fy のデジタル出力信号 y(m) に変換することである。
【0019】 レート Fx の入力信号 x(n) がスペクトル X(ω)を有しており、そのレートを
整数の係数 M によって減少させなければならないと仮定しよう。X(ω) が周波
数区間 0 ≦|F|≦ Fx/2 においてゼロでない場合には、信号理論から、信号 x(n
) の M 番目毎の値のみを選択することによって得られる信号は、折り返し周波
数 Fx/2M での x(n) の折り返しバージョンであることがわかる。従って、折り
返しを避けるために、前もって、x(n) の通過帯域を係数M によって減少させて
おく必要がある。すなわち、Fmax = Fx/2M である。この演算は、例えば、低域
通過タイプの伝達関数 Ha(n) を用いたデシメーション・フィルタ1020によ
って行われる。デシメータ102は、次に、ダウン・サンプリング用演算器10
21を含み、この演算器は、それぞれのM番目の値のみを選択し、入力信号 x(n
) のレート Fx をM で除算した商に相当するレート Fy の信号 y(m) を供給す
る。従って、デシメータ102は、単なるダウン・サンプリング用演算器 (down
-sampler) と混同してはならない。
【0020】 フィルタ1020の伝達関数 Ha(n) は、出力信号に対して、例えば、S/N 比
の向上とか、エコー消去のような他の種類のフィルタリングを行うように選択す
ることもできる。
【0021】 デシメータの実施の他の手段も存在しており、本発明の枠内でこれらの手段を
使用することもできる。とりわけ、このようなデシメータは、"Wavelets and Su
bband Coding" (Prentice Hall、Englewood Cliffs、NJ07632) において、M.
Vetterli 他が説明しているように、デジタル・フィルタリング・ベンチにおい
て使用される。例えば、最もよく知られているデシメータは、時間領域、変調領
域あるいは多相タイプの領域における分析を使用している。
【0022】 本発明の人工ニューラル・ネットワークは、更に、図2bに示されているよう
に、同等数のインターポレータ103も含んでいることが好ましい。インターポ
レータ103の機能は、レート Fx のデジタル信号 x(n) を、より高いレート F
y = L・Fx の信号 y(m) に変換することである。上記で説明したのとは対称的な
理由から、アップ・サンプラ103によって得られるデジタル信号のフィルタリ
ングが必要であり、このフィルタリングは、伝達関数 Hb(n) を用いたインター
ポレーション・フィルタ1031によって行われる。
【0023】 図3は、本発明に基づく自己モジュラー化可能ニューラル・ネットワーク・ブ
ロック (SMNN3 - Self Modularization Neural Network) を概略的に示してお
り、これは、例えば、本発明に基づくひとつの完全なレベル、あるいは、ひとつ
の完全な分類装置のブロックを構成する。SMNN 3 は、任意の種類、例えば、図
1bに示されているような種類の時空ニューラル・ネットワーク STNN 1 を含ん
でいる。STNN 1 は、有限または無限インパルス・レスポンス多層パーセプトロ
ン (IIR/FIR MLP - Infinite/Finite Multilayer Perceptron)、時間遅延ニュー
ラル・ネットワーク TDNN、回帰型ニューラル・ネットワーク、ガンマ・ネット
ワーク等で構成されていてもよく、一般的に、計算素子、すなわち、ニューロン
の集まり11を含む。STNN 1 は、入力として、レート Fx の信号、例えば、一
連の音声ベクトルや、ニューラル・ネットワークの他のレベルから送出された信
号を受け取り、出力として、他の信号、例えば、同じレート Fx で、計算された
パラメータのベクトルを送出する。本発明においては、SMNN 3 は、更に、デシ
メーション・ユニット[102]を含み、このデシメーション・ユニットは、例
えば、出力ベクトルにおけるパラメータと同数のデシメータ102を含み、STNN
によって計算された信号のレートを減少させることができる。デシメーション
・ユニット[102]内のそれぞれのデシメータ102は、例えば、図2aに示
されているように構成されており、デシメーション・フィルタ1020とダウン
・サンプラ1021を含み、この結果、SMNN 3 は、出力として、M によって減
じられたレート Fx/M のベクトルを送出する。
【0024】 図4は、本発明に従って SMNN ブロック(デシメータを含む)に基づいて実施
された分類装置の例を示す。この分類装置は、2つのレベル20および21に分
配された4つのSMNN31〜34を含んでいる。分析すべき音声信号から抽出された
一連の音声ベクトル2は、同時に2つの SMNN 31、32 に入力される。これら
の SMNN のうちの一方は、高域通過フィルタを含んでおり、他方は低域通過フィ
ルタを含んでいる。これらの2つの SMNN は、異なったデシメーション率でデシ
メーションを行い、この結果、上位の SMNN 31 から出る信号のレートは Fz で
あるのに対し、他方の SMNN 32 の信号のレートは Fy となる。
【0025】 Fy のレートの信号自体が、本発明のシステムの第2レベル21において2つ
の SMNN 33、34 に入力され、それぞれが、Fz のレートの出力信号を送出し、
また、異なった伝達関数のフィルタをもつことができる。SMNN 31、33 および
4 によって送出される信号は、次に、組み合わされて、レート Fz の唯一の出
力ベクトルとなる。
【0026】 本発明のシステムは、学習段階中に既知のタイプの誤差逆伝播 EBP (Error Ba
ck Propagation) アルゴリズムの出力に印加されるターゲット・ベクトルによっ
て訓練することができる。ターゲット・ベクトルは、それぞれのレベル20、2
1等(あるいは、これらのレベルの一部のみの)の出力に課すか、あるいは、上
位のレベルよりも上のシステムの広域出力に課すことができる。この後者の場合
には、SMNN3内にインターポレータ103(図2b)を設けて、下位のレベルに
課せられるターゲット・ベクトルのレートを増加させることが必要である。
【0027】 図5は、本発明に基づく複数レートのニューラル・ネットワークを含む音声認
識システムをより詳しく示したものである。このシステムにより、孤立した単語
、例えば、音声制御システム内の孤立した数字を認識することができる。示され
ている例においては、音声認識システムは、分類装置を含んでおり、この分類装
置自体が、3つのレベル20、21、22を含んでおり、それぞれのレベルに3
層の SMNN 320、321、322が含まれている。分類装置の出力は、入力ベクトル
が一致する確率が先験的に最も高いクラス (MAP - Maximum A Posteriori) の推
定を示す。但し、レベルの数およびそれぞれのレベルにおける層の数が異なる他
の構成も、本発明の枠内で容易に考えることができる。
【0028】 分析すべき音声信号23は、最初に、既知のタイプのアナログ−デジタル変換
器24によってデジタル信号に変換される。予め定められた時間、例えば10ミ
リ秒の長さのデジタル信号のそれぞれのフレームについて、同様に既知のタイプ
のパラメータ化装置27によって音声ベクトル2が決定される。図例においては
、パラメータ化装置は、それぞれのフレームから2つの構成要素のみを有するベ
クトルを抽出する。実際には、それぞれのフレームの持続時間中の音声信号のよ
り完全な時空表示を提供するために、より多くの構成要素、例えば、26個の構
成要素を含むベクトルを使用することが好ましい。
【0029】 こうして定められた音声ベクトル2は、その後、次々と、オフセット式レジス
タ・ライン25−26に入力される。それぞれのベクトルは、最初に、レジスタ
25に入力され、次に、オフセットされたフレーム間隔zの後、次のレジスタに
入力される。示されている例においては、オフセット式レジスタ・ラインは、3
つのフレーム間隔、例えば30ミリ秒を表すベクトルを含む3つのレジスタを含
んでいる。実際には、例えば連続する9個のレジスタを含むようなより長い遅延
のラインを選択することが好ましい。オフセット式レジスタには、一連のベクト
ルの最初のものの前と最後のものの後に補充用ベクトル ("dummy signal") が補
足される。
【0030】 隠れ中間層内の計算素子(ニューロン)1120 は、シナプスによってレジス
タ25に連結されている。図例においては、隠れ中間層は、4個のみの計算素子
1120 を含んでいる。実際には、はるかに多くの計算素子、例えば、数百個の
計算素子を選択することが好ましい。図6は、計算素子11の例をより詳しく示
したものである。既知の如く、計算素子11は、様々なレジスタ25内のベクト
ルの構成要素の合計を出す加算器110を含んでおり、この合計値は、システム
の学習段階中に定められた加重係数a1、a2、・・・anを用いて加重計算さ
れる。次に、演算器111によって、既知の関数、例えば、シグマ関数が計算合
計値に適用される。好ましいひとつの変形態様においては、ネットワークは完全
に接続される。すなわち、最初のレベルの中間層のすべての計算素子1120
、シナプスによって、すべてのレジスタ25のすべての音声ベクトルに連結され
る。しかしながら、本発明の枠内において、部分的にのみ接続されたネットワー
クを考えることも可能である。
【0031】 最初のレベルは、更に、上記のように、それぞれが本来の意味での計算素子
10120 とデシメータ10220 とを含む新しいタイプの計算素子(ニューロン
)1020 を含む出力層を含んでいる。ここでも、図例では3個の出力計算素子
1020 しか含まれていないが、実際には、より多くの素子、例えば24個の異
なる音素を認識するように訓練された例えば24個の出力素子を使用するのが好
ましい。それぞれの計算素子10120 は、中間層のすべての素子1120 に完全
に接続されている。計算素子101も、上記の素子11と同様に構成されており
、既知の如く、様々な中間ニューロン1120 内のベクトルの構成要素の合計を
出し、合計値は、システムの学習段階中に定められた加重係数を用いて加重計算
される。次に、既知のタイプの関数、例えば、シグマ関数を計算合計値に適用す
る。従って、計算素子10120 は、それぞれのフレームの間隔で、レジスタ2
5内に記憶された音声ベクトルに応じて新しい出力ベクトルを提供する。
【0032】 本発明に基づき、これらの信号は、出力として係数 M1 によって減少させられ
たレートの信号を提供するデシメータ10220 によってデシメーション処理さ
れる。従って、デシメータは、最初のレベル20の出力として、レジスタ25に
入力される音声ベクトルのレートを係数 M1 で減じたレートのデジタル・ベクト
ルを提供する。例えば、システムの入口における音声ベクトルのフレーム間隔が
10ミリ秒で、デシメーション係数 M1 が2の場合、最初のレベル20の出口に
おける出力ベクトルのフレーム間隔は、20ミリ秒となる。最初のレベルの出口
における出力ベクトルは、例えば、分析される一連の音声ベクトル内で識別され
た特定の音素の存在を示す信号に相当する。
【0033】 SMNN 320 によって最初のレベル20に供給される出力ベクトルは、必要な場
合には補充用ベクトル ("dummy signal") を補足されて、第2レベル21のSMNN
21 の入力に供給され、オフセット式レジスタ内に記憶される。上記で最初の
レベルについて説明したのと同様に、オフセット式レジスタは、レジスタの集ま
りを含んでおり、ベクトルは、第2レベルのそれぞれのフレーム間隔、例えば2
0ミリ秒毎(最初のレベルのフレーム間隔の M1 倍)にひとつのレジスタから他
のレジスタに移動する。図は、3個の入力レジスタを備えた第2レベルの例を示
している。実際には、より多くのレジスタ、例えば21個のレジスタを選択して
、これにより、21 x M1 個の初期フレームから演繹したベクトル、例えば、42
0ミリ秒の音声信号に相当するベクトルを記憶できるようにすることが好ましい
。この結果、第2レベル21は、最初のレベルよりもはるかに長い持続時間の音
韻要素を認識することができ、例えば、単語の一部、更には、単語全体を認識す
ることができる。
【0034】 第2レベルの構造は、最初のレベルの構造と同じであり、従って、ここでは詳
しく説明しない。ここでも、はるかに多くの中間ノード、例えば、200個のノ
ードを使用し、出力ノード数もより多くし、例えば、この第2レベルの出口で識
別可能な予め定められた単語の27部分に相当する27個のノード1021 とす
る。
【0035】 上記と同様に、第2レベル21の出力ベクトルは、デシメータ10221 によ
ってデシメーション率 M2 を用いてデシメーション処理され、第3レベル22の
オフセット式レジスタに入力ベクトルとして供給される。好ましいひとつの変形
態様においては、第3レベルは、例えば、26個の入力レジスタ素子と、200
個の中間計算素子と、認識すべき音韻要素数と同数の出力、例えば、システムが
0から9の数字の認識用のみに使用される場合には、10個の出力を含む。上記
の数値例を続けて、新たなベクトルが20ミリ秒毎に第2レベル21に入力され
、デシメーション率 M2 が2の場合には、新たなベクトルは、この結果として、
40ミリ秒毎に第3レベル22に入力される。この例においては、入力レジスタ
は17のセルを含んでいるため、この結果として第3レベルでは、17×40ミ
リ秒=680ミリ秒の信号に相当するベクトルに基づいた音韻要素の認識が可能
になる。こうして、第3レベルの出力信号により、比較的長い音韻要素、例えば
単語全体の識別が可能になる。
【0036】 図5に関して説明した分類装置は、従って、3個のレベルを含んでおり、それ
ぞれのレベルのレート、ならびに、入力オフセット式レジスタの長さは、持続時
間の異なる音韻要素の認識用に適応化されている。この結果、学習段階中に、そ
れぞれのレベルの出力に、認識すべき音韻要素に相当するターゲット・ベクトル
を印加することにより、システムの訓練を行うことができる。例えば、学習時に
、いくつかの音素に相当するターゲット・ベクトルを最初のレベル20の出力に
印加し、音節、トリフォーンまたは単語の部分に相当するターゲット・ベクトル
を第2レベル21の出力に印加し、上位レベル22の出力に、単語全体に相当す
るターゲット・ベクトルを印加することができる。
【0037】 本発明に基づく有利な方法として、単語全体に相当するターゲット・ベクトル
を、上位レベル22の出力のみに課し、3つのレベルに対して誤差逆伝播 EBP
アルゴリズムを実行して、システム自体が下位レベル20および21のターゲッ
ト・レベルを決定するようにすることもできる。この変形態様は、必然的に恣意
的なものとなる音声の音素、トリフォーン、音節等の予め定められた音韻要素へ
の分解を避けることができるという利点がある。
【0038】 専門家であれば、本発明が一連のマルチレゾリューション音声ベクトル、すな
わち、ベクトルまたはベクトル構成要素が、可変の初期音声信号持続時間に相当
することのできるような一連の音声ベクトルの処理にも適用できることは理解で
きるであろう。この技法は、デジタル・フィルタリングの分野では、ウェーブレ
ット (wavelet) という名称で知られており、とりわけ、上記で述べた Vetterli
他の著作中で説明されている。本発明の SMNN は、送出信号のレートを制御す
ることができ、従って、異なるレートのシーケンスの再同期化を容易に行うこと
を可能にする。
【0039】 本発明は、更に、ひとつのSMNN3のみを含むシステム、すなわち、出力として
供給される信号がデシメータ102によってデシメーション処理される人工ニュ
ーラル・ネットワーク1に関するものでもある。
【0040】 更に、本発明は、例えば、ニューラル・ネットワークを異なる用途に適応させ
るために、あるいは、学習時に動的に、あるいは、更には、システムの入力に印
加される音声ベクトルに応じて、様々なデシメータのデシメーション率が変化可
能なシステムに関するものでもある。
【図面の簡単な説明】
【図1a】 隠れマーコフ・モデルの構造を概略的に示すものである。
【図1b】 人工ニューラル・ネットワークの構造を概略的に示すものである。
【図2a】 デシメーション用演算器のブロック図である。
【図2b】 インターポレーション用演算器のブロック図である。
【図3】 本発明に基づく複数レートのニューラル・ネットワークのひとつのレベルの構
造を概略的に示すものである。
【図4】 本発明に基づく複数のレートと複数のレベルを有するニューラル・ネットワー
クの最初の例を概略図で示すものである。
【図5】 本発明に基づく複数のレートと複数のレベルを有するニューラル・ネットワー
クの2番目の例をより詳細な図で示すものである。
【図6】 従来の計算素子(ニューロン)を概略的に示すものである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成12年9月23日(2000.9.23)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】 本発明は、音声認識システムに関するものである。とりわけ、本発明は、ニュ
ーラル・ネットワークを用いた論理ブロックおよび音声認識システムに関するも
のである。しかしながら、本発明は、音声認識以外の用途のための新しいニュー
ラル・ネットワークに関するものでもある。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】 高性能の音声認識方法は、極めて重要なものであり、特に新しい通信サービス
の開発には欠かせないものである。音声認識システムに対して要求される特性は
、とりわけ、下記のものである: 精度 − 正確な認識を可能にするようなシステム。高い認識率に達しない場合
、例えば認識率が単語の85%に達しない場合には、実際的用途はほとんどない
。 雑音に対する不感性 − システムは、騒音が存在する環境においても、例えば
、携帯電話網による通信の場合にも、十分な認識を可能にするものでなければな
らない。 豊富な語彙 − 多くの用途において、多くの異なる単語数、例えば、5,00
0以上の単語を認識できることが必要である。 話者に対する非依存性 ― 多くの用途において、話者に関係なしに、また、シ
ステムにとって未知の話者であっても、十分な認識を行うことが要求される。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0003
【補正方法】変更
【補正の内容】
【0003】 既知の音声認識システムは、一般的に、2つの異なる作業を行う。最初の作業は
、音声をデジタル信号に変換し、このデジタル信号から一連の音声パラメータの
ベクトルを抽出するものである。この作業を行う様々なシステムが知られており
、これらのシステムは、一般的に、例えばそれぞれ10ミリ秒の音声フレームを
、時間および周波数の領域においてこのフレームを最良に描写するパラメータの
集まりを含むベクトル ("features vector") に変換することを可能にするもの
である。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0004
【補正方法】変更
【補正の内容】
【0004】 2番目の作業は、受け取ったこの一連のベクトルを分類装置を用いて分類し、
これらのベクトルが、システムの訓練段階中に定義されたクラスのうちのどれ(
例えば、音素、単語または句のような音韻要素に相当するようなもの)に最も高
い確率で該当するかを定めるものである。従って、分類装置の問題は、入力され
たそれぞれの音声ベクトルについて、定義されたそれぞれのクラスへの帰属確率
を定めるということである。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0005
【補正方法】変更
【補正の内容】
【0005】 現在最も普及している音声認識システムは、図1aに示した隠れマルコフ・モ
デル(アングロ・サクソン語での名称である Hidden Markov Model (HMM) のほ
うがよく知られている)を用いて機能する分類装置を使用している。この統計的
手法は、一連のマルコフ状態81、82、83 によって音声を表す。これらの様々
な状態は、ひとつの状態から他の状態への遷移の確率を示すリンク91〜96
よって連結されている。それぞれの状態は、所与の確率分布で、ひとつの音声ベ
クトルを発する。先験的に定義された一連の状態は、予め定められた音韻上のひ
とつの単位、例えば、音素またはトリフォーン (triphone) を表す。この方法は
、例えば、1996年9月に IEEE Signal Processing Magazineで発表された "
A Review of Large-vocabulary Continuous-speech Recognition" (大量語彙・
連続発話の認識に関する検討)と題された論文中でSteve Young が説明している
。連続する音声ベクトル間の時間関係のモデル化が非常に貧弱であるにもかかわ
らず、現在のところ、この方法が最高の認識率を提供している。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正の内容】
【0006】 他の分類システムで、ある程度の成功をもたらすことのできたものには、図1
bに示されているような人工ニューラル・ネットワーク、とりわけ、時間遅延ニ
ューラル・ネットワーク (TDNN - Time Delay Neural Networks) あるいは回帰
型ニューラル・ネットワーク (RNN - Recurrent Neural Network) を使用してい
る。このようなシステムの例については、とりわけ、1995年にニューヨーク
で E. Covey 他によって Plenum Press から発行された Neural Representation
of Temporal Patterns の227〜249ページにおいて、J. Ghosh 他が "Cla
ssification of Spatiotemporal Patterns with Applications to Recognition
of Sonar Sequences" (時空パターンの分類とソナーシークエンスの認知への応
用)中で説明している。これらのシステムは、すべて、入力された音声ベクトル
2用のレジスタ25を含む遅延ライン、ならびに、その構造内において遅延素子
26を使用している。レジスタ25と相互接続(シナプスによる)され、階層状
に組織された計算素子11(ニューロン)が、特定の音韻要素の識別を可能にし
ている。こうして、これらのシステムは、前の情報と現在の情報との間の時間関
係をモデル化し、HMMの弱点のいくつかを補正することを可能にしているが、HMM
に完全に取って代わるには至らなかった。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】 より最近のひとつの取り組みは、ハイブリッド式音声認識システムにおいて、 HMM とニューラル・ネットワークと組み合わせるというものである。このよう
なシステムは、例えば、1994年に Kluwer Academic Publishers (オランダ
)によって発行された "Connectionist Speech Recognition - A Hybrid Approa
ch" (コネクショニストモデルによる音声認識−ハイブリッドアプローチ)中で
H. Bourlard 他によって説明されている。これらのシステムは、HMM よりも文
脈および音素のモデル化が優れているという長所を有している。しかしながら、
これらのシステムを得るための代償は、使用されている誤差逆伝播アルゴリズム
(EBP - Error Back Propagation) のせいで訓練時間が長いこと、あるいは、音
声信号のモデル化に使用可能な加重係数の数が制限されていることである。 1993年6月15日付けの米国特許 US 5,220,640 号において、他のひとつ
の取り組みが開示されている。この書類では、「タイム・スケーリング・ネット
ワーク」によって入力信号のスケールが様々に変化するニューラル・ネットワー
ク構造の説明が行われている。出力信号は、スケールが変化した入力信号が、調
査対象となる図式にどのように対応しているかを示す。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0008
【補正方法】変更
【補正の内容】
【0008】 これらの様々なシステムは、一般的に、それぞれの単語を連続する単音 (phon
e) としてモデル化し、また、音声信号中のそれぞれの単音を可能な限り正確に
識別するように最適化されている。原則として、それぞれの単音が正しく識別さ
れれば、単語または句が正しくモデル化されている限りにおいて、それらの単語
または句は、完全に認識される。実際には、これらのシステムは、すべて、とり
わけ、フランスのポンタムーソンで1997年4月17日および18日に開催さ
れた ESCA-NATO tutorial and research Workshop on Robust Speech Recogniti
on for Unknown Communication Channels (未知のコミュニケーション・チャン
ネルのためのエラー強さのある音声認識に関する指導と研究のワークショップ)
における S. Greenberg の発表 "On the origins of speech intelligibility i
n the real world"(現実世界における音声明瞭度の起源について)において示
されており、また、上記の Steve Young の論文中で示されているように、騒音
の存在する条件における堅牢性が不足しており、また、質的結果が不安定である
という欠点を有している。

Claims (41)

    【特許請求の範囲】
  1. 【請求項1】 複数のレベル(20、21、22)の相互接続された計算素
    子(10、11)を含むニューラル・ネットワーク・システムで、前述のレベル
    の中に、少なくとも最初のひとつのレートで一連の入力ベクトル(2)を印加す
    ることのできるひとつの入力レベル(20)を含み、 該システムにおいて、少なくともひとつの計算素子(10)、送出信号のレー
    トを減少させるためのデシメータ(102)を含んでいるシステム。
  2. 【請求項2】 請求項1に記載のシステムで、前述の入力ベクトル(2)が
    、音声ベクトルに相当するシステム。
  3. 【請求項3】 請求項2に記載のシステムで、デジタル音声信号に基づいて
    前述の音声ベクトルを決定するためのパラメータ化装置27を含むシステム。
  4. 【請求項4】 請求項1乃至3までのいずれかに記載のシステムで、同じレ
    ベル(20、21、22)の計算素子(10、11)によって送出される信号の
    レートが同じであるシステム。
  5. 【請求項5】 請求項1乃至4までのいずれかに記載のシステムで、少なく
    ともいくつかの異なるレベル(20、21、22)の計算素子(10、11)に
    よって送出される信号のレートが異なるシステム。
  6. 【請求項6】 請求項5に記載のシステムで、システムの出力における信号
    のレートが、入力ベクトル(2)のレートよりも低いシステム。
  7. 【請求項7】 請求項1乃至3のいずれかに記載のシステムで、同じレベル
    (20、21、22)の少なくとも2つの計算素子(10、11)によって送出
    される信号のレートが異なるシステム。
  8. 【請求項8】 請求項1乃至7までのいずれかに記載のシステムで、前述の
    レベル(20、21、22)のレベルのうちの少なくともひとつが、少なくとも
    ひとつの時空ニューラル・ネットワーク(320、321、322)を含んでいるシス
    テム。
  9. 【請求項9】 請求項8に記載のシステムで、前述の時空ニューラル・ネッ
    トワーク(320、321、322)のうちの少なくともひとつが、有限または無限イ
    ンパルス・レスポンス多層パーセプトロンによって構成されているシステム。
  10. 【請求項10】 請求項8に記載のシステムで、前述の時空ニューラル・ネ
    ットワーク(320、321、322)のうちの少なくともひとつが、時間遅延ニュー
    ラル・ネットワークによって構成されているシステム。
  11. 【請求項11】 請求項8に記載のシステムで、前述の時空ニューラル・ネ
    ットワーク(320、321、322)のうちの少なくともひとつが、回帰型ニューラ
    ル・ネットワークによって構成されているシステム。
  12. 【請求項12】 請求項8に記載のシステムで、前述の時空ニューラル・ネ
    ットワーク(320、321、322)のうちの少なくともひとつが、ガンマ・ネット
    ワークによって構成されているシステム。
  13. 【請求項13】 請求項1乃至12のいずれかに記載のシステムで、前述の
    デシメータ(102)が、デシメーション・フィルタ(1020)を含んでいる
    システム。
  14. 【請求項14】 請求項1乃至13のいずれかに記載のシステムで、少なく
    ともひとつの計算素子(10)が、学習時に誤差逆伝播アルゴリズムを用いて印
    加される一連のターゲット・ベクトルのレートを増加させるためのインターポレ
    ータ(103)を含んでいるシステム。
  15. 【請求項15】 請求項14に記載のシステムで、前述のインターポレータ
    (103)が、インターポレーション・フィルタ(1031)を含んでいるシス
    テム。
  16. 【請求項16】 請求項2乃至15までのいずれかに記載のシステムで、前
    述の入力レベル(20)に入力される音声ベクトル(2)のレートにより、前述
    のレベルにおいて短時間の予め定められた音声要素の認識が可能になるシステム
  17. 【請求項17】 請求項2乃至16までのいずれかに記載のシステムで、少
    なくともひとつの中間レベル(21)に入力される音声ベクトル(2)のレート
    により、前述の中間レベルにおいて予め定められた言語上あるいは音韻上の要素
    の認識が可能になるシステム。
  18. 【請求項18】 請求項2乃至17までのいずれかに記載のシステムで、少
    なくともひとつのレベル(21)に入力される音声ベクトル(2)のレートによ
    り、前述のレベルにおいて予め定められた単語の認識が可能になるシステム。
  19. 【請求項19】 請求項2乃至18までのいずれかに記載のシステムで、少
    なくともひとつのレベル(21)に入力される音声ベクトル(2)のレートによ
    り、前述のレベルにおいて予め定められたトリフォーンの認識が可能になるシス
    テム。
  20. 【請求項20】 請求項2乃至19までのいずれかに記載のシステムで、少
    なくともひとつのレベル(21)に入力される音声ベクトル(2)のレートによ
    り、前述のレベルにおいて予め定められた音節の認識が可能になるシステム。
  21. 【請求項21】 請求項2乃至20までのいずれかに記載のシステムで、少
    なくともひとつのレベル(22)に入力される音声ベクトル(2)のレートによ
    り、前述のレベルにおいて予め定められた句の部分の認識が可能になるシステム
  22. 【請求項22】 請求項2乃至21までのいずれかに記載のシステムで、少
    なくとも前述の入力レベル(20)に入力される音声ベクトル(2)のレートが
    、10ミリ秒毎のフレームのものであるシステム。
  23. 【請求項23】 請求項1乃至21までのいずれかに記載のシステムで、少
    なくとも前述の入力レベル(20)に入力される前述の一連の音声ベクトルが、
    可変レゾリューションのものであるシステム。
  24. 【請求項24】 請求項1乃至23に記載のシステムで、誤差逆伝播アルゴ
    リズムと、それぞれのレベル(20、21、22)の出力に独立して印加される
    いくつかのターゲット・ベクトルによって学習されるシステム。
  25. 【請求項25】 請求項1乃至23に記載のシステムで、誤差逆伝播アルゴ
    リズムと、システムの広域出力のみに印加されるひとつのターゲット・ベクトル
    によって学習されるシステム。
  26. 【請求項26】 音声認識方法であって: 最初のひとつのレートで抽出された一連の音声ベクトル(2)を作成するステ
    ップと、 前述の一連の音声ベクトル(2)を、相互接続された複数のレベル(20、2
    1、22)を含むニューラル・ネットワーク・システムの入力レベルに入力する
    ステップとを含み、それぞれのレベルは、少なくともひとつの計算素子(10、
    11)を含み、該方法はさらに、 前述の計算素子(10)のうちの少なくともひとつによって送出される少なく
    ともひとつの信号のデシメーションを行うステップと、 前述の少なくともひとつのデシメーション処理された信号を、前述のニューラ
    ル・ネットワーク・システムの他のひとつのレベル(21、22)の計算素子に
    印加するステップとを含む方法。
  27. 【請求項27】 請求項26に記載の方法で、同じレベル(20、21、2
    2)の少なくとも二つの計算素子(10、11)によって送出されるベクトルの
    レートが異なる方法。
  28. 【請求項28】 請求項26に記載の方法で、前述のデシメーション操作に
    、デジタル信号のフィルタリング段階が含まれる方法。
  29. 【請求項29】 請求項26乃至28までのいずれかに記載の方法で、予め
    定められた持続時間の音声要素が、前述の入力レベル(20)内で識別される方
    法。
  30. 【請求項30】 請求項26乃至29までのいずれかに記載の方法で、予め
    定められた言語上または音韻上の要素が、少なくともひとつのレベル(21)内
    で識別される方法。
  31. 【請求項31】 請求項26乃至30までのいずれかに記載の方法で、予め
    定められた単語が、少なくともひとつのレベル(21)内で識別される方法。
  32. 【請求項32】 請求項26乃至31までのいずれかに記載の方法で、予め
    定められたトリフォーンが、少なくともひとつのレベル(21)内で識別される
    方法。
  33. 【請求項33】 請求項26乃至32までのいずれかに記載の方法で、予め
    定められた音節が、少なくともひとつのレベル(21)内で識別される方法。
  34. 【請求項34】 請求項26乃至33までのいずれかに記載の方法で、予め
    定められた単語の部分が、少なくともひとつのレベル(22)内で識別される方
    法。
  35. 【請求項35】 請求項26乃至34までのいずれかに記載の方法で、更に
    、学習段階中の誤差信号の逆伝播段階を含み、前述の計算素子(10)内にこの
    誤差信号のインターポレーションを含む方法。
  36. 【請求項36】 請求項35に記載の方法で、誤差逆伝播アルゴリズムとそ
    れぞれのレベル(20、21、22)の出力に独立して印加されるターゲット・
    ベクトルとにより前述のニューラル・ネットワークシステムを学習させる方法。
  37. 【請求項37】 請求項35に記載の方法で、誤差逆伝播アルゴリズムとシ
    ステムの総合出力にのみ印加されるターゲット・ベクトルにより前述のニューラ
    ル・ネットワークシステムを学習させる方法。
  38. 【請求項38】 請求項26乃至37までのいずれかに記載の方法で、前述
    の一連の音声ベクトル(2)の作成段階が、パラメータ化装置(27)によるデ
    ジタル音声信号のパラメータ化を伴う方法。
  39. 【請求項39】 請求項1乃至38までのいずれかに記載の方法で、少なく
    ともひとつのレベル(21、22、23)に印加される前述の一連のベクトルの
    最初および/または最後に補充用ベクトルを追加する段階を含む方法。
  40. 【請求項40】 プログラミング可能な装置によって読み取ることができ、
    前述の装置で実行して請求項26乃至39までのいずれかの方法を実施すること
    のできるコンピュータ・プログラムを記憶するデータ記憶装置。
  41. 【請求項41】 ニューラル・ネットワーク・システム内で使用することの
    できる論理ブロック(3)であって、 少なくともひとつの時空ニューラル・ネットワークと、 少なくともひとつの入力層と、少なくともひとつの出力層と、 前述の時空ニューラル・ネットワークによって送出される少なくともひとつの
    出力信号のフィルタリングを行い、この出力信号を入力信号のレートよりも低い
    レートで送出するための少なくともひとつのフィルタ([1020])を含む少
    なくともひとつのデシメータ([102])とを含む論理ブロック。
JP2000568077A 1998-09-01 1998-11-17 音声認識システムと方法 Pending JP2003524792A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98810867 1998-09-01
EP98810867.6 1998-09-01
PCT/CH1998/000495 WO2000013170A1 (fr) 1998-09-01 1998-11-17 Reseau neuronal et son application pour la reconnaissance vocale

Publications (1)

Publication Number Publication Date
JP2003524792A true JP2003524792A (ja) 2003-08-19

Family

ID=8236294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000568077A Pending JP2003524792A (ja) 1998-09-01 1998-11-17 音声認識システムと方法

Country Status (8)

Country Link
US (1) US6799171B1 (ja)
EP (1) EP1232492B1 (ja)
JP (1) JP2003524792A (ja)
AT (1) ATE256331T1 (ja)
CA (1) CA2340028C (ja)
DE (1) DE69820497T2 (ja)
ES (1) ES2213921T3 (ja)
WO (1) WO2000013170A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1160767B1 (en) * 2000-05-27 2005-07-06 Swisscom Fixnet AG Speech recognition with contextual hypothesis probabilities
WO2002091355A1 (en) * 2001-05-08 2002-11-14 Intel Corporation High-order entropy error functions for neural classifiers
US7152051B1 (en) * 2002-09-30 2006-12-19 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
EP1416472A1 (en) * 2002-10-30 2004-05-06 Swisscom AG Bandwidth dependent speech recognition system
US9595257B2 (en) * 2009-09-28 2017-03-14 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9842106B2 (en) * 2015-12-04 2017-12-12 Mitsubishi Electric Research Laboratories, Inc Method and system for role dependent context sensitive spoken and textual language understanding with neural networks
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN108022587B (zh) * 2017-12-15 2021-03-05 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
US10431210B1 (en) 2018-04-16 2019-10-01 International Business Machines Corporation Implementing a whole sentence recurrent neural network language model for natural language processing
US11075862B2 (en) 2019-01-22 2021-07-27 International Business Machines Corporation Evaluating retraining recommendations for an automated conversational service
CN112735388B (zh) * 2020-12-28 2021-11-09 马上消费金融股份有限公司 网络模型训练方法、语音识别处理方法及相关设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3221985C2 (de) * 1982-06-11 1984-07-26 Adalbert 3570 Stadtallendorf Schreiber Vorrichtung zum Bekämpfen von Schadorganismen
US4970822A (en) * 1988-10-11 1990-11-20 Sherman Daniel A Contact poison delivery system
US5425130A (en) * 1990-07-11 1995-06-13 Lockheed Sanders, Inc. Apparatus for transforming voice using neural networks
US5220640A (en) 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
JP2673871B2 (ja) * 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
GB9414451D0 (en) * 1994-07-18 1994-09-07 Roussel Uclaf Environmental He Pest control device
US6018728A (en) * 1996-02-09 2000-01-25 Sarnoff Corporation Method and apparatus for training a neural network to learn hierarchical representations of objects and to detect and classify objects with uncertain training data

Also Published As

Publication number Publication date
ES2213921T3 (es) 2004-09-01
DE69820497D1 (de) 2004-01-22
WO2000013170A1 (fr) 2000-03-09
CA2340028A1 (fr) 2000-03-09
US6799171B1 (en) 2004-09-28
DE69820497T2 (de) 2004-10-14
CA2340028C (fr) 2007-08-14
ATE256331T1 (de) 2003-12-15
EP1232492B1 (fr) 2003-12-10
EP1232492A1 (fr) 2002-08-21

Similar Documents

Publication Publication Date Title
Li et al. Neural network adaptive beamforming for robust multichannel speech recognition.
US5185848A (en) Noise reduction system using neural network
US10937438B2 (en) Neural network generative modeling to transform speech utterances and augment training data
Robinson An application of recurrent nets to phone probability estimation
US6041299A (en) Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5913194A (en) Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
EP0342630B1 (en) Speech recognition with speaker adaptation by learning
CN112567459B (zh) 声音分离装置、声音分离系统、声音分离方法以及存储介质
US6038535A (en) Speech classifier and method using delay elements
JP2003524792A (ja) 音声認識システムと方法
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
US20220157329A1 (en) Method of converting voice feature of voice
US5787393A (en) Speech recognition apparatus using neural network, and learning method therefor
US6151592A (en) Recognition apparatus using neural network, and learning method therefor
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
EP0553101B1 (en) A pattern recognition device using an artificial neural network for context dependent modelling
EP0586714B1 (en) Speech recognition apparatus using neural network, and learning method therefor
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
CA2051602C (en) Method and apparatus for generating models of spoken words based on a small number of utterances
US5745874A (en) Preprocessor for automatic speech recognition system
Elenius et al. Multi-layer perceptrons and probabilistic neural networks for phoneme recognition.
Wei et al. Improved neural network training of inter-word context units for connected digit recognition
Lawrence et al. The gamma MLP-using multiple temporal resolutions for improved classification
JPH09212197A (ja) ニューラルネットワーク