JP3114975B2 - 音素推定を用いた音声認識回路 - Google Patents

音素推定を用いた音声認識回路

Info

Publication number
JP3114975B2
JP3114975B2 JP63087075A JP8707588A JP3114975B2 JP 3114975 B2 JP3114975 B2 JP 3114975B2 JP 63087075 A JP63087075 A JP 63087075A JP 8707588 A JP8707588 A JP 8707588A JP 3114975 B2 JP3114975 B2 JP 3114975B2
Authority
JP
Japan
Prior art keywords
vector
speech
elements
series
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63087075A
Other languages
English (en)
Other versions
JPS6413595A (en
Inventor
ピー クレーカー ジョン
エル パワーズ ロバート
Original Assignee
エリザ コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エリザ コーポレーション filed Critical エリザ コーポレーション
Publication of JPS6413595A publication Critical patent/JPS6413595A/ja
Application granted granted Critical
Publication of JP3114975B2 publication Critical patent/JP3114975B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識に関する。特に本発明は、音声認識
システムのうち、受信音声のデータ縮小表示におけるパ
ターン認識で使われる部分に関する。
(従来の技術) 音声認識用のほとんどのシステムは、音声信号入力そ
のままのデジタル化表示内に含まれるデータの全てより
少ないが、話し手によって意図された意味を識別するの
に必要な全データではないにしてもほとんどを含んだ音
声の表示に、生音声のデータを縮小する何等かの手段を
用いている。音声認識システムの発展または「トレーニ
ング」における課題は、単語やフレーズ等音声要素の特
徴を表す縮小データ表示内のパターンを識別することで
ある。勿論、同じフレーズを発音した音も話し手が違え
ば異なり、またノイズやモデル化プロセスの不正確など
その他のあいまいさ源も存在する。従って、音声の縮小
データ表示の各要素における各種の数学的組合せに尤度
を与えるルーチンが使われ、また各種の仮説がテストさ
れて、多くの可能な音声要素のうちどれが現在話されて
いるものとして最も有望かを判定する。
(発明が解決しようとする課題) これらの動作を実行するプロセスは、計算集約的とな
り易い。尤度は多数の音声要素について判定されねばな
らず、例えば実時間動作という要求によって課せられる
計算上の制約が、使用可能なパターン認識アルゴリズム
の感度を制限する。
従って本発明の目的は、音声認識の全体プロセスに必
要な時間を増さずに、あるパターンの認識に使える計算
時間を増すことにある。別の目的は、音声認識プロセス
を改善することにある。
(課題を解決するための手段) 上記及び関連の目的は、話された単語やフレーズを識
別する更なる処理を実施可能とする推定を生じる音素推
定器(エスティメータ)を用いた音声認識システムによ
って達成される。音素推定器は、音声認識システムが受
け取る新たな音声の全セグメントの縮小データ表示を検
査するトリガー発生器を含む。トリガー発生器は、広い
クラスの音素特徴を表すパターンを縮小データ表示内に
検出すると、音声要素プロセッサをトリガーし、音声要
素プロセッサがそのクラス内の多数音素の各々につい
て、その時点で各音素が発生された尤度を計算する。音
声要素プロセッサはそれがトリガーされたときだけ動作
するので、入力音声のセグメントのわずかなサブセット
でしか動作しない。このため、音声要素プロセッサがあ
る任意の音声要素の識別に使える計算量は、入力音声の
各セグメント毎に計算が実行されねばならない場合に使
える量より大きくなる。
本発明の別の特徴によれば、音声の縮小データ表示に
おけるパターンの認識用の計算で非線形モデリングを用
いる、つまり音声要素自体だけでなく、それらの乗算の
結果の中においてもパターンをサーチする。これは、モ
デル化プロセスの精度を向上させる。
本発明の上記及びその他の特徴と利点を、以下添付の
図面を参照して説明する。
(実施例) この明細書では、音声を認識する製品システムと、製
品システムを「トレーニング」する、すなわち製品シス
テムで使われるパラメータを決める発展システムを説明
する。第1〜6図が製品システムの一実施例を示し、第
7〜11図が対応した発展システムの各部を示す。
製品システム:概括 第1図の音声認識システムは、本発明の音素識別回路
を用いている。例えばマイクロホンの出力の形をした音
声信号が、本発明の教示を具備した音素推定器12によっ
て受信される。任意のある時点における音素推定器の出
力は一群の出力で、各出力はその時点で受信されている
音声がその出力に対応した音素を構成する尤度から得ら
れ、ここで「推定」と呼ぶ値である。
理想的には、単一の音素が識別されるように、一つの
出力が非常に高い尤度を示す一方、外の全ての出力がは
るかに低い尤度を示す。しかし実際には、ノイズ、音声
の変化、及び音素推定器12自体の理想からのずれが、も
っとあいまいな一群の出力をもたらすことが多い。単語
/フレーズ判定器14が推定を受け取り、構成音素の形で
列挙された単語及びフレーズのライブラリ16に問い合わ
せて、尤度の少ない音素を対象から外し、どの単語及び
フレーズが受け取られたかを判定する。単語/フレーズ
判定器14の出力は例示実施例において音素転記音声だ
が、その出力は一群の尤度が見込まれる答えのうちどれ
が話されたかを示すものなど、もっと単純な形も取り得
る。
音素推定を更に処理する特定の方法は本発明に含まれ
ないので、単語/フレーズ判定器14の詳細はここに示さ
ないが、単語/フレーズ判定器14は音素推定器12から生
じる推定に対して厳密に動作すること;つまり単語/フ
レーズ判定器14は生の音声自体またはその周波数スペク
トルなどもっと原始的な形のデータに動作するのではな
いことが重要である。
第2図は、音素推定器12をより詳しく示す。2つの別
々のプリプロセッサ18と20が生音声を受信し、初期のデ
ータ縮小を行う。後で詳述するデータ縮小は、パワース
ペクトルなどを考慮した、正規化等多数のデータ縮小ス
テップからなる。これらほとんどのステップは、同じ組
合せではないが、外の音声認識システムの初期段階でも
使われている。プリプロセッサ18と20は多くの点で似て
いるが、タイミングプリプロセッサ18のためにここで選
択した特定の前処理ステップは、新たな音声要素が生じ
る時点を認識するのに最適な情報を送るステップである
一方、音声要素プリプロセッサ20は、例示の実施例では
音素である特定音声要素の識別に一層適した情報を送る
データ縮小要素からなる。
第1プリプロセッサ18の出力はトリガー発生器22に送
られ、これが新たな音声要素が生じた見込みの時点を指
示する。つまりトリガー発生器22は、見込み発生が母音
または最初の子音であると「Vトリガー」を発生し、そ
の出力を最初の子音プロセッサ24と母音プロセッサ26に
加える。またトリガー発生器22は、生じた見込みのもの
が最後の子音であると「Fトリガー」を発生し、その出
力を最後の子音プロセッサ28に加える。
トリガー発生器22がVトリガーを発生すると、プロセ
ッサ24と26が、各々特定の最初の子音または母音音素が
生じた尤度から得た「推定」である多数の出力を発生す
る。Vトリガーが生じないとき、これらの回路は、それ
らの推定によるとかかる音素が生じた尤度が存在しない
ということを指示する。
同様に、Fトリガーは最後の子音プロセッサ28によっ
て、各々現在受け取っている音声がある最後の子音から
なる尤度から得た「推定」である多数の出力を発生す
る。
いま、生の音声が単語catであるとすれば、最初の子
音及び母音両プロセッサ24、26がVトリガーによって動
作するようにトリガーされ、子音と母音の組合せの発生
を指示する。従ってこれらのプロセッサは、特定の最初
の子音または母音が話された尤度を各々表す多数の出力
を並列に生じる。最初の子音プロセッサ24からのこれら
出力の中では、「k」音を表す出力が最大となろう。同
じく、母音プロセッサ26からの出力の中では、短いa音
を表す出力が最大となろう。単語/フレーズ判定器14
が、これらの出力並びに前及び後の出力を考慮して、最
初に話された音素が「k」音で、次に話された音素が短
いa音であったと結論する。
次に、最後の「t」音が最後の子音プロセッサ28だけ
をFトリガーによってトリガーさせ、これに応じてプロ
セッサ28が「t」音を発生する出力は一般に、それが外
の最後の子音音素について発生する出力より大きい。従
って単語/フレーズ判定器14は、話し手が単語catを話
したと判定する。
音声の変動のため、単語catは、最初の子音と母音両
方がそれで処理される一つより多いVトリガーと、最後
の子音がそれで処理される一つのFトリガーとをもたら
すことがある。例えば、最初の子音と母音が生じ異なる
Vトリガーに応じて処理され、最初の子音を表すトリガ
ーが母音を表すトリガーより前にくる場合がある。更
に、単語内の子音または母音の何れかを処理するのに使
われるトリガーが、一つより多いこともある。特に単語
の発音が引き延ばされると、例えば短いa音の発音はし
ばしば、最初の子音及び母音両プロセッサを複数回トリ
ガーする。従って、これらのプロセッサの出力はその音
の繰り返された発音を指示するが、単語/フレーズ判定
器14はこのような複数の発生を一つの単語内の単一の短
いa音として認識するようにプログラムされている。更
に、短いa母音を処理するのに使われたVトリガーの後
に、別のVトリガーで大きい最初の子音「t」の出力が
生じることもある。単語/フレーズ判定器14は前及び後
の出力を考慮に入れて、「t」を表す最初の子音出力
を、catのスペルを終らせるものとして受け入れる。す
なわち単語/フレーズ判定器14は、一連の音素推定から
話された特定の単語を推論するための広い範囲の各種ル
ーチンを備えることができる。しかし、単語/フレーズ
判定器の特定動作は本発明の一部に含まれないため、こ
こではこれ以上説明しない。
このように機能をトリガーの発生と音素の識別に分け
ることは、比較的多い数の可能性ある音素毎の個別化処
理が各プロセッサ出力の都度でなく、トリガーに応じて
のみ生じるようになるため、計算を減少させる。
タイミングプリプロセッサ 第2図のタイミングプリプロセッサ18を第3図に更に
詳しく示す。6.6kHzのサンプル/ホールド回路と12ビッ
トのアナログ/デジタル変換器からなるデジタイザ29が
音声信号s(t)を処理し、各サンプルの振幅を表すデ
ジタル信号anのシーケンスを生じる。次のブロック30
は、anのシーケンスを31のサンプルだけ重複し従って各
々80の新しいサンプルを含む111サンプルのサブシーケ
ンスに分離するステップを表す。各サブシーケンスは、
要素bk,mを持つベクトルbmと見なすことができる。こ
のベクトルは、ある音声時間区間に対応したある音声セ
グメントを表す「音声区間セグメント」と称することが
出来る。入力ストリームの平均、つまりD.C.値は音声認
識にとって価値ある情報を持っていないため、各ベクト
ル内の要素の平均値が回路32によって除去される。
この時点で、各プロセスは適切なハードウェアシステ
ムで行えるので、図面はそれらプロセスを別々の回路に
よって実施されるものとして示していることに留意され
たい。この別々の回路への分離は説明を簡単にするが、
当業者であれば、かかる機能のほとんどは一般に比較的
少数の共通なハードウェア要素によって行われることが
理解されよう。つまり、ほとんどのステップは通例1つ
または非常に少数のマイクロプロセッサによって実施さ
れる。
ブロック30におけるセグメント化で重複させる理由
は、ブロック34で表したステップを考慮すれば明かとな
ろう。このステップは、各サブシーケンス内のサンプル
の自己相関である。自己相関は(ゼロの「ずれ」を含
む)32のずれについて計算されるので、31のサンプルの
重複が必要になる。デジタイザ29から発生される80の各
サンプル毎に、一つのベクトルdmが生じる。各ベクトル
dmは32の要素dk,m、0≦k≦31からなる。
自己相関ステップは、外のほとんどの前処理ステップ
と同様、音声要素の識別にとって価値のないデータを除
去し、価値のあるデータを保存するステップである。し
かし、自己相関を特に選ぶことは重要でない;事実本発
明者等はこの発明の一部の変形において、自己相関ステ
ップの代わりに離散的なフーリエ変換を用いている。
データ縮小ステップの選択は、情報の保持と計算時間
の減少との間の妥協の問題である。後者の因子がブロッ
ク36で表した次のステップを左右し、そこでは個々のベ
クトル要素の一部がそのまま保持される一方、残りの要
素は相互に平均を取ることによって結合され、32要素の
ベクトルdmを12要素のベクトルemに縮小する。
タイミングプリプロセッサ内の次のブロック38は、第
1差分の計算を表す。ここでも、差分ステップの選択
は、タイミングに関する情報のほとんど全てが第1差分
内に保持される一方、タイミング決定に寄与しない多く
の情報はそれらの差分を生じる減算によって除去される
という仮定に基づいている。これはタイミングの前処理
で価値あるステップと考えるが、第1差分の計算を含ま
ないステップの組合せを用いたプリプロセッサでも本発
明の教示を首尾良く実行できる。
また本発明者らは、その後の処理で正の差分と負の差
分を別々に処理するのが有利であると考える。このため
に、ブロック40で表したステップが含めてあり、そこで
正の差分と負の差分をそれぞれ異なるベクトル位置に入
れることによって分離する。
ブロック40で示した動作は、正−負の分離だけでな
く、ノイズの減少も表している。これらの動作の目的を
理解するためには、約プラスまたはマイナス3×10
8(つまり約80×2048×2048)である自己相関ステップ
での可能な最高出力を含むのに充分な表示範囲となるよ
うに、例示の実施例ではブロック32の最初の計算ステッ
プ後で浮動小数点表示を用いていることを知ることが役
に立つであろう。この大きさの範囲では、比較的小さい
値の要素が多分ノイズを表している。この実施例では、
3200以下の値を「小さい値」として処理する。つまり、
これらの小さい値をブロック40の分離プロセスの一部と
して取り除く。入力要素fk,mは、fk,mが3200より大き
いと、対応した出力要素gk,mとなる。それ以外の場
合、対応した出力要素gk,mはゼロである。fk,mが−32
00より大きい負だと、別の要素gk+12,mは−fk,m
等しい。それ以外の場合、gk+12,mはゼロである。従
って、ブロック40のステップは24要素のベクトルgmを発
生し、これらの要素のうち少なくとも半分はゼロに等し
い。
ブロック40の出力中における最も小さい振幅の要素が
多分ノイズを表しているが、外の低い振幅要素の小さい
変化が高い振幅要素における同じ絶対的サイズの変化よ
りも多くの情報を含んでいることもある。すなわち、意
味はおそらく変化の絶対的サイズでなく、相対的サイズ
の中に存在する。この仮定を認識して、ブロック42で表
したステップでベクトル要素の対数を取る。もっと正確
に言えば、要素値がゼロで、その要素についてのブロッ
ク42の出力がゼロになる場合を除き、3200で割った要素
値の対数が取られる。尚、ブロック40の分離ステップは
正かゼロの要素だけをもたらすので、ブロック42におい
て負の数の(定義されていない)対数を処理する必要は
ないことに留意されたい。
次のブロック44は、各要素からそれを取り囲む13のベ
クトル内の対応する要素の移動平均を減算するステップ
を表す。このステップを設けたのは前記同様、この種の
ステップが最も有意な情報を保持しながら、重要性の低
い情報を取り除くと考えるからである。すなわち、ブロ
ック44の出力を受け取るトリガー発生器の目的は、発声
の開始または分岐など音声パターンの有意な変化が存在
する音声中の箇所を識別することにある。移動平均の減
算は、このような変化をより一層際立たせるものと考え
る。ブロック44の出力pmが、第2図のタイミングプリプ
ロセッサ18の出力となる。
尚、ブロック44で表したステップは6の遅延を導入す
る;pmは移動平均を取り除いたhm-6に等しい。トリガー
発生におけるこれと外の遅延の補償については、第6A図
に関連した議論で説明する。
トリガー発生器 第2図のトリガー発生器を第4図に詳しく示す。音声
要素の発生を識別するため、すなわちトリガー信号を発
生するために、タイミングプリプロセッサ18の出力がブ
ロック46で、既知音声の観測により各種クラスの音素の
特徴を表すものとして先に識別されたパターンにつき、
トリガーマトリックスV″とF″によって「モデル化」
される。つまり各m毎に、8つのベクトルpm-7,...,pm
からなるマトリックスが2つのトリガーマトリックス
V″とF″によって別々にスカラー乗算される。これら
の各トリガーマトリックスはマトリックス[pm-7,...,p
m]内の各要素に対応した別々の要素を有し、各トリガ
ーマトリックスの要素は[pm-7,...,pm]内のそれに対
応した要素がある一定種類の音素の発生を示す度合を表
している。トリガーマトリックス内の正要素は、データ
マトリックス内の正の対応要素と乗算されると、スカラ
ー積に対して正の寄与率を生じる。同じく、トリガーマ
トリックス内の負要素は、データマトリックス内の負の
対応要素と乗算されると、スカラー積に対して正の寄与
率を生じる。V″マトリックスによる乗算の結果は、マ
トリックス[pm-7,...,pm]が母音あるいは最初の子音
どちらから結果したかを示すスカラーqmである一方、
F″マトリックスによる乗算の結果は、前記マトリック
スが最後の子音から結果したものかを示すスカラーrm
ある。トリガーマトリックスの発生に関する議論で説明
する理由から、ブロック46では3の遅延を導入する。
ブロック48で表したステップでは、得られた出力qm
rmの各々が4172のしきい値と比較される。しきい値より
高い値がそのクラスの音素の発生を表すと見なされる一
方、しきい値以下の値はそうと見なされない。ある音素
の単一発音が連続する幾つかのサンプル群を生じるもの
と見込まれしきい値より高いqmまたはrm値をもたらすこ
とがあるため、所定のしきい値を越えたqmまたはrm値は
最も近い前の値及び最も近い後の値と比較され、qmまた
はrm値が局所最大であるかどうかを判定する。次いでV
またはFトリガーが発生され、各局所最大が生じた時点
を指示する。V及びFトリガーは、第2図のトリガー発
生器22の2つの出力である。
ブロック48には、それが1の時間単位の遅延を与える
ことが示してある。これはタイミングプリプロセッサと
トリガー発生器両方に対し、最終的に累計10の遅延をも
たらす;つまりブロック44の移動平均減算での6、ブロ
ック46のマトリックスによるスカラー乗算での3、及び
ブロック48の局所最大ステップでの1である。従って、
V及びFトリガーは、以下検討する音声要素プリプロセ
ッサの出力に対して10時間単位だけ遅延される。
音声要素プリプロセッサ 第5図に、第2図の音声要素プリプロセッサ20を詳し
く示す。プリプロセッサ18と同様、プリプロセッサ20
も、第5図のブロック28、30及び32が示すように、デジ
タル化、セグメント化、及び平均値の除去から始まる。
これらは、第4図の最初の3ブロックと同じである。ブ
ロック56の議論に関連して以下明かとなるように、ブロ
ック32のステップで取り除かれた情報、すなわち平均値
は、ブロック32のステップが行われないとしてもその後
の処理によって取り除かれる。このため理論的には、ブ
ロック32のステップは余分なものである。しかしここで
は、比較的大きいD.C.(平均)成分が存在すると、その
後のステップで用いる数値技法の精度が減じられること
から、このステップを実行する。
第5図の次のブロック50は、128点の離散フーリエ変
換(DFT)を表す。最後の17入力点(128−111=17)は
ゼロである。本発明者等がDFTを使い始めた以前の前の
型の装置で用いていたセグメント化ルーチンの保持に基
づくゼロの使用は、本装置の改善につれ取り除かれるこ
ととなろう。
DFTへの入力は純粋に実数なので、DFTの128の複素数
出力のうち65だけが非冗長データを表す。従って、ブロ
ック50の出力は65要素の複素数ベクトルdmである。
ブロック52はパワースペクトルの発生を表す。すなわ
ち、一般に複素数のDFT値dk,mがそれらの複素数共役d
k,mと乗算され、対応した実数値ek,mを発生する。こ
の乗算は、音素識別に必要と考えられる情報のほとんど
を保持しながら、データの量をこの時点で1/2に減少さ
せる。次の「ハンの窓(von Hann window)」ブロック5
4は、通常の方法によるスペクトルの平滑化を表し、時
間領域での切り捨てから結果するサイドローブを減少す
る。次に、こうして得られたベクトルがブロック56に示
すように処理され、65要素のベクトルfmを7要素のベク
トルgmに減じる。この処理では、その後の計算負担を減
少させるように、最も低い周波数を表す複数の要素が取
り除かれ、その他のグループは平均化によって結合され
る。幾つかの最も低い周波数成分は音素の識別プロセス
に必要でなく、また周波数成分の平均化は情報保持と計
算減少の間の妥協である。
また、一部の価値ある追加の情報は信号の平均パワー
に存在すると考えられる。ブロック58は、ブロック50の
対応したDFTを生じるのに使われるサンプル群における
平均パワーhmの計算を表す。次にこの平均パワーhmがブ
ロック60で7要素のベクトルgmと連結され、8要素のベ
クトルpmを生じる。ブロック58のステップで求められる
パワーhmは、ブロック56の要素結合で除去した低周波数
成分を含んでいる。これらの最も低い周波数成分は音素
の識別プロセスにとって価値ある情報を含んでないと考
えられるので、この発明の別の変形では、要素結合を形
成するのに使われたスペクトル成分だけから平均パワー
を計算する。このような変形においては、パワースペク
トルまたは窓を通過したパワースペクトルの切り捨て
(高域通過)部分から平均パワーを計算する。音素識別
用の情報は多分、ベクトルpmの個々の要素pk,mの変化
の絶対的サイズではなく相対的サイズの中に存在する。
従って、ブロック62に示すように、全て正かまたはゼロ
であるこれらの要素が1だけインクレメントされ、その
結果の対数が計算される。この1のインクレメントは、
得られる全ての対数がゼロか正になることを保証する。
こうして得られた8要素のベクトルqmが、第2図の音声
要素プリプロセッサ20の出力となる。
音声要素プロセッサ 第5図の音声要素プリプロセッサの回路の目的は、入
力データを処理可能な量に減じることにある。その結果
が入力のデータ縮小表示であり、これについて第2図の
音声要素プロセッサ24、26及び28が個々の音素を表すパ
ターンを調べる。第6A、6B及び6Cに、これら音声要素プ
ロセッサの詳細を示す。
第6A図のブロック64、66及び68が、それぞれ第2図の
音声要素プロセッサ24、26及び28によって行われる機能
を表している。すなわち、ブロック64と66の各々は、第
2図のトリガー発生器22がVトリガーを発生した各m毎
の受領フィールド、つまり連続する9つのベクトルqm
のアセンブリを表す。ブロック68は、第2図のトリガー
発生器22がFトリガーを発生した各m毎の受領フィール
ドのアセンブリを表す。
前に指摘したように、離散フーリエ変換の発生、正規
化など上述したステップの多くは、必ずしも同じ組合せ
ではないが、外の音声認識システムによっても通常実施
されているステップである。また、これから説明するス
テップの一部は、多くの既存システムでのパターン認識
ステップと類似しているところがある。しかし本発明に
よれば、これらのステップは受領フィールドに対しての
み実施される。ブロック64、66及び68で表した受領フィ
ールドのアセンブリは、外の全てのベクトルqmを更なる
処理から取り除いている。これは処理の全体量を減少
し、音素識別の精度向上に一層寄与するものと考える。
抽出ステップ64、66及び68は相互に類似している。ト
リガー発生器22が時間要素mについてVトリガーを発生
すると、ブロック64の抽出ステップが9つのベクトルq
m-16,...,qm-8からなる受領フィールドをアセンブルす
る一方、ブロック66の抽出ステップは9つのベクトルq
m-13,...,qm-5からなる受領フィールドをアセンブルす
る。トリガー発生器22が時間要素mについてFトリガー
を発生すると、ブロック68の抽出ステップは9つのベク
トルqm-12,...,qm-4からなる受領フィールドをアセンブ
ルする。トリガー発生器22が特定の時間要素mについて
VトリガーもFトリガーも発生しないと、その時間要素
について受領フィールドはアセンブルされない。
VまたはFトリガーの発生とそれに応答してアセンブ
ルされるベクトルqmとの間に与えられる遅延のほとんど
は、音声要素プリプロセッサ20の出力に対してV及びF
トリガーが遅延される10の時間単位を補償するものであ
る。異なる回路64、66及び68で与えられる遅延間の差
は、本発明者等の経験に基づく、音素の識別を最も特徴
付ける音声の各部分間でのタイミングの差によるもので
ある。
後述する2つの例外を除き、音素識別回路24、26及び
28の各々の残りの構成部分は外の2つと同等なので、第
6A、6B及び6Cは回路24の残りの構成部品だけを示す。
(また別々の「回路」としてシステムを説明するが、こ
れらの機能は一般に同様のルーチンを実行する共通のマ
イクロプロセッサによって実行される。) 受領フィールドが選ばれると、データとそれに伴う計
算の負担を減少させる別のステップが行われる。つま
り、受領フィールドの9つのベクトルが3つのグループ
に分けられ、各グループの3つのベクトル内の対応要素
が、3つの8要素ベクトルが生じるように平均化され
る。これら3つのベクトルが連結されて、各受領フィー
ルドから単一の24要素ベクトルrmを生じる。ブロック70
がこの平均化と連結を表す。
ベクトル指標が、ブロック64の受領フィールド抽出ス
テップによって行われるデータの除去を反映し、ステッ
プ70でmからnに変化する。このステップはVトリガー
が発生されたmの値についてだけの受領フィールドをア
センブルするので、ブロック70のステップはmの各値毎
の受領フィールドに対して動作するわけではないので、
mのシーケンス中には「穴」が存在する。つまり指標n
は、これらの「穴」を取り除いて付け直した番号を表
す。
発展システムの説明に関連して後で詳述するように、
第1〜6図の製品システムで使われる幾つかの定数ベク
トル及びマトリックスが、一人以上の話し手から発せら
れた多量の記憶サンプル音声を処理する発展システムに
よって得られる。これらの定数を発生するため、発展シ
ステムが記憶装置内の全音声を上述した全ての処理に付
し、ブロック70のステップで生じるものに対応した多数
のベクトルrnを発生する。発展システムがこれらのベク
トルrn全てについて各要素の平均(ミューμ)と標準偏
差(シグマσ)を計算し、これらの定数が第1〜6図の
製品システムで使われ、ブロック72に示すように対象の
ベクトルrnの各要素を、それから平均を差し引いた後、
その結果を標準偏差で割ることによって正規化する。こ
の結果が正規化ベクトルsnである。かかる正規化を行う
のは、ベクトル要素によって表される量の中で重量なの
は、絶対的な意味でのその値ではなく、むしろ平均から
のその偏差が全てのベクトル内の対応要素の標準偏差と
如何に比較されるかであることが見込まれるためであ
る。すなわち、わずかにだけ変化する量の小さい変化の
方が、もっと広い範囲で変化する量の同様なサイズの変
化より重要であると見られる。また、正規化はその後の
処理で必要な計算のダイナミックレンジを減少させる。
説明がさらに進むにつれ明かとなるように、音素識別
プロセスは音素を認識するヒューマンプロセスのモデル
として設計されている。事実音素識別プロセスは、記録
された(または生の)音声を聞き、認識した音素によっ
て音声の各部分をラベル付けするという人の観測を用い
ている。ある意味において、「システム」への入力が人
によって聞かれる音を構成する圧力波である一方、出力
は音の短い各部分をそれによってラベル付けする音素記
号である。第7〜11図に関連して説明するような発展装
置での「トレーニング」時に、ヒューマン「システム」
が出力を入力と連関することによってモデル化される。
しかし、相関プロセスを制御可能なように、本モデル
化プロセス、及び実際には本発明者等が知っている全て
の音声認識システムのモデル化システムは、相関プロセ
スの開始前に顕著な量のデータ縮小を行っている。すな
わち、相関プロセスでは音素記号(外のシステムの場合
には単語またはフレーズ用の記号)を、音を構成する圧
力振幅の値と直接相関させることを含んでない。その代
わりに出力信号は、第6A図のブロック72に至るまでの間
で説明したような一連のデータ縮小ステップの結果と相
関させられる。従来のほとんどのシステムでは、音素、
単語またはフレーズを、一連のデータ縮小ステップによ
って発生されたベクトルsn等のベクトルの要素と相関す
ることによって、トレーニングが実施されている。
これに対し、第7〜11図の発展システムは、モデル化
システムを非線形システムとしてより直接処理するよう
に、相関前に更に別のステップを実施している。本発明
者等は、音素をsnの要素とだけ相関する代わりに、各要
素とそれらの積及び累乗とから成る非線形の表示と音素
を相関させ、第1〜6図の製品システムで使用すべきパ
ラメータを判定すれば、より高い精度が得られることを
見いだした。これらのステップの第1は製品システム中
において、snの外積、すなわちsnの要素の全ての個別積
の形成を表すブロック74によって反映されている。ブロ
ック75は、ベクトルsnがその外積と連結され、非線形の
表示を生じることを示している。この非線形の表示が32
4要素のベクトルunとなる。
処理のこの時点における外積の使用は、2つの効果を
有する。第1は、その後のモデル化プロセスで2次の項
を利用可能とし、その後のモデル化プロセスがsnの要素
に対して非線形に応答可能とすることで、明らかに非線
形のヒューマン「システム」をより厳密に模倣可能とす
る点にある。これは、入力データのストリームが非線形
性を持たないモデル化プロセスと比べ、精度を向上させ
る。第2は、外積の使用がその後のモデル化プロセスに
導かれるベクトルのサイズを大幅に増大させることであ
る。例えば、外積ブロック74に入力するベクトルのサイ
ズは24であるが、ブロック75のベクトル出力のサイズは
324である。
本発明者等は、ある一定時点後において、外積ステッ
プに入力されるベクトルの長さの増大は発展システムの
精度を向上する一方、製品システムの精度を低下させる
ことを見いだした。この理由は、外積のサイズを大きく
すれば、発展システムが「トレーニング」のために用い
るデータベース内に含まれた音声の特徴を、発展システ
ムがより厳密にモデル化可能にすることにある。しか
し、話し手間での変化、及び一人の話し手による音声内
での変化のため、製品システムに加えられる音声の各音
素の特徴はほとんど発展システムのデータベースに含ま
れていない。音声のパターンを認識するモデル化プロセ
スで使われる極めて多数のパラメータが発展システムの
データベースに属しているが、これらは新たな音声を一
般化するものではない。このために製品システムの精度
は、パラメータの数がある一定のサイズを越えた後は低
下する。外積ブロック74に入力されるベクトルのサイズ
は、上記の点を考慮し最良の妥協を与えるように選ばれ
ている。
ブロック76はこうして得られたベクトルunの正規化を
表す。この正規化は、各ベクトルunの要素からの平均の
減算と、その差のそれらの絶対値の平均による除算とを
含んでいる。このステップの効果は、簡単に言えば大き
い音声と低い音声が同じになるようにすることにある;
つまり音素認識の目的上、音声の大きさは何等の情報も
有していない。ベクトル毎の正規化に絶対値の平均を選
んだことは、重要でない。事実、本発明者等は一部の実
施例において、その平均の代わりにベクトル要素の標準
偏差を用いるつもりである。
プロセスのこの時点で、データは直接モデル化プロセ
スに入ることができる;実際に、各実施例をその通りに
作動させてきた。しかし本発明者等は、再び外積を取っ
て更に非線形性を付け加えると、より高い精度が達成さ
れることを見いだした。2度目の外積計算は、線形項と
一次項の各対の積からなるため、三次及び四次の項を生
じる。但し、2度目の外積計算ステップは注意して適用
しなければならない。何故なら、そのまま適用すると、
出力ベクトルサイズの幾何的成長が製品システムの精度
をひどく低下させるからである。
第6B図は、更なる外積の形成に関連したステップを示
す。通例、ベクトルvnの要素間には何等かの相関性が存
在する;すなわち統計をベースとして、外の要素の値が
分かれば、ベクトルvnのある要素の値のランダムよりま
しな予測を行える。しかし、相関性のないデータに対し
て成されるなら、数学的モデル化の方が有効的である。
発展システムの議論で以下説明するように、発展システ
ムは発展用データベースを処理して、ベクトルvnを各要
素が相互に相関していない新たなベクトルwnへと変換す
る無相関マトリックスDを発生する。
ブロック78で用いる特定の無相関マトリックスDは、
ベクトルvnを、発展用データベース内のデータから発生
された共分散マトリックスの固有値へと解くものであ
る;つまり、wnの各要素は異なる固有ベクトルの方向に
位置したvnの成分を表している。最も高い固有値に対応
したwnの要素が音素の認識にとって最も重要である一
方、最も低い固有値に対応した要素が最も少ない重要性
を持つと考えられる。
ブロック80で表されたステップでは、発展システムに
よって計算された20の最も高い固有値に対応したwnの20
要素だけを選択する、すなわちwnの中で「最も重要な」
20の要素だけを選択した後、ブロック82に示すように、
これら20要素の外積znを形成する。一方、ブロック84で
表したステップでは、154の最も低い固有値に対応した
要素を捨てることによって170要素のベクトルがwnから
形成され、その後ブロック86に示すように、xnがznと連
結されて、新たな380要素のベクトルanを形成する。つ
まり、追加の非線形性を導入するが、ベクトル要素の分
別ある選択によって、得られるベクトルを不当に長くす
ることなく導入を行う。
第6C図において、ブロック88は特定の音素、すなわち
「h]音に関連した無相関とモデル化を表す。数学的に
言うとこのステップは、ベクトルanと単一ベクトルK
h″とのスカラー乗算からなる。Kh″は、それぞれベ
クトルanの各要素と対応した複数の要素で構成されてい
る。Kh″の各要素は、anの対応要素が「h]音素を特
徴付ける度合を表している。Kh″はトレーニングプロ
セス中に無相関マトリックスから発生される「核」ベク
トルで、anとKh″の乗算は数学的に、anと無相関マト
リックスを最初に乗算した後、得られた無相関ベクトル
と核とをスカラー乗算することに等しい。
前述したように、非線形モデル化の利点の大半は、第
6B図のブロック80〜86で表された第2の一連の外積ステ
ップを行わなくとも得ることができる。このような単純
化したシステムでは、Kh″を形成するのに使われた無
相関マトリックスがブロック78に示したマトリックスD
と同じで、別個の無相関ステップ78は必要なく、ブロッ
ク76の出力が直接ブロック88に入る。
ブロック88から得られるスカラーXh nは、ベクトルan
を生じた音が「h]音であった尤度と関連している。ブ
ロック90は、Xh nから「尤度比」への変換を表し、これ
はその尤度をより直接的に表す量である。要するに、候
補の単語やフレーズのサーチに際して、単語/フレーズ
判定器14(第1図)が候補の単語やフレーズの成分音素
の尤度比を乗算し、その単語やフレーズに関する確率に
達する。計算を簡単にするため、ブロック90で表したス
テップでは尤度比の対数Yh nを計算し、Yh nを単語/フレ
ーズ判定器14に与え、これが加算によって「乗算」す
る。本明細書において「推定」と呼ぶことにしたのが、
この対数である。
Yh nはXh nの多項式の値として計算され、その各定数は
発展プロセス中に得られ、「h]音を特徴付けるもので
ある。すなわち、多項式の定数は次の2つを含むブロッ
ク90に記した各値を有する;(1)「h」音素を含まな
い抽出受領フィールドから得られた発展(「トレーニン
グ」)音声データ中におけるXh nの下付き数字0でラベ
ル付けされている平均(ミューμ)と標準偏差(シグマ
σ)、及び(2)「h」音素を含む抽出受領フィールド
から得られた発展音声データ中におけるXh nの下付き数
字1でラベル付けされている平均と標準偏差。
母音と最後の子音についての処理は、最初の子音につ
いて第6A〜6C図に示した処理と実質上同じである。受領
フィールドの抽出における差は別として、母音と最後の
子音の処理は最初の子音の処理と比べ2つの点で異な
る。第1は、固定パラメータの正規化と無相関用の各ブ
ロック72、78で使われるパラメータが異なる。何故な
ら、これらのパラメータはデータベース内の最初の子音
用サブセットからでなく、母音と最後の子音用サブセッ
トから発生されるからである。第2は、発展システムの
議論から明かとなる理由から、ブロック80と84で表され
たようその選択が異なる。
ブロック90及びその他の音素用の対応したブロックの
出力に基づいて、単語/フレーズ判定器14がサーチルー
チンを実行し、話されたと見込まれる単語及びフレーズ
を見つける。前にも述べたように、本発明は音素の識別
に関するものなので、単語/フレーズ判定器14の動作は
詳しく説明しない。従って、製品システムについての説
明はこれで終る。
発展システム:概括 次に、第1〜6図に示した製品システムで使われる各
種のパラメータを得る方法について見る。第1〜6図の
製品システムは、前もって求められた正規化ベクトル、
無相関及びモデル化マトリックスを用い未知の音声に対
して動作し、それが含んでいる音素を判定する。第7〜
11図に示した発展システムは既知の音声及び関連の音素
に対して動作し、無相関及びモデル化マトリックスを計
算する。
トリガー発生マトリックスの計算 第7A、7B、7C及び7D図は、第4図のブロック46で表し
たステップで使われ、V及びFトリガーを発生するV″
及びF″トリガーマトリックスを計算するための発展シ
ステム装置の一部を示す。発展システムは既知音声に関
する多量のデータベースを持ち、それを第3図に示した
のと同等な処理に付す。この処理の出力が、一連のM個
の24要素ベクトルpmである。第7A及び7B図に示したプロ
セスの目的は、音素認識のヒューマン「システム」の数
学的モデルを得て、一連のpmとのスカラー乗算によって
あるクラスの音素が生じた尤度を示すスカラー(第4図
のqmまたはrm)を生じるマトリックスを発生することに
ある。
一般に、ベクトルpmの要素間には相関性が存在する。
しかし前述したように、入力の各要素が無相関とされた
とき最良のモデルがもたらされる。そのため、生のpm
使う代わりに、第7A図の装置ではブロック92に示すよう
に、各要素が相互にあるいはシーケンス中の前のベクト
ルqm-1の要素と相関性を持たない新たなベクトルqmへと
pmを変換させるトリガー無相関発生マトリックスDtを計
算する。ブロック94は、無相関発生マトリックスDtをpm
及びpm-1からなる48要素ベクトルと乗算することによる
無相関動作を表す。(尚ブロック92のステップは、ブロ
ック94のステップが任意の発展データに対して実施可能
となる前に、全ての発展データに対して実施されねばな
らない。)この結果が、24要素のベクトルqmである。
次の3つのブロックが、システム入力をシステム出力
と相関させ、最良の線形モデルに達するための中心部分
を表している。ブロック96はqmの7ベクトルシーケンス
からマトリックスrmを形成し、システムへの入力つまり
少なくとも無相関の入力を構成する。この入力が、第7B
図のブロック98と100で表した2つの並列な核形成ステ
ップにそれぞれ加えらえる。これらの核形成ステップ
で、ブロック102で表したステップで発生されるラベルL
U mとLF mからなる出力に対して入力rmが相関させられ
る。このステップでは訓練された聴き手が、そこから各
ベクトルpmが発生された音声を聴き、その音声が母音ま
たは最初の子音を含むかどうかの指示によってラベル付
けする。また聴き手は、音声が最後の子音を含んでいる
かどうかを指示するラベルも与える。この結果が、LU m
とLF m値のシーケンスとなる。ブロック102に示すよう
に、これらの値は各々、特定種類の音素が関連の音声内
に含まれていたかどうかに応じて1または0である。こ
れらの値がモデル化すべきシステムの出力となり、ブロ
ック98と100で表した核形成ステップがそれら出力を入
力rmと相関させる。
すなわち、ブロック98は、24x7マトリックスrm内の各
要素毎に一つの要素を有するマトリックスVの形成を表
す。マトリックスVのある要素を発生するため、各入力
マトリックスrm内の対応要素が、該当ベクトルのラベル
LU mとそのLU mの平均との差からなる量と乗算される。こ
うして得られた値が全ての発展データについて加算さ
れ、入力ベクトルの総数で割った結果が核V用の値V
k,1となる。核Fも同様に発生されるが、核Fを生じる
のに使われる出力はLU mでなくLF mである。
平均の減算は核の線形部分を表現可能な数値範囲を最
大とし、また第4図のブロック48で使われるしきい値が
平均の除去を許容するように設定されているため、モデ
ル化プロセスの出力VとFに生じる変化は何等の問題も
もたらさない。
最初の子音と母音の両音素用に共通のトリガーを発生
する同じマトリックスを使うことは、当初別々のマトリ
ックスの使用を考えていた初期の研究の成果に基づいて
いる。つまり、2つのトリガーに使われるマトリックス
を調べたところ、それらは本質上同じだが、時間的にず
れていることが判明した。そこで本発明者等は、適切な
時間のずれを含めれば、両トリガーについて一つのトリ
ガーマトリックスを使え、従って計算負担をある程度取
り除けると結論した。
第7C図のブロック104は、各々の核要素からその要素
が属する核の全要素の平均を差し引き、各々の核毎の減
算結果をその核の要素の標準偏差によって割ることによ
る、V及びF核の正規化を表している。この核の正規化
は必ずしも必要でないが、数値上の考慮からここでは含
めた。各々の核の平均は、核形成ステップで使われる入
力と出力両方の平均自体がゼロかゼロに近いため、既に
小さいはずである。つまり、入力の平均は第3図のブロ
ック44で移動平均を除去しているのでほぼゼロであり、
移動平均の窓の巾は核の時間巾のほぼ2倍である。ま
た、出力は前述したように、核の形成時にラベルの平均
の取り除くことでゼロとされている。
次いで第7D図のブロック106に示すように、ブロック1
04の正規化から得られたマトリックスV′とF′が無相
関マトリックスDtと結合されて、2つの新たなモデル化
マトリックスV″とF″を生じる。
こうして得られたマトリックスV″とF″が第4図の
ブロック46で表したステップで使われ、2つの機能を同
時に実行する。第1の機能は、第7A図におけるpmから無
相関ベクトルqmへの変換で、これに基づいて発展モデル
化が行われた。第2の機能は、こうして得られた無相関
ベクトルを正規化後の核V′とF′でモデル化し、指示
された種類の音素が生じたかどうかの指示を発生するこ
とである。この結果、第7B図の核形成ステップ98と100
は7つの無相関ベクトルだけのシーケンスに対して行わ
れるが、第4図のモデル化ステップ46では、7つの無相
関ベクトルの各々が対応した相関ベクトルだけでなく先
行する相関ベクトルからも計算されているため、8つの
pmのシーケンスに対して行われる。この理由から、ステ
ップ106への入力であるV′とF′が24x7のマトリック
スである一方、ステップ106の対応した出力は24x8のマ
トリックスとなる。
ここにおいて、第4図のブロック46での遅延を何故3
と定義したかが理解されよう。つまり、このブロック46
は、トリガーマトリックスに入力ベクトルpm-7...pm
スカラー乗算することによって出力qmとrmを発生するス
テップである。このステップは暗黙的に、pm-6...pm
無相関シーケンスを発生し、この無相関シーケンスをモ
デル化している。この無相関シーケンスはpm-3に中心合
わせされているので、ステップ46の遅延は3と見なされ
る。
第7A図のブロック92に表した無相関マトリックスの計
算を、第8図に詳しく示す。第8図において、ブロック
108が一組の共分散の計算を表している。発展データ中
の各ベクトルpm毎に、pmの24要素の各々とpmの外の各要
素との間の共分散が、pmの各要素と先行ベクトルpm-1
各要素との間の共分散と共に計算される。これらの共分
散が第8B図のブロック110に示したベクトル方程式で用
いられ、先行ベクトルpm-1の全ての要素及び同一ベクト
ルpmの全ての下方指標要素に基づいて、pmの第1要素の
値の最良予測を判定する。ベクトルalは、pm-1の全ての
要素及びpmの全ての下方指標要素に基づく、pmの第1要
素の最良予測用の係数からなる。すなわち、pl−1,m
及びpmの全ての下方指標要素がpm-1と連結されて新たな
ベクトルを形成すれば、alとその新たなベクトルとのス
カラー積がpl,mの最良予測となる。
無相関ベクトルとは、pl,mとpm-1の連結からなるベ
クトルとpmの全ての下方指標要素とのスカラー乗算で、
l,mとpl,mの最良予測との差に比例した値を生じるベ
クトルのことである。第8C図のブロック112で表したス
テップは、1+24要素の長さである各予測ベクトルa
lを、利得項glによる割り算を含む同ブロック内に示し
た式に従って、1+25要素の長さである無相関ベクトル
a′に変化する。各々の無相関ベクトルa′が、相
関ベクトルpmとpm-1の連結における要素のサブセットと
乗算されたとき、無相関ベクトルの一要素を生じる。第
8D図のブロック114は、各無相関ベクトルa′をゼロ
要素で長くし、pmとpm-1の全ての連結との乗算のときに
同一の要素を与える新たなベクトルを生じるステップを
表している。次いで、長くなったベクトルが互換され、
トリガー無相関マトリックスDtを形成する。ブロック11
2に示した利得glで割り算してあるため、第7A図のブロ
ック94における無相関マトリックスDtの使用は、全ての
要素が時間を通じて単位分散を有する出力qmを生じる。
第7B図の核形成ステップ、ブロック98と100は単位分散
である分散に依存する。
無相関及びモデル化マトリックスの計算 次に、発展システムのうち、「h」音など個々の音素
の認識用マトリックスを発生する部分を示した第9、10
及び11図を参照する。発展システムにおける処理の初期
段階は、製品システムで使われるものと同じである;す
なわち既知の音声が、初期の音声処理のために製品シス
テムで使われる第5及び6A図に示したステップに付され
る。従って、この処理はV及びFトリガーを発生するマ
トリックスの事前計算を必要とし、vnはVまたはFトリ
ガーにより「受領フィールド」として識別されたサンプ
ルグループだけから得られることに留意されたい。
尚以下の議論では、発生されるマトリックスが音素
「h」の存否を指示するのに使われるものであると仮定
する。従って、vnはV(最初の子音または母音)トリガ
ーによって識別された受領フィールドから得られたもの
である。これらのvnから、ブロック116に示すように、
無相関マトリックスが発生される。ステップ116で生じ
る無相関マトリックスは最初の子音の受領フィールドか
ら発生されるため、一般に第7A図のブロック92で使われ
るトリガー無相関マトリックスと異なる。ブロック116
のステップと並列なステップが、それぞれ母音及び最後
の子音音素のために使われる別の母音用無相関マトリッ
クスと別の最後の子音用無相関マトリックスを発生す
る。
ブロック116に表した特定の処理を、第10図に詳しく
示す。第10図で計算されるマトリックスでは、あるベク
トルvnにおける個々の要素間の相関性だけが取り除かれ
ており;従ってこの点が、vnの要素とvn-1の要素との間
の相関性を何れも取り除いてない第8図のトリガー無相
関マトリックスと比べ特に異なる。こうする理由は、第
8図で無相関化されるpmの連続マトリックスと異なり、
第10図で無相関化されるvnの連続マトリックスはそれら
の間に固定の時間関係を持たないからである。
ブロック118は、その要素が最初の子音用の受領フィ
ールドとして識別された発展データのセグメントから得
られたベクトルvnの各要素間の分散及び共分散である共
分散マトリックスRの計算を表わしている。ブロック12
0は、共分散マトリックスRを処理し、第8図で発生さ
れたベクトルa′によって実施される機能と同様な機
能を有するベクトルalを見いだす手順を示す。実際上、
第10図ではベクトル間の相関性を取り除く試みがなされ
ていない事実を考慮して適切な調整を施せば、一部の実
施例において、第8図に表した一般的な手法を第10図の
方法に代えて使用可能である。しかし、第10図に示した
方法を採用したのは、その結果得られる無相関マトリッ
クスが入力ベクトルを固有ベクトル成分に分解し、従っ
て第6B図のブロック80と84に関連して説明したベクトル
長さの縮小を簡単にするからである。
第10B図のブロック120は、共分散マトリックスRの固
有値と固有ベクトルを見いだすステップを表している。
この結果が、324個の固有値及び324個の対応した324要
素の固有ベクトルalとなる。各固有ベクトルはブロック
122に示すように、それを対応した固有値の平方根で割
ることによって正規化され、新たな固有ベクトルa′
を生じる。各固有ベクトルa′は、第9図のブロック
126でvnとスカラー乗算されると、各要素が相互に何等
の相関性も持たない変換ベクトルwnの異なる要素をもた
らす。また、正規化ステップ122、及びブロック120用の
特定アルゴリズムが単位ノルムの固有ベクトルを生じる
という事実の結果として、wnの各要素の分散は単位値と
なる。このためブロック124が示すように、各alを転置
し、それをマトリックスの各異なる行として用いること
によって、無相関マトリックスDを得る。このマトリッ
クスが、ブロック126に示すようにvnを無相関化するの
に使われ、無相関ベクトルwnを生じる。
ブロック126の出力wnは324要素のベクトルである。第
10B図のブロック122で行われる正規化ステップのため、
これら組合せの全ての分散は同じである。しかし、この
ような正規化が存在しないと分散は著しく異なるものと
なり、本発明者等は、音声要素の識別上分散が最小とな
る要素の重要性が最も低いと仮定した。
従って計算の負担を減じるため、ブロック128に示す
ように、ここでは固有値が最も小さい固有ベクトルによ
って発生された154の要素を除去する;すなわち、正規
化前の分散が最も小さかった要素を除去して、170要素
のベクトルxnをもたらす。同時にブロック130に示すよ
うに、20の「最も重要な」要素を選択し、これらの外積
を計算する。ブロック132に示したこのステップは、20
の「最も重要な」要素の外積は210の追加要素からなる
ことを表す。これらの要素がベクトルznを形成し、これ
がブロック134に示すように、xnと連結されて380要素の
ベクトルanを形成する。
ベクトルwnの要素は無相関化されているが、anの要素
は一般的に無相関化されていず、ブロック136は、発展
データから得られたベクトルanの全てから第2の最初の
子音用無相関マトリックスD′を計算するステップを表
す。この無相関マトリックスは、前述した方法の何れ
か、あるいは入力ベクトルを無相関化する作用素をもた
らす任意の方法で計算できる。こうして計算された第2
の無相関マトリックスD′により、ブロック138に示す
ように、各anが無相関化されて新たな無相関ベクトルbn
を発生する。
得られたベクトルbnは、「h」音素マトリックスを計
算するための第11図に示したプロセスで使われる。これ
は、入力がベクトルbnで出力が対応したラベルLh nであ
るシステムをモデル化するプロセスである。人の観測者
がブロック140で表したステップでラベルLh nを発生し、
n番目の受領フィールド内の音声が「h」音素を含むか
どうかを指示する。尚本発明によれば、音声が「h」音
を含むかどうかを指示するラベルを発生するために、観
測者は発展データベース内の全ての音をラベル付けしな
くてもよいことに留意すべきである。つまり観測者は、
最初の子音が生じたセグメントとしてVトリガーが識別
したセグメントだけを聴くだけでよい。これは、発展す
なわち「トレーニング」作業で必要な時間を大幅に減少
させる。
音素という用語はここで、比較的標準的な方法で使わ
れている。ある言語においては、その言語での任意の発
声で一つを他に置換しても、どちらかの音が使われた単
語またはフレーズの意味が異ならなければ、2つの音が
同じ音素となる。同様に、しばしばそうであるようにこ
うした置換が異なる意味をもたらせば、2つの音が異な
る音素となる。音声の正しい音素によるラベル付けは、
異なる各音素を知っており、しかもそれらを識別するの
に使われる記号体系を教授された訓練を受けている聴き
手によって主に行われねばならない。
しかし、ブロック140でのラベル付けプロセスは前面
的に人によって行われるわけでなく、この点で、本発明
における音素の使用はもっと標準的なその使用とわずか
に異なっている。「音素」のためにここで用いるラベル
は、実際の言語学的音素の識別だけでなく、その環境に
も依存している。例えば、発音された子音がすぐ前に先
行する場合のある言語学的音素に用いる記号は、同じ音
素のすぐ前にそのような子音が先行しない場合に用いる
記号と異なる。ラベル付けプロセスでは一般に、ラベル
付けを行う聴き手が音素の名前だけを入力し、次いでそ
のマークが音素的環境に基づき、発展システムのソフト
ウェアによって自動的に変更される。
核の実際の計算はブロック142に表してある。この計
算は、第7B図のブロック98と100に表した計算と原理上
同じである。ブロック142とブロック98、100の両核形成
ステップ間の明らかな違いは、後者が24x7のマトリック
ス(複数列のマトリックス)をもたらす一方、前者は38
0要素のベクトル(単列のマトリックス)をもたらす点
である。実際上、24x7のマトリックスは、それらが使わ
れるスカラー乗算の目的からすると168要素のベクトル
と見なされ、マトリックス表示は構成要素の出所を便宜
上指示するものに過ぎない。
第11A図とブロック144は、第7C図のブロック104で行
われる正規化と同等の正規化を表し、第11B図のブロッ
ク146に表した結合ステップは、結果的に第7D図のブロ
ック106に表したステップと同等である。つまりこのス
テップは、無相関とモデル化という2つの機能を同時に
実施するマトリックスを生じる。この結果、第6C図のブ
ロック88で表したステップで使われる380要素のベクト
ルKh″が求められ、モデル化しているベクトルが「h」
音素を含む音声から得られた尤度の指示を発生する。
ラベル付けでの自動的調整 以上、音素識別システムの発展つまり「トレーニン
グ」及びそのトレーニング後の動作で使われる重要な手
順を説明してきた。しかし、人の聴き手が音声のセグメ
ントにラベル付けして特定音素の発生を指示するラベル
付けプロセスは、ある程度聴き手の側の判断に委ねられ
ることに留意すべきである。ここで特に重要なのは、い
つ音素が発生したかの判断である。すなわち場合によっ
て、音声認識プロセスのモデル化を行っている聴き手は
ある一つの音声セグメントを、すぐ後に続くセグメント
についての音素含むものとして指示してしまうこともあ
る。勿論、どの音声セグメントにラベル付けするかに関
する聴き手の選択は、トレーニングプロセス中に計算さ
れる各種のマトリックスに影響を及ぼし、一般にシステ
ムの精度にかなりの影響をもたらす。
システムの動作を最適化するために、人によって行わ
れる初期のラベル付けを調整し、製品システムの結果を
向上させることができる。つまりラベル付けは、パラメ
ータの初期計算後に、得られた製品システムを発展デー
タベースに基づいて動作し、その性能を見ることによっ
て改善される。製品システムを発展データベースに基づ
いて動作した後、その結果を調べ、少数の時間セグメン
トしかなくトリガーがVまたはFラベルと外れている時
点を見つける。それが見つかったら、VまたはFラベル
をVまたはFトリガーで指示されている時点に移動す
る。これは自動的に、すなわちタイミングの不一致が所
定のしきい値より小さいとその都度コンピュータがラベ
ルを移動するように実施可能でもあるし、もしくはVま
たはFトリガーで指示された時点が人によって最初にラ
ベル付けされた時点と比べ許容可能であることにラベル
付けする人が同意できる場合にのみVまたはFトリガー
を移動できるように、人の介在によっても実施可能であ
る。
かかる操作の結果、データベースが変更される。つま
り、入力として使われる生の音声はトレーニング用に最
初に使われたものと同じだが、ヒューマン式「音素認識
システム」の出力が変更される。この新たなデータベー
スによって、トレーニングプロセスが繰り返され、得ら
れた製品システムを再び動作してその性能を調べる。一
般に、「新たな」製品システムにおけるV及びFトリガ
ーの発生時点は、製品システムのその前の動作における
ものと幾らか異なり、ラベルとトリガータイミングとの
間にはなお幾分かの不一致が存在する。従って、V及び
Fラベルの位置が再度調整される。システムの性能は、
製品システムから生じるタイミング信号がラベル付けす
る人によるVまたはFラベルと一致する回数、Vまたは
Fラベルがタイミング信号を伴わずに発生する回数、及
びタイミング信号がVまたはFラベルを伴わずに発生す
る回数から簡単に得られる適切なメリット図式に従って
判断できる。上記の調整プロセスは、システムの性能測
定用のメリット図式がそれ以上改善の余地がなくなるま
で続けられる。
製品システムの一般的ハードウェア 前述したように、例示の実施例は別々の機能に分けて
説明したが、これら別々の機能の多くは一般に共通の回
路によって実施される。第12図は、第1〜6図の製品シ
ステムに関連して説明した各機能を実施するための構成
例を示す。第12図では、マイクロフォン148が音声信号
を電気信号に変換する。マイクロフォン回路は、信号の
ダイナミックレンジを制限する自動利得制御(AGC)用
の回路150を任意に含み得る。アナログ/デジタル(A/
D)変換器152が生じたアナログ信号をサンプルし、その
サンプルをデジタル表示に変換する。A/D変換器152はこ
れらのデジタル表示を、信号処理用に特に適した型であ
るのが好ましい第1のマイクロプロセッサ154に加え
る。例えば、通常のサポート回路を備えたTMS32020マイ
クロプロセッサが使える。マイクロプロセッサ154は、
プログラミングを記憶するための読取専用メモリ(RO
M)156と中間結果を記憶するための読み/書きメモリ
(RAM)を備えている。マイクロプロセッサ154は、トリ
ガー発生の全てと、音素認識用の処理全てを実行する。
従って、マイクロプロセッサ154の出力がトリガー信号
と、そこから受領フィールドが形成される縮小データ表
示qmとなる。
これらの出力が別のマイクロプロセッサ160によって
受け取られ、マイクロプロセッサ160はマイクロプロセ
ッサ154と同じ型で、同様に読取専用メモリ162と読み/
書きメモリ164を備える。但し、読取専用メモリ162内の
プログラムは読取専用メモリ156内のものと比べ、マイ
クロプロセッサ160の方が残りの音素識別を実行し、そ
の出力が各音素に関する尤度比の対数となる点で異なっ
ている。
同じく読取専用メモリ168と読み/書きメモリ170を備
えた更に別のマイクロプロセッサ166は一般に、モトロ
ーラ社の68000シリーズマイクロプロセッサの一つなど
汎用目的のマイクロプロセッサである。マイクロプロセ
ッサ166は単語/フレーズ判定を実行し、マイクロプロ
セッサ166から発生される結果に従って機能するホスト
プロセッサ172と一般に交信する。
このようなシステムのメモリ要求は、その特定のパラ
メータに依存する。メモリ156と158は合計約14キロバイ
トを必要とする一方、メモリ162と164は合計200キロバ
イトを必要とする。マイクロプロセッサ166は単語とフ
レーズのライブラリを必要とするので、メモリ168と170
の容量は約1または2メガバイト程度である。勿論、第
12図の構成はハードウェア構成の一提案に過ぎず、本発
明の教示は第12図と大きく異なるハードウェアによって
も実施できる。
代替実施例 前述したように、本発明の教示は例示の実施例とかな
り異なる装置においても実施可能である。事実本発明者
等は、何れかのトリガーの発生の度に、(第2図のプロ
セッサ24、26及び28に対応した)音声要素プロセッサの
全てを動作する装置によって、改善された結果を得た。
すなわちこの装置では、第2図の最後の子音用プロセッ
サ28に対応した回路が、Fトリガーの発生だけでなく、
Vトリガーの発生によっても動作する。同じく、最初の
子音及び母音用プロセッサ24と26に対応した回路も、V
トリガーの発生だけでなく、Fトリガーの発生によって
も動作する。従って、第2図のブロック図に対応したブ
ロック図は、第13図のブロック図の形へと単純化され
る。
第13図において、タイミングプリプロセッサ18、音声
要素プリプロセッサ20、及びトリガー発生器22は全て前
と同様に動作する。但し、トリガー発生器22の出力、つ
まりV及びFトリガーは図中のORゲート176で表された
動作で論理和が取られ、その結果得られたトリガーが音
声要素プロセッサ178に与えられる。
下記の3つの例外を除き、音声要素プロセッサ178は
第2図の3つのプロセッサ24、26及び28の組合せと同等
である。第1の例外は、プロセッサ178内の処理回路が
全ての音素について同じトリガー信号を受け取ること、
すなわちそれらの処理回路全てがORゲート176から生じ
るトリガーを受け取ることである。第2の違いは、第14
図のブロック180で表した抽出ステップが、第6A図のブ
ロック64、66及び68で表した受領フィールドの抽出を置
き換えられることである。第14図に示すように、3クラ
スの音素(すなわち最初の子音、母音及び最後の子音)
用の別々の受領フィールドを使う代わりに、第13及び14
図の実施例では、全てのクラスの音素についてベクトル
qm-14〜qm-6から成る単一種類の受領フィールドを用い
る。
第3の違いは、最初の非線形化ステップから得られる
ベクトルvnが無相関マトリックスDで無相関化される第
6B図のブロック78に関連している。前述の実施例では、
異なるクラスの音素について別々の無相関マトリックス
を用いた。従って、同じベクトルvnを3つ別々の104,97
6要素のマトリックスと実時間で乗算可能でなければな
らなかった。代替実施例では、全種類の音素について一
つの無相関マトリックスが使われるので、任意のあるベ
クトルvnに対し単一マトリックス乗算が必要なだけであ
る。
無相関マトリックスDは第1実施例の対応するマトリ
ックスDと同じく、発展システムの無相関マトリックス
計算を表したブロック116(第9A図)で発生される。し
かし、得られる無相関マトリックスは、第1実施例の対
応マトリックスと比べ次の2つの理由から異なる。第1
の理由は、ブロック116が第6A図の回路から受け取るベ
クトルvnが、第6A図に示した受領フィールドからでな
く、第14図に示した受領フィールドから得られることで
ある。第2の理由は、第2実施例のブロック116が、ラ
ベル付けプロセス中に3クラスのうち1つに属するもの
として識別されたvnだけの代わりに、ラベル付けプロセ
ス中に3クラスのうち任意のものに属するとして識別さ
れた全てのvnを受け取ることである。
この変更実施例は、極めて計算集約的な無相関計算の
一部を取り除くため、計算時間を減少する。本発明者等
は、更に製品システムの精度が高められることを見いだ
した。
第15図は、製品システムの構成の更なる単純化を示
す。第15図の構成ではタイミングプリプロセッサが省か
れ、そのトリガー発生器182がその代わりに音声要素プ
リプロセッサ20の出力を受け取る。第15図の構成での音
声要素プロセッサ184は、第13図の構成での音声要素プ
ロセッサ178と同じく、一つのトリガー信号だけを受け
取り、第14図の受領フィールド抽出ステップが行うのと
同じ方法で受領フィールドをアセンブルする。
しかし、第15図のトリガー発生器182は前例のトリガ
ー発生器より簡単である。つまり、広いクラスの音素を
モデル化する代わりに、あるセグメント内にそのセグメ
ントが理解可能な音声を含むのに充分なエネルギーが存
在したかどうかを判定するだけである。
第16図に示すように、トリガー発生器182は、第5図
の音声要素プリプロセッサからベクトルqmの第1要素q
0,mを受け取って、そのベクトルの第1要素が所定のし
きい値を越えたかどうかを判定する。第1要素q0,m
音声要素のパワーを示し、しきい値は弱い音声から生じ
るパワーより低いが、ほとんどの非音声間隔中のパワー
より高いレベルに設定される。ブロック186はこのしき
い値設定を表す。ブロック188は、そのパワーがしきい
値を越える第3のセグメント毎のトリガー発生を表す。
3セグメントの間隔を選んだのは、意味のない音の持続
時間は3セグメントより短く生じるからである。次い
で、こうして得られたトリガーが前述のごとく音声プロ
セッサをトリガーするのに使われる。
残りの動作は、前の構成の場合と同様である。第13及
び14図の構成と同じく、第15図の構成は第6B図のブロッ
ク78のステップで一つの無相関マトリックスを用い、そ
こで最初の非線形化ステップから得られたベクトルvn
無相関マトリックスDによって無相関化される。但し、
第15及び16図の構成で使われる無相関マトリックスは、
それが他の例で用いられるより選択的なトリガーの使用
の代わり、第16図に示したエネルギーレベルトリガーの
使用によって選ばれるベクトルから発生されるために、
幾らか異なっている。
想像できるように、第15及び16図の構成は、前述した
構成よりも多い音声要素を、音声要素プロセッサ184に
よって処理可能とするものである;つまり一つのエネル
ギーレベルトリガーは、既知の音声要素についてモデル
化されたトリガーマトリックスよりも少ない音声要素を
取り除く。従って、音声要素プロセッサ184は、全ての
音声要素が非常に低い多くの出力を生じる。第1図の単
語/フレーズ判定器14は各出力について、全ての推定が
低いかどうかを判定する。低ければ、単語/フレーズラ
イブラリ16に問い合わせず、出力を中断する。換言すれ
ば、単語/フレーズ判定器14が出力を予備選択し、意味
のある音声を含んでいると思われない出力を除去する。
本発明者等のシミュレーションは、この単純な型のシス
テムでも満足し得る結果を与えることを示している。
上記の説明から明らかなように、本発明の教示は前記
実施例と比べさまざまな点で異なる各種の実施例で使用
できる。例えば前にも指摘したように、トリガープリプ
ロセッサ及び音声要素プリプロセッサに関連して述べた
データ縮小シーケンスは例示に過ぎず、識別すべき音声
を特徴付ける情報を保持しながら、不必要なデータの多
くを取り除くように設計された他のシーケンスで置き換
えることもできる。
更に、両実施例ではV及びFトリガーを生じるのに別
々のモデル化マトリックスを用いたが、第2の実施例で
は明らかに一つのマトリックスを使用してもよい。ま
た、1または2種類のトリガー及び1または3種類の受
領フィールドを用いたが、一部の実施例では上記と異な
る数のトリガー及び受領フィールドを用いる方が望まし
いことも実証されている。
非線形モデル化の使用を、音声要素の処理に関連して
だけ例示し、トリガー処理に関連しては例示しなかった
が、そのような非線形モデル化をトリガー処理にも使え
ることは明かである。勿論、ここで説明した非線形モデ
ル化は、モデル化非線形要素の可能な多くの選択のうち
の一例に過ぎない。
従って、本発明の教示が広い範囲の装置に適用でき、
当該分野における顕著な進歩を表していることは明らか
であろう。
【図面の簡単な説明】
第1図は本発明の教示を用いた音声認識システムのブロ
ック図;第2図は第1図の音素推定器をより詳しく示す
ブロック図;第3図は第2図のタイミングプリプロセッ
サをより詳しく示すブロック図;第4図は第2図のトリ
ガー発生器をより詳しく示すブロック図;第5図は第2
図の音声要素プリプロセッサをより詳しく示すブロック
図;第6A、6B及び6C図は併せて第2図の音声要素プリプ
ロセッサをより詳しく示すブロック図を構成する;第7
A、7B、7C及び7D図は併せて発展システムのうち、第3
図のトリガー発生器で使われるトリガーマトリックスを
発生する部分を示すブロック図を構成する;第8A、8B、
8C及び8D図は併せて第7A図の無相関マトリックス計算を
より詳しく示すブロック図を構成する;第9図は第9A及
び9B図間の空間的関係を示す図;第9A及び9B図は併せて
発展システムのうち、第6A、6B及び6C図の音声要素プリ
プロセッサで使われる無相関マトリックスを発生し、且
つ該プリプロセッサにおける更なる処理のためのベクト
ル要素を選択する部分を示すブロック図を構成する;第
10A及び10B図は併せて、第9A図における第1の最初の子
音用無相関マトリックス及び固有値の計算をより詳しく
示すブロック図を構成する;第11図は第11A及び11B図間
の空間的関係を示す図;第11A及び11B図は併せて発展シ
ステムのうち、第6A、6B及び6C図の音声要素プリプロセ
ッサで使われるモデル化マトリックスを計算する部分の
ブロック図を構成する;第12図は第1〜9図に示した音
声認識システムのハードウェアの例示具体例;第13図は
本発明の別の実施例の音素推定器のブロック図;第14図
は別の実施例の受領フィールドを示すブロック図;第15
図は本発明の更なる実施例のブロック図;及び第16図は
第15図の実施例のトリガー発生器のブロック図である。 10……音声認識装置、18……モニター手段、20、24、2
6、28……信号処理手段、22……トリガー発生器。
フロントページの続き (56)参考文献 米国特許5027408(US,A) 欧州特許286035(EP,B1) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 G10L 15/02 G10L 21/02

Claims (28)

    (57)【特許請求の範囲】
  1. 【請求項1】音声を処理する方法が、 A.音声信号を受信するステップ、 B.音声信号を一連のデジタル量に変換するステップ、 C.前記デジタル量に一連のデジタル処理を施すステップ
    であり、前記ステップが、出力が複数個の要素から成る
    ベクトルであり且つ入力が前の処理ステップのベクトル
    出力を含む、一連のベクトル処理ステップを含み、この
    一連のベクトル処理ステップが、入力ベクトルの要素の
    累乗及び異なる要素間の積を計算し、この様にして計算
    して得られた結果と前記入力ベクトルの要素とを要素し
    て含むベクトルを作り出す第1の非線形演算ステップ
    と、この第1の非線形演算ステップにより作り出された
    ベクトルの要素の累乗及び異なる要素間の積を計算し、
    この計算して得られた結果と前記第1の非線形演算ステ
    ップにより作り出されたベクトルの要素とを要素とする
    ベクトルを作り出す第2の非線形演算ステップとを含
    む、一連のデジタル処理を施すステップ、そして D.前記一連のベクトル処理ステップのベクトル出力をモ
    デル化して、音声が複数の音声要素の各々を含む尤度に
    関係している音声要素推定信号を発生するステップから
    成る方法。
  2. 【請求項2】前記モデル化するステップが、前記音声要
    素推定信号として、音声が複数の音素の各々を含む尤度
    に関係する音素推定信号を発生することを特徴とする請
    求項1記載の方法。
  3. 【請求項3】前記モデル化するステップでモデル化され
    る一連のベクトル処理ステップのベクトル出力が、前記
    第2の非線形演算ステップにより作り出されたベクトル
    を含む請求項1記載の方法。
  4. 【請求項4】前記モデル化するステップが、前記音声要
    素推定信号として、音声が複数の音素の各々を含む尤度
    に関係する音素推定信号を発生することから成る請求項
    3記載の方法。
  5. 【請求項5】前記第1の非線形演算ステップが、前記入
    力ベクトルとして、複数の異なる音声区間ベクトルの要
    素を含むベクトルを用いる請求項1記載の方法。
  6. 【請求項6】前記モデル化するステップが、前記音声要
    素推定信号として、音声が複数の音素の各々を含む尤度
    に関係する音素推定信号を発生することから成る請求項
    5記載の方法。
  7. 【請求項7】前記モデル化するステップでモデル化され
    る一連のベクトル処理ステップのベクトル出力が、前記
    第2の非線形演算ステップにより作り出されたベクトル
    を含む請求項5記載の方法。
  8. 【請求項8】前記モデル化するステップが、前記音声要
    素推定信号として、音声が複数の音素の各々を含む尤度
    に関係する音素推定信号を発生することを含む請求項7
    記載の方法。
  9. 【請求項9】前記第1の非線形演算ステップが、 前記入力ベクトルの要素の累乗及び異なる要素間の積を
    要素とするベクトルを各要素が相互に相関していないベ
    クトルへと変換するステップを含み、 前記第2の非線形演算ステップが、 前記変換によって得られたベクトルの要素の累乗及び異
    なる要素間の積を計算し、この様に計算して得られた結
    果と前記変換によって得られたベクトルの要素とを要素
    とするベクトルを作り出すことから成る請求項5記載の
    方法。
  10. 【請求項10】A.前記第1の非線形演算ステップによっ
    て得られたベクトルを各要素が相互に相関していないベ
    クトルへと変換するステップが、 前記第1の非線形演算ステップによって得られたベクト
    ルの各要素間での共分散マトリックスを計算し、この共
    分散マトリックスから各固有値及び各固有ベクトルを求
    め、各固有ベクトルを、前記第1の非線形演算ステップ
    によって得られたベクトルとスカラー乗算することによ
    り行われ、 B.前記変換によって得られたベクトルの要素の累乗及び
    異なる要素間の積を計算するステップが、前記共分散マ
    トリックスから得られた固有ベクトルの内最も高い固有
    値に係る固有ベクトルとのスカラー乗算により得られた
    要素のみを使用して、前記要素の累乗及び異なる要素間
    の積の計算が行われることを特徴とする請求項9記載の
    方法。
  11. 【請求項11】A.音声信号を受信するステップ、 B.この音声信号を一連のデジタル量に変換するステッ
    プ、 C.前記デジタル量に一連のデジタル処理を施すステップ
    であり、このステップが、出力が複数個の要素から成る
    ベクトルであり且つ入力が前の処理ステップのベクトル
    出力を含む一連のベクトル処理ステップを含み、この一
    連のベクトル処理ステップが、入力ベクトルとして複数
    の異なる音声区間ベクトルを含む非線形演算ステップを
    含み、前記非線形演算ステップが、異なる音声区間ベク
    トルの要素の3次以上の積を要素として含むベクトルを
    算出する、一連のデジタル処理を施すステップ、 D.一連のベクトル処理ステップで算出された前記ベクト
    ルをモデル化して、音声が複数の音声要素の各々を含む
    尤度に関係する音声要素推定信号を発生する、音声処理
    方法。
  12. 【請求項12】前記モデル化するステップが、前記音声
    要素推定信号として、音声が複数の音素の各々を含む尤
    度に関係する音素推定信号を発生することを特徴とする
    請求項11記載の方法。
  13. 【請求項13】前記モデル化するステップでモデル化さ
    れた一連のベクトル処理ステップのベクトル出力が、前
    記非線形演算ステップによって算出されたベクトルを含
    む請求項11記載の方法。
  14. 【請求項14】前記モデル化するステップが、前記音声
    要素推定信号として、音声が複数の音素の各々を含む尤
    度に関係する音素推定信号を発生することを特徴とする
    請求項13記載の方法。
  15. 【請求項15】音声信号を受信するのに適合された音声
    プロセッサであり、 A.音声信号を一連のデジタル量に変換する手段、 B.前記デジタル量に一連のデジタル処理を施すための手
    段であり、前記デジタル処理が、出力が複数個の要素か
    ら成るベクトルであり且つ入力が以前の処理ステップの
    ベクトル出力を含む一連のベクトル処理ステップを含
    み、この一連のベクトル処理ステップが、入力ベクトル
    の要素の累乗及び異なる要素間の積を計算し、この様に
    して計算して得られた結果と前記入力ベクトルの要素と
    を要素とするベクトルを作り出す第1の非線形演算ステ
    ップと、この第1の非線形演算ステップにより作り出さ
    れたベクトルの要素の累乗及び異なる要素間の積を計算
    し、計算して得られた結果と前記第1の非線形演算ステ
    ップにより作り出されたベクトルの要素とを要素とする
    ベクトルを作り出す第2の非線形演算ステップとを含
    む、一連のデジタル処理を施すための手段、及び C.前記一連のベクトル処理ステップのベクトル出力をモ
    デル化して、音声が複数の音声要素の各々を含む尤度に
    関係している音声要素推定信号を発生する手段から成る
    音声プロセッサ。
  16. 【請求項16】前記モデル化する手段が、音声要素推定
    信号として、音声が複数の音素の各々を含む尤度に関係
    している音素推定信号を発生する手段から成る請求項15
    記載の音声プロセッサ。
  17. 【請求項17】前記モデル化する手段においてモデル化
    された一連のベクトル処理ステップのベクトル出力が、
    前記第2の非線形演算ステップにより作り出されたベク
    トルを含む請求項15記載の音声プロセッサ。
  18. 【請求項18】前記モデル化する手段が、前記音声要素
    推定信号として、音声が複数の音素の各々を含む尤度に
    関係する音素推定信号を発生することから成る請求項17
    記載の音声プロセッサ。
  19. 【請求項19】前記第1及び第2の非線形演算ステップ
    の内の少なくとも一つのステップが、入力ベクトルとし
    て、複数の異なる音声区間ベクトルを含むことから成る
    請求項15記載の方法。
  20. 【請求項20】前記モデル化する手段が、音声が複数の
    音素の各々を含む尤度に関係する音素推定信号を発生す
    ることから成る請求項19記載の音声プロセッサ。
  21. 【請求項21】前記モデル化する手段においてモデル化
    される一連のベクトル処理ステップのベクトル出力が、
    前記第2の非線形演算ステップにより作り出されたベク
    トルを含む請求項19記載の音声プロセッサ。
  22. 【請求項22】前記モデル化する手段が、前記音声要素
    指定信号として、音声が複数の音素の各々を含む尤度に
    関係する音素推定信号を発生することを含む請求項15記
    載の音声プロセッサ。
  23. 【請求項23】前記第1の非線形演算ステップが、 入力ベクトルの要素の累乗及び異なる要素間の積を要素
    とするベクトルを、各要素が相互に相関していないベク
    トルへと変換するステップを含み、 前記第2の非線形演算ステップが、 前記変換によって得られたベクトルの要素の累乗及び異
    なる要素間の積を計算し、この様して計算して得られた
    結果と前記変換によって得られたベクトルの要素とを要
    素とするベクトルを作り出すことから成る請求項15記載
    の音声プロセッサ。
  24. 【請求項24】A.前記第1の非線形演算ステップによっ
    て得られたベクトルを、各要素が相互に相関していない
    ベクトルへと変換するステップが、 前記第1の非線形演算ステップによって得られたベクト
    ルの各要素間での共分散マトリックスを計算し、この共
    分散マトリックスから各固有値及び各固有ベクトルを求
    め、各固有ベクトルを、前記第1の非線形演算ステップ
    によって得られたベクトルとスカラー乗算することによ
    り行われ、 B.前記変換によって得られたベクトルの要素の累乗及び
    異なる要素間の積を計算するステップが、前記共分散マ
    トリックスから得られた固有ベクトルの内最も高い固有
    値に係る固有ベクトルとのスカラー乗算により得られた
    要素のみを使用して、前記要素の累乗及び異なる要素間
    の積の計算が行われることを特徴とする請求項23記載の
    プロセッサ。
  25. 【請求項25】音声を受信する様に適合された音声プロ
    セッサが、 A.音声信号を一連のデジタル量に変換するための手段、 B.このデジタル量に一連のデジタル処理を施す手段であ
    り、このデジタル処理が、出力が複数個の要素から成る
    ベクトルであり且つ入力が前の処理ステップのベクトル
    出力を含む一連のベクトル処理ステップを含み、この一
    連のベクトル処理ステップが、入力ベクトルとして複数
    の異なる音声区間ベクトルを含む非線形演算ステップを
    含み、これらの音声区間ベクトルの内の一つのベクトル
    の各要素は、同じ音声区間ベクトルの別の要素によって
    表されるものと同じ音声時間区間を表しているが、前記
    複数の音声区間ベクトルの内の異なるベクトルの要素に
    よって表される音声時間区間とは異なっている音声時間
    区間を表しており、前記非線形演算ステップが、異なる
    音声区間ベクトルの要素の3次以上の積を要素として含
    むベクトルを算出する、一連のデジタル処理を施す手
    段、及び C.一連のベクトル処理ステップで算出された前記ベクト
    ルをモデル化して、音声が複数の音声要素の各々を含む
    尤度に関係する音声要素推定信号を発生する手段から成
    る音声プロセッサ。
  26. 【請求項26】前記モデル化する手段が、前記音声要素
    推定信号として、音声が複数の音素の各々を含む尤度に
    関係している音素推定信号を発生するための手段を含む
    請求項25記載の音声プロセッサ。
  27. 【請求項27】前記モデル化する手段でモデル化された
    一連のベクトル処理ステップのベクトル出力が、前記非
    線形演算ステップによって算出されたベクトルを含む請
    求項25記載の音声プロセッサ。
  28. 【請求項28】前記モデル化する手段が、前記音声要素
    推定信号として、音声が複数の音素の各々を含む尤度に
    関係している音素推定信号を発生する手段を含む請求項
    27記載の音声プロセッサ。
JP63087075A 1987-04-09 1988-04-08 音素推定を用いた音声認識回路 Expired - Lifetime JP3114975B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/036,380 US5027408A (en) 1987-04-09 1987-04-09 Speech-recognition circuitry employing phoneme estimation
US036380 1987-04-09

Publications (2)

Publication Number Publication Date
JPS6413595A JPS6413595A (en) 1989-01-18
JP3114975B2 true JP3114975B2 (ja) 2000-12-04

Family

ID=21888296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63087075A Expired - Lifetime JP3114975B2 (ja) 1987-04-09 1988-04-08 音素推定を用いた音声認識回路

Country Status (6)

Country Link
US (1) US5027408A (ja)
EP (1) EP0286035B1 (ja)
JP (1) JP3114975B2 (ja)
AT (1) ATE85451T1 (ja)
CA (1) CA1329272C (ja)
DE (1) DE3878001T2 (ja)

Families Citing this family (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
JPH03132797A (ja) * 1989-10-19 1991-06-06 Matsushita Electric Ind Co Ltd 音声認識装置
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US5652827A (en) * 1991-11-08 1997-07-29 The Trustees Of The University Of Pennsylvania Identifying an object by fast and robust signal processing
EP0634042B1 (en) * 1992-03-06 2001-07-11 Dragon Systems Inc. Speech recognition system for languages with compound words
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ATE494610T1 (de) 2000-03-24 2011-01-15 Eliza Corp Spracherkennung
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US7370086B2 (en) 2000-03-24 2008-05-06 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
EP1332605A4 (en) * 2000-10-16 2004-10-06 Eliza Corp METHOD AND SYSTEM FOR PROVIDING ADAPTIVE RESPONDENT TRAINING IN A VOICE RECOGNITION APPLICATION
US20040104062A1 (en) * 2002-12-02 2004-06-03 Yvon Bedard Side panel for a snowmobile
DE10147734A1 (de) * 2001-09-27 2003-04-10 Bosch Gmbh Robert Verfahren zum Einstellen einer Datenstruktur, insbesondere von phonetischen Transkriptionen für ein sprachbedientes Navigationssystem
US7340392B2 (en) * 2002-06-06 2008-03-04 International Business Machines Corporation Multiple sound fragments processing and load balancing
US7788097B2 (en) * 2002-06-06 2010-08-31 Nuance Communications, Inc. Multiple sound fragments processing and load balancing
US8200486B1 (en) * 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
US7584098B2 (en) * 2004-11-29 2009-09-01 Microsoft Corporation Vocabulary-independent search of spontaneous speech
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9536517B2 (en) * 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3727193A (en) * 1971-05-18 1973-04-10 School Of Electrical Eng Signal vector recognition system
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4400828A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Word recognizer
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4606069A (en) * 1983-06-10 1986-08-12 At&T Bell Laboratories Apparatus and method for compression of facsimile information by pattern matching
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components

Also Published As

Publication number Publication date
US5027408A (en) 1991-06-25
EP0286035B1 (en) 1993-02-03
JPS6413595A (en) 1989-01-18
DE3878001T2 (de) 1993-09-02
ATE85451T1 (de) 1993-02-15
CA1329272C (en) 1994-05-03
DE3878001D1 (de) 1993-03-18
EP0286035A1 (en) 1988-10-12

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
JP2597791B2 (ja) 音声認識装置及び方法
US4736429A (en) Apparatus for speech recognition
US5369726A (en) Speech recognition circuitry employing nonlinear processing speech element modeling and phoneme estimation
US6195634B1 (en) Selection of decoys for non-vocabulary utterances rejection
US5146539A (en) Method for utilizing formant frequencies in speech recognition
US7957959B2 (en) Method and apparatus for processing speech data with classification models
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
EP4018437B1 (en) Optimizing a keyword spotting system
JPH06274200A (ja) 音声コード化装置及び方法
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP2986037B2 (ja) 音声符号化方法及び装置
WO1993013519A1 (en) Composite expert
Shaikh Naziya et al. Speech recognition system—a review
JPS59121100A (ja) 連続音声認識装置
JP2955297B2 (ja) 音声認識システム
JPH0437996B2 (ja)
Wang et al. Detection of cross-dataset fake audio based on prosodic and pronunciation features
JP2898568B2 (ja) 声質変換音声合成装置
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
Nijhawan et al. Real time speaker recognition system for hindi words
CN111785302A (zh) 说话人分离方法、装置及电子设备

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080929

Year of fee payment: 8

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080929

Year of fee payment: 8