JP3299408B2 - 動的特徴を使用した音声認識方法及び装置 - Google Patents

動的特徴を使用した音声認識方法及び装置

Info

Publication number
JP3299408B2
JP3299408B2 JP07122695A JP7122695A JP3299408B2 JP 3299408 B2 JP3299408 B2 JP 3299408B2 JP 07122695 A JP07122695 A JP 07122695A JP 7122695 A JP7122695 A JP 7122695A JP 3299408 B2 JP3299408 B2 JP 3299408B2
Authority
JP
Japan
Prior art keywords
vector
label
frame
phoneme
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP07122695A
Other languages
English (en)
Other versions
JPH086587A (ja
Inventor
ラヒト・ライ・バール
ピーター・ヴィンセント・デソウザ
ポナン・ゴパラクリッシュナン
ミカエル・アラン・ピッチェニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH086587A publication Critical patent/JPH086587A/ja
Application granted granted Critical
Publication of JP3299408B2 publication Critical patent/JP3299408B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識に関するもの
であり、更に詳しく云えば、隣接した音素(phon
e)又はフェノン(fenone)が如何に近接した間
隔で1つの発音内に位置づけられているかに基づいて動
的に変化する特徴抽出技法を使用した音声認識システム
及び方法に関するものである。その特徴抽出プロセス
は、その発音における音素の変化率に応答して修正さ
れ、従って、従来の技法よりも更に効果的な音声モデル
化を可能にする。
【0002】
【従来の技術】言語処理では、ワードを一連の音声素子
にセグメント化することは、音声学者にとって一般的な
ことである。それら音声素子は国際音声字母(Internat
ionalPhonetic Alphabet ) から選択される。音素は、
トレーニングした言語学者が1つにワードのうちの異な
る音響セグメントとして認識することができる比較的小
さいワード・セグメントである(例えば、i、e、a
e、sはすべて音素を表す)。典型的には、言語学者は
1つのワードに耳を傾け、自らの経験に基づいて連続部
分とそれぞれの音声素子とを照合し、1つの発音された
ワードの適当な表音式綴りを決定する。
【0003】そのような音声シーケンスは標準的な辞書
に用いられている。又、音声シーケンスは、一般的に
は、音声認識に適用されており、特に、ヒドン・マルコ
フ・モデル(以下、「HMM」と呼ぶ)を利用した音声
認識に適用されている。HMM音声認識の場合、種々の
音声素子がそれぞれのHMMによって表される。その場
合、各ワードが一連の音素HMMに対応する。
【0004】1つの音素のサブエレメントがフェノンで
ある。フェノンは、トレーニングされた聞き手でもそれ
らの発生を必ずしも認識し得ないほど急速に変化するこ
とが多い。例えば、ワード「beat」が発音される
時、音素は「b」、「e」、及び「t」として認識され
る。各音素におけるフェノンは急速に変化し、単一の音
素は、一連のいくつかのフェノンであるとみなすことが
できる。ワード「beat」における音素「t」はいく
つかのフェノン、例えば5つのフェノンを含むことが可
能である。
【0005】音素及びフェノンのようなサブワード構成
ブロックを使用したことによる重要な成果は、比較的少
量のデータを使用して自動音声認識システムがトレーニ
ング可能であるということである。トレーニング・デー
タは、各ワードのいくつかのサンプルの代わりに、各音
素又はフェノンのサンプルを含む必要があるだけであ
る。しかし、各音素が文脈依存性又は調音結合(co-art
iculation)の効果に関係なく独立してモデル化される場
合、その結果生じる音響モデルは、1つの音素の発音が
隣接の音素に依存するという事実のために不正確となる
ことがある。
【発明が解決しようとする課題】
【0006】従って、本発明の目的は、射影を動的に変
化させる音声認識方法及びシステムを提供することにあ
る。
【0007】本発明のもう1つの目的は、隣接の音素又
はフェノンに関する当該音素又はフェノンの位置に基づ
いて特徴抽出を行うことによって、より正確な音声認識
を行う非常に有用な方法及び装置を提供することにあ
る。
【0008】
【課題を解決するための手段】本発明の1つの音声エン
コーディング技法の実施例は、N個の異なる主判別マト
リクスのセットを利用する。各主判別マトリクスはそれ
ぞれ独特のクラスと関連しており、そのクラスは隣接の
音声部分に対する当該音声部分の近似度を表すものであ
る。その音声エンコーディングの技法は、音声信号を一
連のフレームの形に配列することを含む。各フレームに
対する音声信号を表すパラメータ・ベクトルが取り出さ
れる。いくつかの隣接したパラメータ・ベクトルを結合
することによって、各フレームに対して1つの結合した
パラメータ・ベクトルが発生される。N個の異なる主判
別マトリクスの各々にそれら結合したベクトルを掛け算
することによって、各フレームに対してN個の異なる射
影されたベクトルのセットが発生される。この音声エン
コーディング技法は、音声認識システムにおける使用に
十分適する。
【0009】
【実施例】下記の特殊な構成、数値、及び他のパラメー
タは、本来、説明上のものであって、技術範囲を限定す
ることを意図するものではない。本発明は、フェノン及
び音素を同じように利用することが可能である。
【0010】以下では、詳細に後述する本発明の一実施
例の技法を使用し得る音声信号処理システムの詳細な説
明を行う。
【0011】図1は音声認識システム39のブロック図
である。その自動音声認識システム39は2つの主要な
サブシステム、即ち、音響プロセッサ42及び言語デコ
ーダ43を含む。音響プロセッサ42のタスクは、発話
(話し手によって発声された音声信号40により表され
る)に応答して、各時間フレームに対して、特徴ベクト
ルと呼ばれる50次元ベクトル44を発生することであ
る。50次元ベクトルのパラメータ値の各々は多次元座
標システムで配列される。このプロセスは特徴抽出とも
呼ばれる。音響プロセッサ42の機能及びオペレーショ
ンは、図2を参照して、以下で更に詳細に示すことにす
る。言語デコーダ43は50次元ベクトル44を受け取
り、ワードを作成する。図1には、2つのタイプの言語
デコーダが示される。第1のタイプの言語デコーダ41
aは認識装置46aを介して50次元ベクトル44を直
接に処理し、ワード・シーケンスを出力する。このタイ
プのデコーダは連続的パラメータHMMを使用する。第
2のタイプの言語デコーダ41bはベクトル量子化器4
8を利用して、先ず、50次元ベクトルをラベル50に
変換し、しかる後、それらラベルが認識装置46bに入
力されて、そこからワード・シーケンスを出力させる。
その第2のタイプの言語デコーダ46bは別々のHMM
を使用する。
【0012】言語デコーダ43は、各フレームに対して
その音響プロセッサ42からの出力を利用し、ベクトル
量子化器48からのラベルのシーケンス又は50次元特
徴ベクトル44のシーケンスを与えられた最大の事後確
(posteriori probability)を持つワード・シーケンス
〈W〉を見つけようとする。言語デコーダは別々のワー
ドの蓋然性あるモデルとしてHMMを利用し、最大の確
率を生じるワード・シーケンスを選択する。
【0013】言語デコーダのオペレーションは次のよう
な音声認識の基本方程式によって指定される。
【数1】
【0014】但し、Wはその語彙からの任意のワード・
シーケンスであり、Aは観察されたラベル又は特徴ベク
トルのシーケンスである。この方程式における最終的な
相等は確率に関するベイズの法則及びPr(A)がWに無
関係であるという事実に従っている。そのようにして得
られた最適なデコーダは、シーケンス・エラー率を最小
にする。
【0015】この方法は、音響チャネル確率Pr(A/
W)及び言語事前確率Pr(W)を推定するための蓋然性
あるモデルを必要とする。本発明の1つの観点は、音響
チャネル確率Pr(A/W)の決定である。
【0016】図2に動作的に示される音響プロセッサ4
4は、アナログ音声信号をサンプルし、A/D変換及び
他の信号処理ステップを遂行して、その音声信号のディ
ジタル表示を発生する(典型的には、アナログ信号は同
期的態様で、毎秒2万回サンプルされる)。フレームと
呼ばれる規則的な間隔で(典型的には、1/100
秒)、1ブロックのディジタル化した音声が高速フーリ
エ変換66ステップ(以下、「FFT」と呼ぶ)を使用
してその周波数ドメインに変換され、種々の周波数帯域
におけるスペクトル・エネルギのベクトルを発生する
(ステップ68)。周波数帯域の数は、典型的には20
である。ステップ66及び68は、各時間フレーム当た
り1回遂行される。
【0017】選択的なものとして、人の耳のモデル70
を使用して異なる周波数帯域68が更に変換される。そ
の耳のモデルの概念は、周波数帯域の強度が変化する
時、人の耳は実際に生じた音の強度とは異なる音の強度
を知覚するであろうと云う実感に基づいている。例え
ば、特殊な周波数における信号の突然のステップ増加
(更に大きい強度)がある場合、人の耳は、そのステッ
プの始めでは、わずかな時間の後よりも高い強度を知覚
するであろう(たとえ、両方の時間フレームがすべての
検出可能な周波数帯域にわたって等しい強度を持つとし
ても)。その耳のモデル70は、或周波数の信号の動的
特性がその耳によって知覚される方法に関連し、そして
人の耳が各時間フレーム及び各周波数帯域に対する信号
の強度を検出する方法を表すモデルを作る。それ以上の
処理はすべて種々のスペクトル・エネルギ68又は耳の
モデル70に基づくものであり、ベクトル68又は70
が利用される時にはいつも20コンポーネントのベクト
ル72とみなされる。20コンポーネント・ベクトル7
2の周波数範囲は、典型的な人の耳が検出できる周波数
範囲のそれにほぼ対応する。
【0018】いくつかの、しかし、すべてではない音響
プロセッサ42は、多くの20コンポーネント・ベクト
ル(通常は、考察した20コンポーネント・ベクトルの
前の4つの20コンポーネント・ベクトル及びそれの後
の4つの20コンポーネント・ベクトル)を結合して、
1つの結合した(又は、180コンポーネント)ベクト
ル74を生じさせる。そこで、その結合したベクトルは
射影され(即ち、同じプロセスに対して別の用語を使用
すれば、回転させられ)、図1及び図2に示された50
次元の特徴ベクトル44を発生する。50次元の(射影
された)特徴ベクトル44を得るプロセスは、50*1
80マトリクスであって且つ後述のようにして取り出さ
れた主判別マトリックス76に180コンポーネントの
(結合した)ベクトル74を掛け算して50次元の(結
合した)ベクトル44を生じさせることに関連する。そ
の50次元の特徴ベクトルは、直ちに図1の言語デコー
ダ43によって利用される。結合を使用しない音響プロ
セッサでは、20コンポーネントのベクトルが他の下位
次元のスペースに直接に射影可能であり、その場合、射
影されたベクトル44は20又はもっと少ない次元を持
つであろう。
【0019】音響プロセッサ42によって発生された特
徴ベクトル、又は図1のベクトル量子化器48によって
発生されたラベルは、HMMのアークに沿って出力とし
て発生可能な同じベクトル又はラベルである。アーク確
率及び出力確率がトレーニングプロシージャ時に割り当
てられた後、発音が1つのHMM又は一連のHMM(そ
のシーケンスは音素又はワード・ベースフォームに対応
する)に対応する可能性を決定するための認識プロシー
ジャがそれに続くであろう。即ち、特徴ベクトルV12
3・・・・又はラベルf123・・・・等が、複数の
連続した音声期間の間、音響プロセッサ又はベクトル量
子化器によって発生されたとすれば、1つのHMM又は
一連のHMMの各パスを通して進行しそして特徴ベクト
ルV12V 3・・・・又はラベルf123・・・・の特
殊ストリングを発生する可能性を決定することが可能で
ある。1つの語彙における1つのワードに対してこの計
算を行うことはそのワードの可能性を測定するものであ
る。
【0020】一般的には、音響プロセッサが効率的にな
ればなるほど、音声認識システムは信頼性が高くなる。
ワードの構成部分を定義するために音声学者(及び音素
の代表的な適用例)を信頼することは、その結果とし
て、モデル化を任意なものにし、ワードのベースフォー
ム(即ち、ワード形成する構成部分のシーケンス)の一
様性に不足を生じることがあることがわかった。
【0021】A.ベクトル量子化 図1の20又は50コンポーネントの特徴ベクトル44
が量子化器48を通して送られてラベルを発生させる音
声認識システムをこの項で説明する。ベクトル量子化器
48に続くHMMベースの認識装置46bは、そのラベ
ル・ストリームを与えられる可能性が最も高いワード・
シーケンスを計算する。典型的には、その音声認識シス
テムの新しい各ユーザに対する登録プロセスの一部分と
して遂行される認識装置のトレーニングは、通常は、K
平均クラスタリングのような反復手順及び順方向・逆方
向アルゴリズムを使用してHMM遷移及び出力確率を見
積ることによるVQプロトタイプの計算を伴う。
【0022】座標空間として音声を見ると、各ラベルは
N次元空間における別々のクラスタを識別する。但し、
Nは、ベクトル・コンポーネントの数に対応する整数で
ある。音声入力に対して、音響プロセッサは、各ラベル
が別々の音声期間に対応する一連のラベルを発生する。
基本的には、音響プロセッサは音声入力を、連続したフ
レームで発生される連続した特徴ベクトルに変換し、連
続した特徴ベクトルの各々にラベルを割り当てる。決定
されたクラスタを識別するラベルが、そのフレームに対
する出力として与えられる。
【0023】B.結合され射影された特徴ベクトルを利
用するベクトル量子化 一般に、結合され射影された特徴ベクトルを利用するベ
クトル量子化器は、ベクトル量子化プロセスにおいて、
単一ベクトルを利用するベクトル量子化器よりも更に正
確なラベルを発生する。結合され射影されたベクトルを
生成しそしてそれらとラベルを関連づけるステップを以
下で説明する。それらステップを遂行する場合、多数の
話し手に対するトレーニング・データが、結合されたベ
クトルを使用した既存のワード・ベースフォームに抗し
て収集されそして配列される(音声認識システムにおい
てはよく知られ、本願ではこれ以上詳述しない「ビター
ビ(Viterbi)配列」による)ものと仮定する。
好ましくは、既存の各ベースフォームは一連の音素HM
M又はフェノニック(fenonic)HMMである。
本願では、用語「ベクトル」及び「パラメータ・ベクト
ル」は同義語である。下記のステップ1乃至5は学習プ
ロセス記述し、射影された特徴ベクトルを構成する方法
を記述する。残りのステップは、入力される逐語的発話
を認識するために、図1の音声認識装置がそのトレーニ
ングされ、結合され、射影された特徴ベクトルを使用す
る方法に関するものでる。
【0024】ステップ1:トレーニング・データにおけ
る各20コンポーネントのベクトル(「標準」ベクトル
としても知られている)に対して、考慮中の20コンポ
ーネントのベクトルの各々をK個の先行ベクトル及びK
個の後続ベクトルと連結して180コンポーネントのベ
クトルを形成することによって、新しい180コンポー
ネントのベクトル作成する。K=4を使うことが最もよ
く動作することがわかっている。 ステップ2:ビタービ配列を使用して、各時間フレーム
に対し、元の20コンポーネントのベクトルの時間フレ
ームと整列した音素又はフェノンの名前でもってその対
応する180コンポーネントのベクトルをタグ付けす
る。従って、結合されたベクトルは、音声字母又はフェ
ノン字母における音素又はフェノンの1つに割り振られ
る。 ステップ3:ステップ2において決定された音素のタイ
プ又はフェノンのタイプを区別するためのP個の(典型
的には、50個の)最も相互に相関しない主判別マトリ
クスを、その結合されたパラメータ・ベクトルを使用し
て計算する。即ち、M個の音素又はフェノンのタイプか
ら取り出されたN個の結合されたベクトルを考察する。
k番目のベクトルのうちのi番目の素子をxikと表すこ
とにする。そこで、データSのサンプル共分散マトリク
スが次のように定義される。
【0025】
【数2】 但し、xi はi番目の素子のサンプル平均を示す。音素
又はフェノンのタイプiにおけるベクトルの数をni
表すことにする。そこで、サンプルのクラス内の共分散
マトリクスWは次のように定義される。
【数3】 但し、Wi は音素又はフェノンのタイプiにおけるデー
タのサンプル共分散マトリクスである。クラス相互間の
相違を最大にするために、比(v'Sv/v'Wv)を最
大にし且つ相互に相関しない線形判別関数vが求められ
る。必要なベクトルは、マトリクスW-ISのうちの最初
のP個の固有ベクトルとして得られる。これらは、マト
リクスの行として配置され、それにより主判別マトリク
スが得られる。 ステップ4:計算された主判別マトリクスを使用して、
180コンポーネントのベクトルをP次元ベクトルに射
影し、その射影されたベクトルを、対応する180コン
ポーネントのベクトルの音素又はフェノンでもってタグ
する。 ステップ5:個々の各音素又はフェノンに対して、P次
元の射影されたベクトルの各々の平均及び平方偏差を計
算する。これら平均及び平方偏差は対角ガウスのプロト
タイプ・マトリクスで形成され、結合された射影された
特徴ベクトルをラベル付けする場合に使用される。従っ
て、各プロトタイプは,それと関連した音素ラベル又は
フェノン・ラベルを有する。
【0026】従って、ラベルに対するプロトタイプを計
算してしまうと、新しいデータは次のようにラベル付け
される。 ステップ6:通常の方法で20コンポーネントのベクト
ルを得る。 ステップ7:ステップ1において前述したように、20
コンポーネントのベクトルを連結することによって18
0コンポーネント・ベクトルを作成する。 ステップ8:ステップ3において得られた主判別マトリ
クスを使用して180コンポーネントのベクトルをP次
元ベクトルに射影する。 ステップ9:ステップ5の対角ガウスのプロトタイプを
使用して回転ベクトルをラベル付けする。即ち、所与の
回転ベクトルに対して、その可能性を最大にするプロト
タイプを見つけ、そのプロトタイプと関連したラベルを
出力する。
【0027】C.射影の使用に関するコメント エネルギ68のスペクトル又は耳のモデル70(それら
の両方ともコンポーネント・ベクトル72であると考え
られる)は、特殊なスペクトル周波数によってカバーさ
れる周波数範囲内のフレームにおける時間波形のエネル
ギに対応した複数個の値を含む。例えば、母音は低い周
波数範囲におけるそれらのエネルギの殆どを発生する傾
向があり、それによって、それらの20コンポーネント
のベクトルにおける低い周波数範囲にそれらのエネルギ
の殆どを集中させる。それに比べて、摩擦音は、それら
のエネルギの殆どを高い周波数において発生する。各2
0次元ベクトルは、そのフレームにおける音声信号の瞬
間的な特徴に関する情報を含んでいる。動的な特徴は、
いくつかの連続したフレームに対するベクトルを利用す
ることによって得ることが可能である。
【0028】9個の連続した20コンポーネントのベク
トル72が一緒に結合されて180コンポーネントのベ
クトル74を形成する。連続した180コンポーネント
のベクトルにはスペクトルの特徴のオーバラップがあ
る。そのオーバラップのうちのいくつかを除去するため
に、従って、結合されたベクトルにおける冗長性を減少
させるために、各ベクトルは、50*180マトリクス
をそのベクトルに乗ずることによって低い次元(例え
ば、50次元)空間に射影される。この射影マトリクス
の行は主判別マトリクスである。本願を通して使用され
る用語「主判別マトリクス」は用語「固有ベクトル」と
同義であり、それと相互交換可能であると考えられる。
180コンポーネントのベクトルは、各180コンポー
ネントのベクトルに主判別マトリクスを掛け算すること
によって処理される。
【0029】上記の説明では、すべての結合されたベク
トルに対して一定のウインドウ・サイズ及び一定の射影
が仮定された。適当な音声認識システムが50個の主判
別マトリクスのコンパイルによって機能することができ
る。同じ発音の射影された値も、理論的には、同じでな
ければならない。しかし、発音及び雑音における相違の
ために、同じ発音が異なる人によって、又は異なる時間
に同じ人によって行われた時、その射影された値にわず
かな相違があるであろう。結合ベクトル・ステップ18
の180コンポーネントのベクトルは、図1に示された
ようなベクトル量子化器を通して動作する場合、50次
元ベクトル44又はラベル50を発生するために射影さ
れる。
【0030】発音の変化率に従ってウインドウ・サイズ
を修正することが望ましい。音素又はフェノンがいくつ
かのフレームに対して同じままであるその信号の部分の
間、その音素又はフェノンの静的特性のより良い評価を
与えるために、一緒に結合されたフレームのウインドウ
Wのサイズを拡大することが望ましい。しかし、音素又
はフェノンが急速に変化する簡単な音響的事象の間、急
速に変化しようとしている先行の又は後続の音素又はフ
ェノンにより簡単な事象の効果を消滅させることを回避
するために、ウインドウWのサイズを小さくすることが
望ましい。一般的には、ウインドウWのサイズは、先行
の又は後続の音素又はフェノンの境界の近似度に依存す
ることが望ましい。
【0031】この動的に変化するウインドウを達成する
ために都合のよい方法は、ウインドウWを大きく且つ一
定に保つことであるが、その代わりに、動的に変化する
射影を持つことである。ウインドウのサイズを減少させ
ることは、主判別マトリクスの射影マトリクスにおける
値のうちのいくつかをゼロにセットすることに等価であ
る。隣接の音素又はフェノンの近似度に従って、動的に
変化する射影を構成するための方法については後述す
る。ウインドウ・サイズを変化させることは、この技法
の特別なケースである。
【0032】次に、前述の音声信号処理システムに適用
可能な本発明の音声信号処理システムの一実施例を説明
する。
【0033】フェノン字母をτ=(1,2,・・・・,
F)と表し、ラベル字母をφ=(1,2,・・・・,
L)と表す。各フェノンf∈τに対して、図3に示され
たタイプの簡単なHMMがある。そのモデルは、2つの
状態、即ち、σ=[f,1]及びσ=[f,2]を有す
る。但し、第1インデックスはフェノンfを表し、第2
インデックスはそのフェノンの最初及び最後の状態を表
す。σ=[f,1]からσ=[f,2]への1つのヌル遷
移があり、p(f,n)によって表される。但し、記号n
はヌルを表す。2つの出力発生の遷移(実線)があり、
ψ=[f,s]及びψ=[f,d]によって表される。記
号sは自己ループを表し、σ=[f,1]からσ=[f,
1]への遷移を表す(それは、フェノンが同じままであ
るワード発音における期間にそのモデルを適応させ
る)。記号dは直接パスを表し、σ=[f,1]からσ
=[f,2]への遷移を表す。HMMのパラメータは次
のような3つの遷移確率、
【数4】p(f,n);p(f,s);and p(f,d) 及び次のような2つの出力分布
【数5】 q(f,s,ζ) and q(f,d,ζ), ζ∈ξ である。数式(4)及び(5)におけるパラメータはフ
ェノニック・パラメータである。
【0034】F個の基本的フェノニックHMMが数式
(4)及び(5)において定義される場合、ワード、音
素、音節等のようなそれぞれの音響単位がモデル化され
るために、フェノニックHMMを構成することが可能で
ある。そのような音響単位の各々に対して、多数のラベ
ル・シーケンス、即ち、Y1,Y2,・・・、YN がトレ
ーニング・データのサンプルから抽出され、これら観察
されたラベル・シーケンスを最もよくモデル化するフェ
ノンBのシーケンスが探索される。観察されたラベル・
シーケンスのセットを生成する最高の確率を持ったフェ
ノン・シーケンスBは、次のように記述可能である。
【数6】
【0035】すべての可能なフェノン・シーケンスBj
における上記最大化はスタック・サーチ手順を使用して
実行される。そのシーケンス法は、考察された音響単位
に対するフェノン・ベースフォームと呼ばれる。
【0036】例えば、ワードは音響単位であると仮定す
る。その場合、各ワードwに対するフェノニック・ベー
スフォームは、次のような長さN(w)の線形シーケンス
によって表される。
【数7】B(w) =[f(w,1),f(w,2),・・・
・,f(w,N(w))] 但し、各フェノンf(w,i)はF内にある。この表記で
は、第1インデックスはワードwを表し、第2インデッ
クスはベースフォームにおける位置を表す。wに対する
ワードHMMは、B(w)において存在する基本的フェノ
ンHMMを連結することによって構成される。ワードH
MMの例が図4に示される。このモデルの状態は、i=
1,2,・・・、N(w)+1に対してσ=[w,i]に
よって示される。その場合、インデックスはワード及び
ワード内の位置をそれぞれ表す。最後の状態位置インデ
ックスが値N(w)+1を有することに留意してほしい。
このモデルを通した直接路はそのワードの平均的発音を
表すように構成されなければならず、一方、ループ又は
ヌル遷移は、話し手により発音をそれぞれ長くしたり或
いは短くすることを可能にする。
【0037】音声処理と関連した2つの関連プロセスが
ある。第1のプロセスは、既知の入力が音響プロセッサ
に読み込まれる時にパラメータが学習される「学習プロ
セス」である。第2のプロセスは、学習プロセス後に遂
行される「認識プロセス」であり、そのプロセスでは、
未知のワードが音声入力プログラムに読み込まれ、発音
されたものと同等な英数字が表示される。
【0038】1つの関連特許は、1991年12月10
日発行の米国特許第5,072,452号である。認識プ
ロセス及び学習プロセスの両方に関連する本願の図5を
参照すると、音響プロセッサ202に入る音声入力が示
される。音声入力は音響波形の形のものである。例え
ば、200個のラベルL1,L2,L3,・・・・,L
200(別々の言語デコーダが使用されるものと仮定す
る)の字母のパラメータ又はベクトル(連続した言語デ
コーダに対する)は音響プロセッサ202に記憶され
る。
【0039】ラベルを連続フレームに割り当てるプロセ
スのための音響波形を作成する場合、音声アナログ波形
がディジタル化され、タイム・インターバルが生成さ
れ、そしてその分野では周知のように、ディジタル信号
が高速フーリエ変換を通して送られる。音響プロセッサ
202の出力はラベルf1234・・・等及び特徴ベ
クトルy1234・・・等を含む。換言すれば、各フ
レームに対応した特徴ベクトル及びラベルが音響プロセ
ッサから出力される。
【0040】音響プロセッサ202からのラベルf12
34・・・等はベースフォーム・トレーナ204に入
る。ベースフォーム・トレーナ204は、各ワード・ベ
ースフォームにおけるHMMに適用されるべき確率を決
定するために使用される。この場合、各「ワード・ベー
スフォーム」は、規定されたシーケンスのHMMを表
す。各HMMは、アーク確率及びラベル確率としてメモ
リに記憶される。
【0041】それら確率は、既知のテキストが発声され
るトレーニング期間中に計算される。その既知のテキス
トに対して、1つの対応した既知のHMMシーケンスが
ある。その既知のテキストが話し手によって音響プロセ
ッサ(例えば、プロセッサ202)へ発声される時、ラ
ベルのストリングが生成される。よく知られたフォワー
ド・バックワード・アルゴリズムを使用することによっ
て、アークに対する確率及びHMMの非ヌル・アークに
おいて発生されたラベルに対する確率がベースフォーム
・トレーナ204によって計算される。ベースフォーム
・トレーナ204によって計算された確率統計はベース
フォーム構成装置206に入る。そのベースフォーム構
成装置206は、各ワードに対するHMMのシーケンス
を決定する。各ワードに対するHMMのシーケンス及び
HMMの各非ヌル・アークに対するアーク確率及びラベ
ル出力確率は、ベースフォーム辞書208に記憶され
る。
【0042】更に詳しく云えば、ベースフォーム・ディ
クショナリ208は次のようなタイプのデータ項目を記
憶する。 NNODESx =xワード・ベースフォームにおけるノ
ードの数。 NIDij =i番目のワード・ベースフォームにおける
j番目のノードのノード識別子。 NTij =ノードNIDij からのアーク(遷移)の数。 Tijk =ノードNIDij からのアーク(遷移的)の
数。 Sijk =アーク(遷移)Tijk に対する統計ポインタ
【0043】トレーニング中、ベースフォーム・データ
(即ち、HMMシーケンス及び確率統計)及び連続的な
音声期間に対応した特徴ベクトルがラベル再指定装置2
10に入る。ラベル再指定装置210は、ワード・ベー
スフォーム構成時に生成されたデータに基づいてそれら
ラベルと関連したプロトタイプ・ベクトル及びクラスタ
を再定義する。
【0044】図5の装置の動作は、ベースフォームを
「成長」させる4つの主要なステップを示した図6に表
される。トレーニング期間中、ワードは既知の順序で発
声され、ラベルのストリングは、「ワード・ベースフォ
ームを成長させるステップ」302における発音に応答
して生成される。照合プロシージャ・ステップ304
(「ビタービ配列を得る」として参照される)では、ト
レーニング・テキストの発音に応答して生成されるラベ
ルの連続的なサブストリングがワード・ベースフォーム
における各HMMと関連づけられる。従って、トレーニ
ング・テキストにおいて発音された第1ワードにおける
第1HMMに対して、整列したラベル・サブストリング
がある。第2HMMに対しては、第2サブストリングが
あり、そのプロセスは、すべてのHMMが第2サブスト
リングを持つまで継続する。
【0045】各ラベルはプロトタイプ・ベクトルに対応
する。各ラベルは、音声の期間中に入力された特徴ベク
トルと各プロトタイプ・ベクトルとを比較することによ
って選択される。最も近接したプロトタイプ・ベクトル
のラベルがそのフレームに割り当てられる。HMMのセ
ットにおける各HMMはラベル字母におけるラベルに対
応し、好ましくは、発音ベースのHMMよりも簡単な構
造を有する。フェネミック(fenemic)HMMが
図3に示されている。「フェニーム(feneme)」
は、「ラベル」に対する別の表記である。更に詳しく云
えば、図3のフェノンτのフェネミックHMMは2つの
状態、[f,1]及び[f,2]を有する。1つの非ヌル
・ループは、状態[f,1]から延びてそれ自身に戻
る。1つの非ヌル・ループは状態[f,1]から状態
[f,2]に延び、ヌル・アークは状態[f,1]から状
態[f,2]に延びる。3つのアークの各々は、p(f,
s)、p(f,d)、及びp(f,n)が後続するそれぞれの
確率を有する。
【0046】図6において、ステップ302のベースフ
ォームは、好ましくは、フェネミックHMMのシーケン
スであり、ビタービ配列ステップ304は各フェネミッ
ク・モデルとラベルとの関連づけに関するものである。
ステップ304では、所与のHMMと整列させられ且つ
関連づけられたラベルが識別される。ラベル(フェネミ
ックHMMに対応する)が取り出される特徴ベクトルも
識別される。各フェネミックHMMに対して、それと関
連した0個、1個、2個、又はそれ以上の特徴ベクトル
がある。ステップ306では、各フェネミックHMMに
対して識別された特徴ベクトルが平均値及び共分散値を
推定するために結合される。
【0047】各フェネミックHMMに対する計算された
平均値及び共分散値は、ステップ308に従って入力音
声データを再ラベル付けする場合に使用される。更に詳
しく云えば、所与の音声間隔に対応したラベルを選択す
る場合、それのために生成された特徴ベクトルがその平
均値に比較され、その共分散値が各ラベルに対して指定
される。即ち、ラベルjに対応したフェネミックHMM
に対する平均値及び共分散値は、入力された特徴ベクト
ル及びラベルjの間の距離を決定するために使用され
る。簡単に云えば、各j番目のラベルは、そのj番目の
ラベルに対応したフェネミックHMMの平均値及び共分
散値に基づいて再指定されるラベルの新しい仕様が図3
の音響プロセッサ202に入れられる。音響プロセッサ
202はその再指定されたラベルに基づいて音声をラベ
ル付けする。
【0048】D.ラベル/フェノン字母 音素は長さが規則的に変化することがある。例えば、ワ
ード「beat」は音素b,e、及びtを含む。「b」
及び「t」は比較的速く発音される音素であり、一方、
音素「e」は他の2つのものよりもずっと長く引き伸ば
される。音素「b」及び「t」の短い期間にわたる特徴
ベクトルは、音素「e」の比較的長い期間にまたがる特
徴ベクトルよりも変化のないことも真である。
【0049】トレーニング・データがトレーニング・ス
クリプトの発音表示に揃えられているものと仮定する。
話された言葉における音素が如何に速く変化しようとし
ているかを決定するために、ラベル/フェノン字母が使
用される。そのラベル/フェノン字母は、各ラベル又は
フェノンと関連したクラス及び基本的フェノンのセット
より成る。クラスは、音素が如何に速く変化しようとし
ているかに関する表示を与える。次のようなクラス(1
乃至6)は各音素にタグ付けされる。このセグメントを
音素のタグ付けに関連して説明するけれども、フェノン
のタグ付けに同様のステップを適用することも可能であ
る。
【0050】1.フレームFがMフレーム以下の期間を
有する音素に属する場合、その音素における各フレーム
に対してタグを1にセットする。そうでない場合、ステ
ップ2に進む。Mに対する妥当な値は5である。Mは、
比較的短い音素の上側の期間を定義する値である。 2.フレームFのウインドウが先行の音素にnフレーム
以上だけ重畳する(そのウインドウには両方の音素の特
性がある)場合、タグの値を2にセットする。換言すれ
ば、音素ウインドウにおける最初の1つ又は2つのフレ
ームのタグ値は2にセットされるであろう。そうでない
場合、ステップ3に進む。nに対する妥当な値は3であ
る。 3.ウインドウが後続の音素にnフレーム以上だけ重畳
する(そのウインドウには現在の音素及び後続の音素の
両方の特性がある)場合、フレーム・タグを6にセット
する。そうでない場合、ステップ4に進む。 4.ウインドウが先行の音素に一部でも重畳する場合、
タグを3にセットする。そうでない場合、ステップ5に
進む。 5.ウインドウが後続の音素に一部でも重畳する場合、
タグを5にセットする。そうでない場合、ステップ6に
進む。 6.タグを4にセットする。
【0051】図形的には、M=5及びn=3の場合の9
フレームのウインドウに対して、単一の音素の発音と関
連したタグが下記の表1に示されるように構成可能であ
る。表1及び上記記述は、ラベル/フェノン字母を構成
する方法に関して説明することを意図しており、技術範
囲を限定することを意図するものではない。単一の音素
が4フレームより少なく続く時、それら特徴ベクトル
は、更に長い期間の音素よりもこれらのフレームの期間
にわたってもっと変化のないものと仮定する。従って、
比較的長い期間の間続く音素は、それらの期間にわたっ
てかなり変動する傾向がある。
【表1】
【0052】上記の技法に続いて、比較的遅い話し手に
より行われ発音に対して出力されたタグは、比較的速い
話し手によって行われた同じ言葉の発音に比べると異な
るであろう。例えば、遅い話し手が「Mary」の
「M」を発音する時、音素/タグの組合せの連続は次の
ものと同じになるであろう。即ち、M2 M2 M3
M3 M5 M5 M6 M6一方、速い話し手が同じ
ワードを発音する時には、その「M」は、次のように見
える。即ち、M1 M1 M1 M1
【0053】音素/タグの組合せは6P個のカテゴリの
可能な集合体を定義する。但し、Pは音素の数である。
その6P個のカテゴリの各々を別々の音響事象として扱
うことは、サイズ6P(ラベルの数に対応する)の音響
的字母に通じる。各カテゴリと関連したフレームは、ラ
ベル・プロトタイプを構成し得る所与のラベルのサンプ
ルとして関連する。これらラベルとの1対1の対応でフ
ェノン又は音素を通常の方法で定義することは、6P個
のフェノンの字母に通じる。
【0054】E.主判別を利用したウインドウ・サイズ
の変更 音声の特性に基づくウインドウの動的変更を行う本発明
の技法の一実施例は、動的に変化してウインドウの幅を
効果的に変更する主判別マトリクスを使うけれども、ウ
インドウ・サイズを大きいまま保持する。これは、マト
リクスにおけるエントリのいくつかをゼロにセットする
ことによって、主判別マトリクスにおいて達成可能であ
る。
【0055】次の説明は、前述の6つのタグ・クラスの
各々に対する種々の射影を構成するための技法を与え
る。主判別マトリクスは、次のようにして計算される。 1.各フェノンを特定の音素及びタグ(同じ音素が伸び
ているその音素の数に依存する)と関連づけるラベル/
フェノン字母を構成する。これは、本願のラベル/フェ
ノン字母の項において前述したようにして達成される。 2.ビタービ配列を使用して、いくつかのトレーニング
・データをトレーニング・スクリプトの音響HMMと整
列させ、それによって、トレーニング・データの各フレ
ームを、その配列により決定された真のラベルの識別で
もってタグ付けする。ビタービ配列は音声認識システム
においてはよく知られており、ここではこれ以上詳述し
ない。 3.ラベル/フェノン字母において表された各個々のフ
レーム・タグに対して、ステップ4及び5を遂行する。 4.フレーム・タグFと関連したステップ2からの真の
ラベルを有するトレーニング・データのすべてのフレー
ムを収集する。 5.ステップ4において収集されたフレームのサブセッ
トを使用して、そのデータに存在するラベル・セット
(即ち、フレーム・タグFと関連したすべてのラベル)
の間を最大限度に区別する主判別マトリクスを計算す
る。
【0056】ステップ5の終了時には、ステップ1のラ
ベル/フェノン字母で表された各フレーム・タグに対し
て、独特の主判別マトリクス(6個あるであろう)が構
成されているであろう。フレーム・タグFと関連した主
判別マトリクスは、値Fを持ったタグ相互間を区別する
ように最適化される。ラベル/フェノン字母を構成する
方法のために、主判別マトリクスの各セットは、(すべ
ての音素がラベル/フェノン字母の各サブセットFにお
いて表されるので)すべての生じうる音素相互間を識別
する。
【0057】各クラスは、詳しく前述したように、音素
境界に関して異なるフレーム位置を表す。その結果、異
なるクラスから異なる主判別マトリクスの射影が生じ
る。従って、主判別マトリクスの射影は音素境界に関し
て種々のフレーム位置で変わる。
【0058】主判別マトリクスは、次のようなフェノン
・ベースの格子計算中に使用される。Xは、時間Tにお
ける射影されていない音響ベクトルを示すものとする。
Aは、Xを出力するための候補であるアークを示すもの
とし、そしてBは、Aが属するフェノンを示すものとす
る。Fは、ステップ1において決定されたフェノンBと
関連したフレーム位置であるとする。Eは、前述の主判
別マトリクス計算のステップ5において構成されたフレ
ーム部分Fと関連した主判別マトリクスであるとする。
主判別マトリクスEを使用してXを射影し、そしてY
(A)はその射影されたベクトルを示すものとする。時間
TにおけるアークAと関連した可能性、即ち、出力確率
は、アーク依存の射影されたベクトルY(A)を使用して
通常の方法で決定される。
【0059】図7は、本発明の音声認識システムの一実
施例のブロック図である。図1の音響プロセッサ42に
よって発生される単一の50次元ベクトル44の代わり
に、図7の実施例は、添字でもってクラスを示された6
個の異なる50次元ベクトル441、442、・・・、4
6 を発生する6個の異なる主判別マトリクスを利用す
る。
【0060】6個の異なる50次元ベクトル441乃至
446は図7の音響プロセッサ42によって発生される
ので、それら50次元ベクトルの各々を、6個の別々の
ラベルL1乃至L6を発生するためのベクトル量子化器4
8に入力することが可能である。6個の相異なる50次
元ベクトル441乃至446は出力ワード・シーケンス4
7aを発生するように認識装置46aを通して処理可能
であり、6個の相異なるラベルL1乃至L6は出力ワー
ド・シーケンス47bを発生するように認識装置46b
を通して処理可能である。本発明の音素の更に正確な分
類技法を使用して、その認識装置は、従来技術のシステ
ムにおけるよりも更に正確に機能することができる。
【0061】5000ワードの語彙によってカバーされ
る50個の文を読む話し手に関して、連続的な音声認識
実験が行われた。主判別マトリクスの単一の包括的なセ
ットを、上記のように構成された6セットによって置換
したら認識エラーの数は大きく低下した。
【0062】ラベル/フェノン字母は、予期し得るエッ
ジ誘導歪みの程度を数量化する技法を与える(例えば、
4の値をタグ付けされるフレームは重畳することがな
い)。本発明の1つの観点によれば、各フレームに対し
て厳しい、或いは軽い、或いはエッジ誘導のない歪みで
もってラベルを分離することによって、優れた音響的モ
デル化が達成される。
【0063】以上は、1つの音声認識システムの一実施
例を提供するものである。この実施例は、本発明の技術
範囲内に留まったまま修正可能である。本願明細書の記
載は主として音素に関して記述されているけれども、フ
ェノンに基づいて同様の音声認識システムを構成するこ
とも可能である。このため、特許請求の範囲における用
語「音声セグメント」は音素と同様にフェノンもカバー
することを意図するものでる。
【0064】
【0065】
【0066】
【発明の効果】本発明により、プロジェクションを動的
に変化しうる音声認識方法及びシステムが得られる。
【図面の簡単な説明】
【図1】音声認識システムのブロック図である。
【図2】図1に示された音声認識システムによって利用
されるロジックのフローチャートである。
【図3】フェノンのためのヒドン・マルコフ・モデル
(HMM)の一実施例を示す。
【図4】ワードに対するHMMの一実施例であって、フ
ェノンのための複数個のHMMが連結されたものを示
す。
【図5】本発明に従って、相互依存してラベルを指定で
き且つHMMワード・ベースフォームを構成できるブロ
ック図である。
【図6】本発明に従って、相互依存してラベルを再指定
し且つHMMワード・ベースフォームを構成する場合に
遂行される一般的なステップを示すフローチャートであ
る。
【図7】本発明の音声認識システムの一実施例のブロッ
ク図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ピーター・ヴィンセント・デソウザ アメリカ合衆国カリフォルニア州、サ ン・ノゼ、ビスタ・ループ 6001 (72)発明者 ポナン・ゴパラクリッシュナン アメリカ合衆国ニューヨーク州、ヨーク タウン・ハイツ、ラドクリッフ・ドライ ブ 3073 (72)発明者 ミカエル・アラン・ピッチェニー アメリカ合衆国ニューヨーク州、ホワイ ト・プレインズ、ラルフ・アベニュー 118 (56)参考文献 米国特許5072452(US,A) 米国特許5615299(US,A) 欧州特許出願公開689193(EP,A 1) L.R.Bahl 外4名,Robu st Methods for Usi ng Context−Depende nt Features and Mo dels in a Continuo us Speech Recogniz er,Proceeding of 1994 IEEE Internatio nal Conference on Acoustics,Speech a nd Signal Processi ng,米国,IEEE,1994年4月19 日,Vol.1,p.I−533〜I−536 L.R.Bahl 外3名,Cont ext Dependent Vect or Quantization fo r Continuous Speec h Recognition,Proc eedings of 1993 IEEE International Con ference on Acousti cs,Speech and Sign al Processing,米国,I EEE,1993年4月27日,Vol.2, p.II−632〜II−635 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 G10L 19/00 G10L 21/02 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】トレーニング・データにおける音声セグメ
    ントの変化率に応じて決定されるN個の相異なるクラス
    とそれぞれ関連づけられ、各該クラスにおける音声セグ
    メント相互間を最大限度に区別するN個の異なる主判別
    マトリクスを作成するステップと、 音声信号を一連のフレームに配列するステップと、 各フレームに対して前記音声信号を表す特徴ベクトルを
    得るステップと、 各フレームの特徴ベクトルを、該各フレームに隣接する
    フレームの特徴ベクトルと結合して結合ベクトルを得る
    ステップと、 前記N個の異なる主判別マトリクスの各々に前記結合ベ
    クトルを掛け算することによって各フレームに対するN
    個の相異なる射影されたベクトルのセットを生成するス
    テップと、 を含む音声をエンコードするための方法。
  2. 【請求項2】トレーニング・データにおける音声セグメ
    ントの変化率に応じて決定されるN個の相異なるクラス
    とそれぞれ関連づけられ、各該クラスにおける音声セグ
    メント相互間を最大限度に区別するN個の異なる主判別
    マトリクスを作成する手段と、 音声信号を一連のフレームに配列する手段と、 各フレームに対して前記音声信号を表す特徴ベクトルを
    得る手段と、 各フレームの特徴ベクトルを、該各フレームに隣接する
    フレームの特徴ベクトルと結合して結合ベクトルを得る
    手段と、 前記N個の異なる主判別マトリクスの各々に前記結合ベ
    クトルを掛け算することによって各フレームに対するN
    個の相異なる射影されたベクトルのセットを生成する手
    段と、 を含む音声をエンコードするための装置。
JP07122695A 1994-06-20 1995-03-29 動的特徴を使用した音声認識方法及び装置 Expired - Lifetime JP3299408B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US262093 1981-05-11
US08/262,093 US5615299A (en) 1994-06-20 1994-06-20 Speech recognition using dynamic features

Publications (2)

Publication Number Publication Date
JPH086587A JPH086587A (ja) 1996-01-12
JP3299408B2 true JP3299408B2 (ja) 2002-07-08

Family

ID=22996124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07122695A Expired - Lifetime JP3299408B2 (ja) 1994-06-20 1995-03-29 動的特徴を使用した音声認識方法及び装置

Country Status (4)

Country Link
US (1) US5615299A (ja)
EP (1) EP0689193A1 (ja)
JP (1) JP3299408B2 (ja)
SG (1) SG43736A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538488B2 (en) * 2018-11-30 2022-12-27 Alibaba Group Holding Limited Method and system for processing speech signal

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615299A (en) 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure
US6317716B1 (en) * 1997-09-19 2001-11-13 Massachusetts Institute Of Technology Automatic cueing of speech
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
JP3607107B2 (ja) * 1998-03-13 2005-01-05 株式会社東芝 データ管理装置
US6438523B1 (en) 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US6622121B1 (en) 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
FR2801716B1 (fr) * 1999-11-30 2002-01-04 Thomson Multimedia Sa Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
GB0103242D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of analysing a compressed signal for the presence or absence of information content
US6928409B2 (en) * 2001-05-31 2005-08-09 Freescale Semiconductor, Inc. Speech recognition using polynomial expansion and hidden markov models
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US7885812B2 (en) * 2006-11-15 2011-02-08 Microsoft Corporation Joint training of feature extraction and acoustic model parameters for speech recognition
TWI312981B (en) * 2006-11-30 2009-08-01 Inst Information Industr Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
KR101016224B1 (ko) 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9129605B2 (en) 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
CN110349564B (zh) * 2019-07-22 2021-09-24 思必驰科技股份有限公司 一种跨语言语音识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5072452A (en) 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US5615299A (en) 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
EP0515709A1 (en) * 1991-05-27 1992-12-02 International Business Machines Corporation Method and apparatus for segmental unit representation in text-to-speech synthesis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5072452A (en) 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US5615299A (en) 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L.R.Bahl 外3名,Context Dependent Vector Quantization for Continuous Speech Recognition,Proceedings of 1993 IEEE International Conference on Acoustics,Speech and Signal Processing,米国,IEEE,1993年4月27日,Vol.2,p.II−632〜II−635
L.R.Bahl 外4名,Robust Methods for Using Context−Dependent Features and Models in a Continuous Speech Recognizer,Proceeding of 1994 IEEE International Conference on Acoustics,Speech and Signal Processing,米国,IEEE,1994年4月19日,Vol.1,p.I−533〜I−536

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538488B2 (en) * 2018-11-30 2022-12-27 Alibaba Group Holding Limited Method and system for processing speech signal
US11900958B2 (en) * 2018-11-30 2024-02-13 Alibaba Group Holding Limited Method and system for processing speech signal

Also Published As

Publication number Publication date
EP0689193A1 (en) 1995-12-27
SG43736A1 (en) 1997-11-14
US5615299A (en) 1997-03-25
JPH086587A (ja) 1996-01-12

Similar Documents

Publication Publication Date Title
JP3299408B2 (ja) 動的特徴を使用した音声認識方法及び装置
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US5822728A (en) Multistage word recognizer based on reliably detected phoneme similarity regions
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
JPH11504734A (ja) 擬音素ユニットに自動音声分節するための方法及び装置
JPH0581918B2 (ja)
JPH0372989B2 (ja)
JP2002014692A (ja) 音響モデル作成装置及びその方法
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
US5825977A (en) Word hypothesizer based on reliably detected phoneme similarity regions
Shaikh Naziya et al. Speech recognition system—a review
JPH05265483A (ja) 複数の出力を与える音声認識法
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
Chang et al. Automatic phonetic transcription of spontaneous speech (american English).
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Billa et al. Recent experiments in large vocabulary conversational speech recognition
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
JP2001083986A (ja) 統計モデル作成方法
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
Barman et al. State of the art review of speech recognition using genetic algorithm
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP2938865B1 (ja) 音声認識装置
Han et al. Trajectory clustering for solving the trajectory folding problem in automatic speech recognition
Dharmani et al. Performance evaluation of ASR for isolated words in Sindhi Language

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110419

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110419

Year of fee payment: 9

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110419

Year of fee payment: 9

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120419

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120419

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130419

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130419

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140419

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term