JP2001521193A - パラメータ共用音声認識方法及び装置 - Google Patents

パラメータ共用音声認識方法及び装置

Info

Publication number
JP2001521193A
JP2001521193A JP2000517408A JP2000517408A JP2001521193A JP 2001521193 A JP2001521193 A JP 2001521193A JP 2000517408 A JP2000517408 A JP 2000517408A JP 2000517408 A JP2000517408 A JP 2000517408A JP 2001521193 A JP2001521193 A JP 2001521193A
Authority
JP
Japan
Prior art keywords
phoneme
model
shared
models
phoneme model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000517408A
Other languages
English (en)
Inventor
シェン リュキシン
幸 田中
ウー デュアンペイ
エス オローレンショウ レックス
Original Assignee
ソニー エレクトロニクス インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー エレクトロニクス インク filed Critical ソニー エレクトロニクス インク
Publication of JP2001521193A publication Critical patent/JP2001521193A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities

Abstract

(57)【要約】 パラメータ共用音声認識装置用の方法及び装置が提供される。モデル装置(410)は多数の音素モデル(600〜603)を発生することにより、共用された隠れマルコフモデルの役割を果たす信号分割器の出力を受けるように結合され、多数の音素モデルの子が共用される。音素モデル(600〜603)は、予定の閾値を越える利用可能な多数の学習したフレームを有する任意の三音モデルを別の音素モデルとして保持することにより発生される。発生した音素モデルは保持され、音素モデル(600〜603)の間で共用される共用された音素モデル状態(604〜609)が発生される。音素モデル(600〜609)の間で共用される共用された確率分布関数(610〜616)が発生される。音素モデル確率分布関数(610〜616)の間で共用される共用された確率副分布関数(617〜627)が発生される。が発生される。共用された音素モデル階層化は共用された確率副分布関数に応じてさらに共用するために再評価される。

Description

【発明の詳細な説明】
【0001】 本発明は、発話又は音声認識装置(voice or speech recognition system)に
関する。特に、本発明は、パラメータ共用音素モデル(parameter sharing phon
eme model)に基づく音声認識装置に関する。
【0002】 音声認識技術の明白な目標は、話される情報を受信して、その情報に適切に応
答する機械を造ることである。その恩恵及び汎用的な応用性を最大とするために
、音声認識装置(speech recognition system:SRS)は、連続した音声を認 識できなければならず、しかも、恐らく種々のアクセント及び話方、異なった語
彙及び文法上の傾向を有する多くの話者(speaker)を認識できなければならな い。また、有効なSRSは、はっきり発音されない音声を認識できなければなら
ず、さらに、騒がしい環境における音声を認識できる能力を備える必要がある。
【0003】 サブワードサイズの音声ユニット(sub-word size speech unit)の音響モデ ル(acoustic model)は、実質的に全てのSRSの根幹をなすものである。多く
の装置では、辞書を決めるのに音素が用いられるが、幾つかのSRSでは、異音
(allophones)が用いられる。最良の認識性能は、一般的には、音響モデルが文
脈(context)に条件付けられたサブワード単位(sub-word unit)に対して生成
されたときに得られ、そのようなモデルは、文脈依存サブワード単位(context-
dependent sub-word model)と呼ばれる。文脈依存モデリングは、選択したサブ
ワード単位が音素であるときには、異音の変化及び調音(coarticulation)を捉
えることができる。サブユニットが単音(phones)のときには、文脈依存モデリ
ングは、単に調音の効果を捉えようとしている。
【0004】 話者は、一旦、聴取者に伝えるべき考えをまとめると、相互に排他的な有限の
音の集合、すなわち音素を選択することによって、語句(phrase)又は文章(se
ntence)を形成する。音声で言語学的意味をどのように伝達するかを記述する基
本の理論的単位は、音素と呼ばれる。このように、言語の音素は、その言語の全
体の意味を伝達するのに十分な最小理論的単位のセットを備えており、これは話
(speaking)において生成される実際の音と比較されることになり、音声学者は
これを異音と呼んでいる。米国英語の場合、母音(vowel)、半母音(semivowel
)、二重母音(diphthong)及び子音(consonant)から成る約50の音素がある
。各音素は、発声表現(articulatory gesture)の唯一のセットから成るコード
であるとみなすことができる。話者がこれらの音素音を正確かつ調和して発声す
ることができれば、音声は、離散的なコードの連続となる。しかしながら、例え
ばアクセント、性別及び調音効果を含む多くの異なる要素により、各音素は、流
暢な話において、音響的表現(acoustic manifestation)の変化を有する。した
がって、音響的な観点からは、音素は、実際には同じ意味を伝達する音の階層(
class of sound)を表す。
【0005】 音声認識に伴う最も抽象的な課題は、適切な言語制約(language constrain)
で音声認識装置を可能にすることにある。単音、音素、音節(syllable)又は単
語が音声、言葉又は言語(linguistic)の基本単位としてみなされるかどうかに
より、制約は、一般的に、これらの基本単位が如何なる順序で、如何なる文脈で
しかも如何なる意味でどのように繋ぎ合わされ得るかに関係する。例えば、話者
が音素を分離して発声するときには、音素は音響波形で明確に識別できる。しか
し、文脈で話されると、音声調音器官の物理的特性のために音素の境界を示すこ
とは難しくなる。発声経路調音器官(vocal tract articulator)は、人間の組 織からなっているので、1つの音素から次の音素への調音器官の位置決めは、調
音器官の動きを制御する筋肉の動きによって行われる。したがって、音素の発生
される仕方を変えることのできる遷移期間が音素間で存在する。その結果、各音
素には、異音又は基本音素単位の音響変動を表す単音における変化の集合が組合
わされている。異音は、音素を作る特定の言葉内の許された許容自由度を表し、
この融通性は、発話(utterance)内の音素及び音素の位置に依存する。
【0006】 従来のSRSは、特定の話者によって発話された音素を認識することができる
。話者依存型(speaker-dependent)SRSは、音声処理におけるSRSの内部 モデルを特徴付ける複数のモデル又はパラメータを学習するために、一人の話者
の発話を用いる。そして、SRSは、特にその話者の音声を認識するために用い
られる。したがって、話者依存型SRSは、話者独立型(speaker-independent )SRSと比較して相対的に高い認識結果を得ることができる。また、従来のS
RSは、話者独立型認識も行う。話者独立型SRSは、多くの話者によって学習
させられ、そして、学習させた人々以外の多くの話者を認識するのに用いられる
。より正確ではあるが、話者依存型SRSの欠点は、新しい話者によって用いら
れることになる度毎に装置を再学習(retrain)する必要があることである。
【0007】 今日、音声認識において最も普通の手法は、統計的学習法であり、そして、最
も成功している統計的学習技術は、隠れマルコフモデル(Hidden Markov Model :HMM)である。HMMは、音声を強力及び簡潔にモデリングすることができ
、そして、HMMの学習及び認識に対して有効な最尤アルゴリズム(maximum-li
kelihood algorithm)が存在する。HMMは、現在まで、以下の限定された仕事
(task)、すなわち分離した言葉、連続した音声及び単音の話者依存型認識、分
離した言葉の少ない語彙の話者独立型認識、及び多くの語彙の連続した又は分離
した言葉認識における話者独立型単音認識に、成功のうちに適用されてきた。
【0008】 HMMは、自然音声の話者間(interspeaker)及び話者内(intraspeaker)変
化の両方をモデリングする音の基礎(sound basis)を提供する。しかし、実際 の音声スペクトルの分布を正確にモデル化するには、複雑な出力分布を設ける必
要がある。例えば、連続密度HMM装置(continuous density HMM system)で は、良好な性能を達成するために多数のガウス混合成分(multiple Gaussian mi
xture component)が必要である。また、調音のような文脈効果を処理するため に文脈依存三音(context-dependent triphone)が必要である。したがって、話
者独立連続音声HMM装置(speaker-independent continuous speech HMM syst
em)は、一般に、非常に多くの文脈依存モデルを含み、各モデルは、非常に多く
のパラメータを含んでいる。不利なことに、モデルは、学習データ量を増やし、
データの統計的信頼性を高めると、複雑になる。したがって、HMMに基づく連
続音声認識装置を構築する際に直面する重要な課題は、モデルの複雑さと、それ
に対応したプロセッサ能力と、利用可能な学習データとのバランスを維持し、モ
デルパラメータを見積もる最良の方法を見つけることである。
【0009】 この課題を解決する従来の典型的な方法は、モデルベースの傾向がある。例え
ば、離散的及びタイドミックチャ装置(discrete and tied-mixture system)の
場合、三音、二音及び単音間の補間を行うことが普通である。話者独立型単音認
識の従来の1つは、多数の単音に対する線形予測分析誘導パラメータ(linear p
redictive coding-drived parameter:LPC)の多数のコードブックに基づく モデルを生成し、そして、全ての単音から各対のコード語間の類似度を決めるた
めに同時発生平滑化、すなわち個々の分布の平滑化を適用する。しかしながら、
話者独立単音モデルは、実際の音声においては文脈が前又は次の単音に依存する
ので、安定しない。したがって、単音の各異なる文脈は異なるモデルを必要とし
、このことは装置の正確さ、効率及び速度の低下とともに音声認識装置のメモリ
の必要性を増大させることになる。平滑化の必要性を避けるために、確率的決定
樹及び最大の後続の評価アプローチが提案されてきた。別の従来の音声認識法は
文脈依存ガウス混合HMMを作り、音響単音状態がマージされ、そして不十分な
学習データを有する任意のクラスタがそれの最近の隣接のクラスタとマージされ
る。また単音をそれらの文脈に関連して左右文脈にクラスタする従来の音声認識
装置もある。しかしながら、従来のモデルに基づくアプローチの制限の1つは、
左右文脈が独立して処理できず、そして左右文脈間の学習例の分布が等しいのが
まれであるので、データの使用が部分的に最適となることにある。
【0010】 HMMの他に、音声認識に利用できる別のアプローチは知識技術アプローチで
ある。知識技術アプローチは音響及び音声についての人間の知識を単音認識手段
に統合し、この手段は音声信号から一連の単音又は格子状の単音を作る。マルコ
フ学習法により学習アルゴリズムにおいて全体的に学習を行いながら、知識技術
アプローチは、音声認識装置に音響/音声事象について人間の知識を明白にプロ
グラムしようとする。HMMに基づく検索はデータ駆動されるのに対して、知識
技術検索は一般的にはヒューリスティックに案内される。一般に、知識技術アプ
ローチは、デコーダの複雑さの結果として音声デコーダと比較的高いレベルの知
識ソースを統合する際に困難性を示す。その結果、パラメータ評価におけるエラ
ーを減少しそして学習結果を最適化する利用可能な学習データの使用を最大化し
つつSRSのメモリ要求を低減する音声認識用のモデルを作って使用するために
音素モデルを備えたHMMを含む確率的方法と交換可能に知識技術を組み合わせ
る音声認識装置が要求される。
【0011】 パラメータ共用音声認識装置用の方法及び装置が提供される。本発明の1つの
特徴によれば、音声信号は音声認識装置のプロセッサに受信される。音声信号は
、多数の音素モデルを発生することにより生成された共用隠れマルコフモデル(
HMM)の役割を果たす音声認識装置を用いて処理される。音素モデルの幾つか
は音素間で共用される。音素モデルは学習され、そして音素モデル間に共用され
る共用された音素モデル状態が発生される。音素モデル状態間に共用される共用
された確率分布関数(PDF)が発生される。音素モデルPDF間に共用される
共用された確率副分布関数(PSDF)が発生される。共用された音素モデル階
層化は共用されたPSDFに応じてさらに共用するために再評価される。共用は
音声認識モデルのレベル間とともに音声認識モデルのレベル内に生じる。受信し
た音声信号を表す信号が発生される。このHMMモデルは離散的な観測モデリン
グ及び連続観測モデリングを統合する。
【0012】 共用された音素モデルの発生は知識技術法を音素モデル発生に統合する。一実
施の形態において、音素モデルは予定の閾値を超える学習ライブラリにおいて利
用可能な多数の学習したフレームを有する任意の三音モデルを別の音素モデルと
して保持することによって発生され、或いは代りに、ある音素モデルが重要であ
ると考える。共用された音素モデルは、共通の二音を有する学習ライブラリにお
いて利用可能な学習したフレームの数が予定の閾値を越える三音音素モデルの各
グループを表すために発生される。共用された音素モデルは、音素文脈に等価の
影響を有する学習ライブラリにおいて利用可能な学習したフレームの数が予定の
閾値を越える三音音素モデルの各グループを表すために発生される。共用された
音素モデルは、同じ中心文脈を有する三音音素モデルの各グループを表すために
発生される。
【0013】 本発明のこれら及びその他の特徴、概念及び利点は添付図面及び以下の詳細な
説明並びに特許請求の範囲から明らかとなろう。
【0014】 パラメータ共用音声認識装置用の方法及び装置が提供される。ここで説明する
方法及び装置はまたパターン認識装置にも使用され得る。以下の記載において、
説明の目的で、本発明の全体を理解できるようにするために、種々の特定の細部
について記載するが、しかし当業者に明らかなように、本発明はこれらの特定の
細部なしに実施され得る。他の例として、本発明を不必要に判り難くするのを避
けるため、周知の構造及び装置はブロック線図で示す。ここで提供する方法及び
装置による予備実験により、従来の文脈に依存しない離散的音声認識装置と比較
したときに音声認識の相当な改善が見られることが認められる。
【0015】 FIG.1は、音声信号100を一次元波形として示す図である。連続して発
話における単語に相当する音声信号100は単語に区分され得る。音声信号10
0は、連続して話された文章における単語“whatever”102及び“t
he”104で構成されている。音声信号100は一連の音素で区切ることがで
き、各単語102、104は1つ以上の連続した音素110-126を備えてい る。単語“whatever”102は実質的に、音素“w”110、“ah”
112、“dx”114、“eh”116、“v”118及び“er”120か
ら成っている。単語“the”104は実質的に、音素“dh”122、“eh
”124及び“r”126から成っている。
【0016】 HMMは確率的な有限状態オートマトン又は音声話言葉をモデル化するのに使
用したある形式の抽象機械である。一実施の形態のHMMによってモデル化され
た発話は単語、音素のような部分語又は完全な文章或いは文節であることができ
るが、それらに限定されない。HMMを使用することにより、音声話言葉は特徴
又は知識の文字列に低減される。というのは、これらの特徴が入ってくる音声話
言葉から“得られる”情報を表しているからである。したがって、特定の音素又
は他の話言葉と組み合わされるHMMは観測文字列を発生できる有限状態機械で
ある。HMMはさらに、組合さった音素の実際の発話から観測される観測文字列
を作りそうである。
【0017】 HMMは音声認識の2つの状態で用いられる。学習状態では、HMMは、予定
の音素に対する観測文字列を統計学的に形成するように学習される。認識状態で
は、HMMは所与入力観測文字列を入力として受信し、そして存在するHMMの
1つが観測文字列を作っているとイメージされる。最も可能性の高いHMMと組
合さった音素は認識された単語であると宣言される。
【0018】 FIG.2は、単音/d/について1つの学習した音声HMM100のトポロ
ジィを示す図である。HMMの構造又はトポロジィはそれの許容状態遷移によっ
て決められる。このモデルは、7つの状態201〜207と12の遷移220〜
231を用いて単音/d/を表す。HMMは、状態から状態へのジャンピング及
び各ジャンプでの観測によつて観測シーケンスを発生する。音響信号をモデリン
グするために一般に使用されるHMMは各連続した状態に達する度毎に観測(情
報)を発生する。認識すべき音声話言葉から観測を抽出する時点に対応する各観
測時に、モデルに状態遷移が生じると仮定される。これらの遷移の可能性は状態
遷移確率によって調整される。これらの状態遷移確率は遷移220〜231にお
けるラベル又は状態201〜207を結び付けるアークとして現れる。所与観測
シーケンスを発生する途中で生じる状態のシーケンスは、HMM、状態遷移確率
のマトリックス又は状態遷移マトリックスと組合さった2つのランダムプロセス
の最初のものを画定する。最初の状態確率ベクトルとともに得られた状態遷移マ
トリックスは、任意の時点において任意の状態におけるリザイディングの確率を
完全に特定する。
【0019】 左右HMMプロセスは一実施の形態のSRSにおける音声波形をモデル化する
のに用いられる。FIG.3は、一実施の形態の多状態左右HMM音素モデル3
00を示す図である。一連のHMMは一連の音素に対応している。したがって、
HMM音素モデル300の前後には他のHMM音素モデルが続き、これらの他の
HMM音素モデルは一実施の形態のHMM音素モデル300と同様である。HM
M音素モデル300は3つの状態302〜306から成っている。これらの状態
は識別可能な音響現象を表すのに用いられる。したがって、状態の数はしばしば
、発話における音素のような現象の予想した数に対応するように選ばれる。音素
をモデル化するのにHMMを使用するとき、典型的にはオンセット遷移に対する
1つの状態と、単音の不変状態部分に対する1つの状態と、イグジッティング遷
移に対する1つの状態との3つの状態が用いられる。3状態HMM音素モデル3
00は左右単音の文脈における文脈に依存した音素をモデル化するのに用いられ
る。観測は各状態から出され、各状態から出された観測は確率分布bsとして公 式化され得る分布を形成し、sはHMMにおける状態である。各状態遷移312
〜316は、状態sのアークjを用いて遷移の確率を表す状態遷移確率as,jと 組み合わされる。例えば、Bタイプの観測が存在し、bsiが状態s及びタイプi
の分布を表すとすると、
【0020】
【数1】
【0021】 となる。
【0022】 観測ベクトルは観測として用いられる多くの特徴を含み得るが、それらに限定
されない。観測として使用された音声の最も頻繁に使用した一般的な特徴は、線
形予測分析(LP)パラメータと、ケプストラルパラメータと、音声信号の電圧
レベル、音声信号に含まれたパワー及び特定の周波数帯域に存在するエネルギか
ら誘導した関連量と含んでいる。これらはしばしば、短期エネルギ及び差のエネ
ルギのようなエネルギ測定値とともに信号の動的事項を捉える短期時間差によっ
て相補される。例えば、HMMの代表的な応用では、入力音声信号は特定の周波
数、例えば比較的高い8kHzでサンプリングされ、特定のオーバラップを有す
る特定の数の点のフレーム上で分析される。これらのサンプル時間は観測時間と
なる。多数のLP係数は各フレームについて計算される。これらのLP係数は多
数のケプストラル係数に変換される。動的情報を加えるために、ベクトルには多
数の差のケプストラル係数が含まれる。さらに各フレームには、短期エネルギ測
定値及び差のエネルギ測定値が含まれる。
【0023】 音声認識装置においては、観測シーケンスは一般に離散時間確率的プロセス(
discrete time stochastic process)か又は連続時間確率的プロセスとしてモデ
ル化され得る。観測シーケンスが離散時間確率的プロセスとしてモデル化される
ときには、状態に入る際の特定の観測の発生はその状態についての観測確率副分
布によって決定される。分離すなわち離散的観測HMMは有限セットの離散的な
観測を行う。自然に生じる観測ベクトルはベクトル量子化法を用いて許容セット
の1つに量子化される。個々の話される言葉について任意のHMMを学習する前
に、コードブックを誘導するために音声の大きな資料から一組の連続観測ベクト
ルが用いられる。コードブックにQ個の可能なベクトル又は観測が存在するとき
には、単一整数qを観測に割り当てれば十分であり、ここで 1≦q≦Q である。
【0024】 その結果、学習か又は認識のために使用した任意の観測ベクトルはこのコード
ブックを用いて量子化される。一実施の形態における離散的な観測HMMの場合
には、状態s及びタイプiの分布は、
【0025】
【数2】
【0026】 で表される一次元アレイであり、ここで各スカラーbsi[q]は状態sについて
とベクトル量子化記号qを観測する確率を表し、bsik[q]はbsi[q]から 成る副分布を表す。式中のQはqの総数を表している。離散的HMMに対する副 分布bsikは、離散的HMMパラメータを良好に圧縮でき、また離散的HMMと 連続HMMと間の構成を良好に共用できるようにする。
【0027】 観測シーケンスが連続時間確率的プロセスとしてモデル化される、より一般的
な場合には、観測はベクトル値化され、そして音声から引き出した上記の特徴の
量子化されないベクトルに対応する。したがって、HMMの正式の記述は、各状
態内の観測の分布を特徴付ける多変量PDFを含んでいる。一実施の形態におけ
るの連続観測HMMの場合、状態s及びタイプiの分布は、
【0028】
【数3】
【0029】 であり、ここで、
【0030】
【数4】
【0031】 である。
【0032】 状態sについて連続観測ベクトルoの確率を表すのに対角線ガウス混合が用い られる。変数csikは状態s及びタイプiの混合kに対する重みである。同様に 、変数msikは混合kのガウスの平均である。変数vsikは混合kの変分である。
【0033】 離散時間観測HMMは有限セットの離散的観測を行うのに制限されるので、状
態についての量子化観測PDFは、特徴分布の代りに実線にインパルスを形成す
る。これに対して、連続時間観測HMM記述は各状態内の観測の分布を特徴付け
る多変量PDFを含んでいる。その結果、従来の装置は一般的には離散時間か又
は連続時間観測モデルを使用する。本発明の一実施の形態では、連続観測PDF
から離散時間観測用の共用された特性PDFを発生することによって離散観測モ
デリング及び連続観測モデリングを統合すなわち単一化する。そしてこの共用さ
れた特性PDFは複数の単純なセグメントすなわち単純な確率副分布関数(PS
DF)に分割され、PSDFは連続HMMと離散HMMとの両方で共用される。
【0034】 前に述べたように、各音素フレームサンプルに対する自然に生じる観測ベクト
ルすなわちケプストラムは有限数に量子化され、それにより離散観測HMMは音
素に対する有限セットの量子化離散観測を作る。一実施の形態において、各学習
データサンプルの各フレームの各ケプストラムに対する有限離散観測はベクトル
量子化離散観測によってプロットされ、そして当該技術分野で公知の統計的手法
を用いてプロット上に領域が確立される。各領域には面積の中心が確立され、そ
して入力音声信号の量子化ベクトルは、量子化ベクトルと面積着の中心との距離
輪最小化する領域に割り当てられる。PDFは、公知の統計的手法を用いて対応
した領域における量子化ベクトル分布から音素の各フレームサンプルについて発
生される。
【0035】 FIG.4は、一実施の形態の音声認識器400を示す図である。入力装置4
02はSRS400に接続され、音声信号401を表す電気信号に音声信号40
1を変換してSRS400に入力する。入力装置402に接続された信号サンプ
ラ404は、当該技術分野において公知の技術を用いて決められた特定のサンプ
リング周波数で信号をサンプリングする。信号サンプラ404に接続された係数
発生及び変換器406は、ケプストラム又はLP係数或いはその他の音声特徴を
計算し、これらをケプストラル係数に変換する。係数発生及び変換器406に接
続された信号分割器408は、音声信号を表す電気信号を複数の音素すなわち単
音又は単語に分割、そのようには限定されない。信号分割器408の出力を受け
るように接続されたモデル装置410は音声で話される言葉401をモデル化す
るのに用いられるパラメータ共用HMMの役割を果たす。モデル装置410は受
信した音声信号401を表す出力信号412を発生する。構成要素402〜41
0を備えたSRSは、プロセッサによって実現され得るが、そのようには限定さ
れない。代わりの実施の形態では、モデル装置410は、SRS構成要素402
〜408から異なったプロセッサにおいて、機能するハードウエアとソフトウエ
アとのある組み合わせから成り得る。別の代わりの実施の形態においては、各々
異なったモデルを備える多数のモデル装置410は、多数の異なったプロセッサ
で実現され得る。別の代わりの実施の形態では、単一のモデルの役割を果たす多
数のプロセッサが設けられる。さらに別の代わりの実施の形態では、多数の異な
るモデル装置が、単一プロセッサで実現され得る。
【0036】 FIG.5は、一実施の形態において使用したパラメータ共用HMMを作るフ
ローチャートである。本発明の一実施の形態のモデル装置410で使用したパラ
メータ共用HMMは多数の音素モデルから成る統計的な学習アプローチに基づい
ている。一実施の形態のパラメータ共用HMMは、多数のモデルレベル間の共用
及び各モデルレベル内の共用を利用している。HMMの製作は、ステップ502
で開始し、このステップにおいて多数の文脈に依存した音素モデルが発生され、
これらの音素モデルの幾つかは多数の音素間で共用される。発生したHMMの構
造すなわちトポロジィは利用可能な学習データの量に少なくとも部分的に基づい
ている。一旦発生されると、HMMはステップ504において装置設計者によっ
て選択された学習データの特定のライブラリを用いて学習される。HMMは、各
状態に対する観測PDF及び適当な状態遷移マトリックスを評価する処理を見出
す音素量を表すために学習される。
【0037】 HMMの学習に続いて、ステップ506において多数の音素モデル状態が発生
される。これらの音素モデル状態は音素モデルを表し、そして当該技術分野にお
いて公知の統計的手法と音響プロセッシングの領域における知識技術との組み合
わせを用いて発生した共用された状態を含み得る。ステップ508において、多
数の音素モデル確率分布関数(PDF)が発生される。これらのPDFは音素モ
デル状態を表し、そして当該技術分野において公知の統計的手法と音響プロセッ
シングの領域における知識技術との組み合わせを用いて発生した共用されたPD
Fを含み得る。PDFの発生に続いて、ステップ510において、多数の共用さ
れた音素モデル確率副分布関数(PSDF)が発生される。これらのPSDFは
音素モデルPDFを表し、そして当該技術分野において公知の統計的手法と音響
プロセッシングの領域における知識技術との組み合わせを用いて発生した共用さ
れたPSDFを含み得る。ステップ512において、共用された音素モデルは、
共用された音素モデル状態、PDF及びPSDFを考慮してさらに共用するため
に評価される。さらに共用するための共用階層化の再評価はトップダウンアプロ
ーチ又はボトムアップアプローチ或いはトップダウンアプローチとボトムアップ
アプローチとの組み合わせを用いて説明するように行われ得る。
【0038】 FIG.6は、一実施の形態におけるパラメータ共用HMMの構造すなわちト
ポロジィを示す図である。このパラメータ共用HMMは、一実施の形態において
SRSのモデル装置410によって機能される。パラメータ共用HMMの構造は
4つのレベル691〜694から成り、この例ではパラメータ共用は全てのレベ
ル691〜694間で用いられる。第1のレベル691はHMMの音素モデル6
00〜603を備えている。第2のレベル692は音素モデル600〜603を
表すのに用いた音素モデル状態604〜609を備えている。この実施の形態に
おいて、各音素モデルは3つの音素モデル状態を備えているが、それに限定され
ない。第3のレベル693は音素モデル状態604〜609を表すのに用いた音
素モデルPDF610〜616を備えているが、それに限定されない。第4のレ
ベル694は音素モデルPDFを表すのに用いたPSDF617〜627を備え
ている。この実施の形態において各音素モデルPDFは三つのPSDFを備えて
いるが、それに限定されない。
【0039】 FIG.6に示すパラメータ共用の例は、音素モデル600、602による音
素モデル状態606の共用である。パラメータ共用の別の例は、音素モデル60
4、605による音素モデルPDF610の共用である。パラメータ共用のさら
に別の例は、音素モデルPDF610、611、612による音素モデルPSD
F619の共用である。
【0040】 さらに、パラメータはレベル内で共用され得る。例えば、モデル603に含ま
れたレベル692の2つの状態605、608は統計的に同様に結果としてこれ
ら2つの状態を表す1つの音素モデル状態650の発生となり得る。別の例とし
て、レベル693の音素モデルPSDF623、625は統計的に同様に結果と
してこれら2つのPSDFを表す1つの音素モデルPSDF660の発生となり
得る。
【0041】 FIG.6Aは、一実施の形態におけるパラメータ共用HMMの構造の別の形
態を示す図である。音素モデル1601、1603は、共用された音素モデル1
621を発生するためにレベル1691内で共用される。共用された音素モデル
1621はレベル1692で音素モデル状態1606、1608、1609を共
用する。音素モデル状態1620は音素モデル1600にある三つの状態を統計
的に表し、それによりレベル1691における音素モデル1600はレベル16
92における音素モデル状態1620で共用する。音素モデルPDF1611、
1613は共用された音素モデルPDF1622を発生するためにレベル169
3内で共用される。レベル1693における共用された音素モデルPDF162
2はレベル1692における音素モデル状態1605、1606、1607、1
609、1610によって共用される。レベル1693における共用された音素
モデルPDF1622は音素モデルPSDF1615、1616を共用する。音
素モデルPSDF1618は統計的に音素モデルPDF1614を表し、それに
よりレベル1693における音素モデルPDF1614はレベル1694におけ
る音素モデルPSDF1618で共用する。
【0042】 FIG.7は、一実施の形態における共用された音素モデルを発生する方法の
フローチャートである。共用された音素モデルを発生する方法は、共用の階層化
を発生するために音素モデルの発生に音響学及び音声学についての人間の知識を
結合する知識技術法を用いる。共用された音素モデルを発生するのに、実際の学
習ライブラリは必要でなく、代わりに、各音素モデルに対して学習ライブラリに
おけるデータ又はフレーム、サンプルの数が用いられる。ステップ702でこの
データを用いることにより、予定の閾値を越える学習ライブラリにおいて利用可
能な多数の学習したフレームを有する任意の三音モデルが別の音素モデルとして
保持される。閾値は統計的に有効な予定のレベルであり得るが、そのようには限
定されない。さらに、装置設計者に重要である全ての音素モデルは保持され得る
【0043】 ステップ702で保持されたモデルを考察から外した後でしかも保持されたモ
デルを発生するためにステップ702で使用したフレームを除去した後、ステッ
プ704において、共通の二音を有する学習ライブラリにおいて利用可能な学習
したフレームの数が予定の閾値を越える各グループの三音音素モデルを表す共用
された音素モデルが発生される。共通の二音は三音モデルの右文脈と組合さった
中心文脈か又は三音モデルの左文脈と組合さった中心文脈を備え得る。上記の共
用において、各モデルについて利用可能な学習データの量、又はフレームの数は
、共用構造を決めるのに用いられている。
【0044】 FIG.8は、一実施の形態における共通の二音を有する2つの三音モデル間
の音素モデル共用を示す図である。文脈に依存したHMMの場合、“w−ah+
dx”から成るモデルは、左文脈音素“w”及び右文脈音素“dx”を有する音
素“ah”を意味している。この共用例において、三音802、804、806
は、同じ中心音素“ah”及び右文脈音素“dx”を共用する。一緒にして、中
心文脈及び右文脈は二音808を備えている。したがって、中心文脈“ah”及
び右文脈“dx”の統計的な性質を有する1つの三音音素モデルが発生される。
この音素モデルは、構成要素802〜806の全てについて音素モデルが必要と
されるHMMにおけるどこにでも用いられる。知識技術を用いることにより、共
通の二音を備えしかも構成要素802〜806の左文脈の多くの統計的性質を近
似する統計的性質の左文脈を有する三音音素モデルを発生することができる。
【0045】 ステップ702、704で保持し発生したモデルを考察から外した後でしかも
、保持モデルを発生するのにステップ702、704で使用したフレームを外し
た後、ステップ706において、音素文脈に等価に影響する学習ライブラリにお
いて利用可能な学習したフレームの数が予定の閾値を越える各グループの三音音
素モデルを表す共用された音素モデルが発生される。このステップは、“等価の
影響”を評価するのに多量の知識技術が用いられるステップである。中心文脈に
対して音素文脈における等価の影響は等価の音であり得るが、それに限定されな
い。左文脈及び右文脈に対して音素文脈における等価の影響は左文脈及び右文脈
による中心文脈における等価のインパクトであり得るが、それに限定されない。
【0046】 ステップ702〜706で保持し発生したモデルを考察から外した後でしかも
、保持モデルを発生するのにステップ702〜706で使用したフレームを外し
た後、ステップ708において、同じ中心文脈を有する各グループの三音音素モ
デルを表す共用された音素モデルが発生される。
【0047】 ステップ702〜708で保持し発生したモデルを考察から外した後でしかも
、保持モデルを発生するのにステップ702〜708で使用したフレームを外し
た後、ステップ710において、文脈持続データに基づいて共用された音素モデ
ルが発生される。さらに、1つのグループの音素を表す共用された三音モデルが
発生され得、共用された三音モデルの各文脈は1つのグループの文脈音素の統計
的性質を備えている。
【0048】 前に述べたように、共用された音素モデルが発生された後、これらのモデルは
学習ライブラリデータを用いて学習される。共用された音素モデルのこの学習に
続いて、学習した音素モデルから多数の共用されたPSDFが発生される。これ
らのPSDFを発生するのに、実際の学習ライブラリデータ又はフレームが用い
られる。
【0049】 共用されたPSDFは、各共用された音素HMMを備える状態から多数の共用
された状態を発生することにより開始する。これらの状態は音声信号の音素のセ
グメントを表している。前に述べたように、一実施の形態においては、音素音声
信号のオンセット遷移部分に対する1つの状態と、音素音声信号の不変の状態部
分に対する1つの状態と、音素音声信号のイグジッティング遷移部分に対する1
つの状態との三つの状態が用いられる。共用された状態は同じ状態遷移確率及び
同じ観測分布を有する。共用された状態は一般的には、状態を組み合わせる音響
プロセッシングの領域における知識技術と当該技術分野において公知の統計学的
手法との組み合わせを用いて発生される。FIG.9は、一実施の形態における
2つの三音音素モデル間の状態共用を示す図である。この共用例において、三音
910、912は状態902、904を共用する。三音910は左文脈“ao”
及び右文脈“iy”を備えた音素“ah”から成り、三音910はそれぞれ状態
902、902、904で表される。三音912は左文脈“ah”及び右文脈“
iy”を備えた音素“ah”から成り、三音910はそれぞれ状態904、90
6、904で表される。
【0050】 共用されたPSDFの発生は、各共用された音素モデル状態を備えるPDFか
ら多数の共用された音素モデルPDFを発生することにより続く。一実施の形態
においては、各状態は4つまでのPDFを備えることができるが、そのようには
限定されない。PDFは前に述べたように、LPパラメータと、ケプストラルパ
ラメータと、音声信号に含まれた電圧レベル、パワー及びエネルギから誘導した
関連した量とにより発生される。例えば、4つの頻繁に用いられるPDFは信号
パワープロット、ケプストラル係数、差のケプストラル係数及び差の差のケプス
トラル係数により発生される。共用されたPDFは、状態を組み合わせる音響プ
ロセッシングの領域における知識技術と当該技術分野において公知の統計学的手
法との組み合わせを用いて発生される。
【0051】 FIG.10は、一実施の形態における2つの音素モデル状態1、2間のPD
F共用を示す図である。長方形1002〜1006の各々は1つの分布bsiを表
している。この共用例において、音素モデル状態1、2はPDF1002、10
04、1006を共用する。状態1はPDF1002、1006を備えている。
状態2はPDF1002、1004を備えている。
【0052】 共用されたPSDFの発生は、各共用された音素モデルPDFを備える副分布
から多数の共用された音素モデルPSDFを発生することにより続く。連続時間
HMMの場合、ガウス分布bsi(o)の混合は共用されたガウスPDFを備えて
いる。離散時間HMMの場合、PDFbsi[q]は共用された副分布を備えてい
る。
【0053】 FIG.11は、一実施の形態における連続時間HMMの2つのPDF110
2、1104間のガウスPSDF共用を示す図である。確率分布1102はガウ
スPSDF1106、1110を共用する。確率分布1104はガウスPSDF
1108、1110を共用する。
【0054】 HMMの共用階層化の発生に続いて、学習した音素モデルから発生した多数の
共用されたPSDFに応じて、共用された音素モデル、状態、PDF、PSDF
を備えた共用階層化はさらに共用するために評価される。さらに共用するための
共用階層化の再評価はトップダウンアプローチ又はボトムアップアプローチを用
いて行われ得る。
【0055】 FIG.12は、トップダウン再評価を用いた一実施の形態のパラメータ共用
HMMを作るフローチャートである。このトップダウンアプローチのステップ1
202〜1210はFIG.5のステップ502〜510と同じであり、このト
ップダウンアプローチは、同じ順序を有するステップで共用されたパラメータH
MMを最初に発生したときに用いたステップを繰り返す。しかしながら、発生し
た音素モデルの再評価がステップ1212において要求されるときには、操作は
ステップ1202において続き、ステップ1202〜1210は前の階層化共用
によって得られた付加的な情報を考慮して再評価される。このアプローチは、装
置設計者が必要と決めた回数繰り返され得る。
【0056】 FIG.13は、ボトムアップ再評価法を用いて一実施の形態のパラメータ共
用HMMを作るフローチャートである。ボトムアップ再評価アプローチを用いる
とき、操作はステップ1301で開始し、モデルが発生されてないために共用が
実行されていないので共用するため音素モデルが評価されることになる決定がな
される。ステップ1302〜1310は、共用されたパラメータHMMを最初に
発生するためにFIG.5のステップ502〜510と同じである。しかしなが
ら、発生した音素モデルの再評価がステップ1312で要求されるときには、操
作はステップ1310からステップ1301まで順次逆方向に処理することによ
り続けられ、それにより、ボトムアップアプローチは、ステップを逆の順序で実
行することを除いて、共用されたパラメータHMMを最初に発生する際に用いた
ステップ、FIG.5のステップを繰り返す。このアプローチは、装置設計者が
必要と決めた回数繰り返され得、ステップ1301において、さらなる再評価が
必要であると決定されるときにはステップ1302〜1312が繰り返される。
ボトムアップアプローチを用いることにより、全てのPSDFを共用する任意の
PDFに代る共用された音素モデルPDFが発生される。全てのPSDFが共用
されないとき、同様であるPDFを組み合わせるため音響プロセッシングの領域
における知識技術と公知の統計的技法との組合せを用いて、共用された音素モデ
ルPDFがなおも発生され得る。
【0057】 PDF共用の再評価に続いて、全てのPSDFを共用する任意の状態に代る共
用された音素モデル状態が発生される。全てのPDFが共用されないとき、同様
である状態を組み合わせるため音響プロセッシングの領域における知識技術と公
知の統計的技法との組合せを用いることにより、共用された状態がなおも発生さ
れ得る。
【0058】 状態共用の再評価に続いて、全ての状態を共用する任意のモデルに代る共用さ
れた音素モデルが発生される。全ての状態が共用されないとき、同様であるモデ
ルを組み合わせるため音響プロセッシングの領域における知識技術と公知の統計
的技法との組合せを用いることにより、共用されたモデルがなおも発生され得る
。トップダウンアプローチか又はボトムアップアプローチ、或いはそれらのある
組合せは、装置設計者が必要と決めた回数繰り返され得る。
【0059】 FIG.6を参照すると、さらに共用するために、共用された音素モデル、状
態、PDF、PSDFを備えた共用階層化の再評価の幾つかの例が示されている
。ここで説明するパラメータ共用は、組合さったモデル、状態、PDF、PSD
Fを提供するために、音響プロセッシングの領域における知識技術と公知の統計
的技法との組合せを用いる。FIG.14は、一実施の形態におけるボトムアッ
プアプローチを用いたさらなる共用に続くHMM構造を示す図である。ボトム、
又はPSDF、レベルで開始すると、PSDF617、618、619はPDF
610、611で共用されることが認められる。したがって、パラメータ共用を
用いることにより、PDF610、611に代えて使用されることになる単一の
PDF1410が発生され得る。PDFレベルでは、PDF610、611は音
素モデル状態604、605によって共用される。したがって、パラメータ共用
を用いることにより、状態604、605に代えて使用されることになる単一の
状態1404が発生され得る。
【0060】 FIG.15は、一実施の形態におけるトップダウンアプローチを用いたさら
なる共用に続くHMM構造を示す図である。音素モデルレベルで開始すると、モ
デル601、603は音素モデル状態605、607、609を共用することが
認められる。したがって、パラメータ共用を用いることにより、モデル601、
603に代えて使用されることになる単一の音素モデル1501が発生され得る
。音素モデル状態レベルでは、状態607、608はPDF612、613を共
用する。したがって、状態607、608に代えて使用されることになる単一の
状態1507が発生され得る。PDFレベルでは、PDF610、611はPS
DF617、618、619を共用する。したがって、PDF610、611に
代えて使用されることになる単一のPDF1510が発生され得る。こうして、
共用は隣接レベル間で行われ得、それにより任意の特定のレベルの構造はHMM
構造の低レベルでの構造を共用する。
【0061】 さらに、一実施の形態のHMM構造では、共用は任意のレベルのモデル、状態
、PDF、PSDFの間のそのレベルで行われ得る。したがって、例えばPDF
626、627は、統計学的に同じであれば、PDF616の間で共用され、単
一の音素PDF1520を発生し得る。この場合、単一の音素PDF1520は
また単一の音素PSDF1520を表す。
【0062】 したがって、パラメータ共用音声認識装置用の方法及び装置が提供される。本
発明は特殊な実施の形態を参照して説明してきたが、特許請求の範囲に定義した
発明の広義の精神及び範囲から逸脱することなしにこれらの実施の形態に対して
種々の変更及び変形を行うことができることは明らかである。したがって、明細
書及び図面は発明を限定するものというよりはむしろ例示のためのものとみなさ
れるべきである。
【図面の簡単な説明】
【図1】 FIG.1は、音声信号を一次元波形として示す図である。
【図2】 FIG.2は、単音/d/に対する1つの学習した音声HMMのトポロジィを
示す図である。
【図3】 FIG.3は、多状態左右HMM音素モデルの一実施の形態を示す図である。
【図4】 FIG.4は、音声認識装置の一実施の形態の構成を示すブロック図である。
【図5】 FIG.5は、一実施の形態に使用したパラメータ共用HMMを生成フローチ
ャートである。
【図6】 FIG.6は、一実施の形態におけるパラメータ共用HMMの構成、すなわち
トポロジィを示す図である。
【図7】 FIG.6Aは、一実施の形態におけるパラメータ共用HMMの構成の別のト
ポロジィを示す図である。
【図8】 FIG.7は、一実施の形態における共用された音素モデルを発生する方法の
フローチャートである。
【図9】 FIG.8は、一実施の形態における共通の二音を有する2つの三音モデル間
の音素モデルの共用を示す図である。
【図10】 FIG.9は、一実施の形態における2つの三音モデル間の状態の共用を示す
図である。
【図11】 FIG.10は、一実施の形態における2つの音素モデル状態間の確率分布の
共用を示す図である。
【図12】 FIG.11は、一実施の形態の連続時間観測HMMにおける2つの確率分布
間のガウスPDF共用を示す図である。
【図13】 FIG.12は、トップダウン再評価法を用いた一実施の形態のパラメータ共
用HMMを生成するフローチャートである。
【図14】 FIG.13は、ボトムアップ再評価法を用いた一実施の形態のパラメータ共
用HMMを生成するフローチャートである。
【図15】 FIG.14は、一実施の形態におけるボトムアップアプローチを用いた別の
共用に従うHMM構成を示す図である。
【図16】 FIG.15は、一実施の形態におけるトップダウンアプローチを用いた別の
共用に従うHMM構成を示す図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SZ,UG,ZW),EA(AM ,AZ,BY,KG,KZ,MD,RU,TJ,TM) ,AL,AM,AT,AU,AZ,BA,BB,BG, BR,BY,CA,CH,CN,CU,CZ,DE,D K,EE,ES,FI,GB,GD,GE,GH,GM ,HR,HU,ID,IL,IS,JP,KE,KG, KP,KR,KZ,LC,LK,LR,LS,LT,L U,LV,MD,MG,MK,MN,MW,MX,NO ,NZ,PL,PT,RO,RU,SD,SE,SG, SI,SK,SL,TJ,TM,TR,TT,UA,U G,UZ,VN,YU,ZW (72)発明者 デュアンペイ ウー アメリカ合衆国 カリフォルニア州 94086 サニーヴェイル ゲイル アベニ ュー シャープシー3 666 (72)発明者 レックス エス オローレンショウ アメリカ合衆国 カリフォルニア州 94925 コート マデラ モーニングサイ ド ドライブ 267 Fターム(参考) 5D015 BB02 HH23

Claims (43)

    【特許請求の範囲】
  1. 【請求項1】 音声信号401をプロセッサに供給するステップと、 上記供給される音声信号401を、多数の音素モデルを発生することにより生
    成される音声認識器400を用いて処理し、上記多数の音素モデルの少なくとも
    1つを多数の音素間で共用するステップと、 上記供給される音声信号を表す信号412を発生するステップとを有する音声
    認識方法。
  2. 【請求項2】 上記音声認識器は、上記多数の音素モデルを学習し、上記学習
    された多数の音素モデルから多数の共用された確率副分布関数を発生し、上記共
    用された確率副分布関数に応じて、さらに共用するために多数の音素モデルを評
    価することを特徴とする請求項1に記載の音声認識方法。
  3. 【請求項3】 上記音素モデルは、文脈に依存していることを特徴とする請求
    項1に記載の音声認識方法。
  4. 【請求項4】 上記音声認識器は、統計的な学習アプローチに基づいているこ
    とを特徴とする請求項1に記載の音声認識方法。
  5. 【請求項5】 上記統計的な学習アプローチは、隠れマルコフモデルであるこ
    とを特徴とする請求項4に記載の音声認識方法。
  6. 【請求項6】 上記多数の音素モデルは、多数の学習したフレームが閾値を越
    える三音音素モデルを別の音素モデルとして保持し、共通の二音を有する学習し
    たフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共
    用された音声モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表
    す少なくとも1つの共用された音素モデルを発生することによって、発生される
    ことを特徴とする請求項1に記載の音声認識方法。
  7. 【請求項7】 少なくとも1つの共用された音声モデルは、少なくとも1つの
    文脈を含んで発生され、上記少なくとも1つの文脈は、多数の文脈音素を表す統
    計的特性を有することを特徴とする請求項6に記載の音声認識方法。
  8. 【請求項8】 上記多数の共用された確率副分布関数は、多数の音素モデル状
    態の少なくとも1つが多数の音素モデルの間で共用される多数の音素モデル状態
    を発生し、多数の音素モデル確率分布関数の少なくとも1つが多数の状態の間で
    共用される多数の音素モデル状態を発生し、多数の音素モデル確率副分布関数の
    少なくとも1つが多数の音素モデル確率分布関数間で共用される多数の音素モデ
    ル確率副分布関数状態を発生することによって、発生されることを特徴とする請
    求項2に記載の音声認識方法。
  9. 【請求項9】 上記多数の共用された確率副分布関数は、多数の音素モデル状
    態の少なくとも1つが多数の音素モデル状態の間で共用される多数の音素モデル
    状態を発生し、多数の音素モデル確率分布関数の少なくとも1つが多数の音素モ
    デル確率分布関数間で共用される多数の音素モデル確率分布関数を発生し、多数
    の音素モデル確率副分布関数の少なくとも1つが多数の音素モデル確率副分布関
    数間で共用される多数の音素モデル確率副分布関数を発生することによって、発
    生されることを特徴とする請求項8に記載の音声認識方法。
  10. 【請求項10】 共用が、音声認識モデルの多数のレベル中で生じることを特
    徴とする請求項1に記載の音声認識方法。
  11. 【請求項11】 共用が、音声認識モデルの少なくとも1つのレベル内で生じ
    ることを特徴とする請求項1に記載の音声認識方法。
  12. 【請求項12】 さらに共用するための多数の音素モデルは、多数の確率分布
    関数の各々が共通の確率副分布関数を有するときに、多数の確率分布関数に代る
    共用される音素モデル確率分布関数を発生し、多数の音素モデル状態の各々が共
    通の音素モデル確率分布関数を有するときに、多数の状態に代る共用される音素
    モデル状態を発生し、多数の音素モデルの各々が共通の音素モデル状態を有する
    ときに、多数の音素モデルに代る共用される音素モデルを発生することによって
    、評価されることを特徴とする請求項2に記載の音声認識方法。
  13. 【請求項13】 上記多数の音素モデルを評価するステップは、さらに共用す
    るために、少なくとも一回繰り返されることを特徴とする請求項1に記載の音声
    認識方法。
  14. 【請求項14】 上記多数の音素モデルは、離散的観測モデリングと連続観測
    モデリングを統合することを特徴とする請求項1に記載の音声認識方法。
  15. 【請求項15】 離散隠れマルコフモデルのための上記多数の共用される確率
    分布関数は、連続隠れマルコフモデルの連続分布関数から発生されることを特徴
    とする請求項2に記載の音声認識方法。
  16. 【請求項16】 音声信号401をプロセッサに供給する入力手段402と、 上記供給された音声信号を表す信号412を発生する音声認識器400を用い
    て、上記供給された音声信号401を認識する上記プロセッサと、 上記受信された音声信号を表す信号412を出力する出力手段とを備え、 上記音声認識器が多数の音素モデルを発生するとともに、学習することによっ
    て生成され、上記多数の音素モデルの少なくとも1つが多数の音素間で共用され
    ることを特徴とする音声認識装置。
  17. 【請求項17】 上記音声認識装器は、多数の音素モデル状態の少なくとも1
    つが上記多数の音素モデル間で共用される多数の音素モデル状態を発生し、多数
    の音素モデル確率分布関数の少なくとも1つが上記多数の音素モデル状態間で共
    用される多数の音素モデル確率分布関数を発生し、多数の音素モデル確率副分布
    関数の少なくとも1つが上記多数の音素モデル確率分布関数間で共用される多数
    の音素モデル確率副分布関数を発生し、上記多数の共用される音素モデル確率副
    分布関数に応じて、さらに共用するために多数の音素モデルを評価することによ
    って、生成されることを特徴とする請求項16に記載の音声認識装置。
  18. 【請求項18】 共用が、音声認識モデルの多数のレベル間で生じるとともに
    、音声認識モデルの少なくとも1つのレベル内で生じることを特徴とする請求項
    16に記載の音声認識装置。
  19. 【請求項19】 上記多数の音素モデルは、多数の学習したフレームが閾値を
    越える三音音素モデルを別の音素モデルとして保持し、共通の二音を有する学習
    したフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの
    共用された音素モデルを発生し、音素文脈に等価の影響を有する学習したフレー
    ムの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共用された
    音素モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表す少なく
    とも1つの共用された音素モデルを発生することによって、発生されることを特
    徴とする請求項16に記載の音声認識装置。
  20. 【請求項20】 さらに共用するため多数の音素モデルは、多数の確率分布関
    数の各々が共通の確率副分布関数を有するときに多、数の確率分布関数に代る共
    用される音素モデル確率分布関数を発生し、多数の音素モデル状態の各々が共通
    の音素モデル確率分布関数を有するときに多、数の状態に代る共用される音素モ
    デル状態を発生し、多数の音素モデルの各々が共通の音素モデル状態を有すると
    きに、多数の音素モデルに代る共用された音素モデルを発生することによって、
    評価されることを特徴とする請求項17に記載の音声認識装置。
  21. 【請求項21】 モデルを用いる統計的学習技術から成る音声認識プロセスに
    おいて、 上記モデルは、多数の音素モデルを発生するとともに、学習して多数の音素モ
    デルの少なくとも1つを多数の音素間で共用し、上記学習した多数の音素モデル
    から多数の共用される確率副分布関数を発生し、上記共用された確率副分布関数
    に応じて、さらに共用するために多数の音素モデルを評価することによって、生
    成されることを特徴とする音声認識プロセス。
  22. 【請求項22】 共用が、音声認識モデルの多数のレベル間で生じるとともに
    、音声認識モデルの少なくとも1つのレベル内で生じることを特徴とする請求項
    21に記載の音声認識プロセス。
  23. 【請求項23】 上記多数の音素モデルは、文脈依存隠れマルコフモデルであ
    り、上記多数の音素モデルは、離散的観測モデリングと連続観測モデリングを統
    合することを特徴とする請求項21に記載の音声認識プロセス。
  24. 【請求項24】 上記多数の音素モデルは、多数の学習したフレームが閾値を
    越える三音音素モデルを別の音素モデルとして保持し、共通の二音を有する学習
    したフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの
    共用された音素モデルを発生し、音素文脈に等価の影響を有する学習したフレー
    ムの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共用された
    音素モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表す少なく
    とも1つの共用された音素モデルを発生することによって、発生されることを特
    徴とする請求項21に記載の音声認識プロセス。
  25. 【請求項25】 上記多数の共用された確率副分布関数は、多数の音素モデル
    状態の少なくとも1つが多数の音素モデル間で共用される多数の音素モデル状態
    を発生し、多数の音素モデル確率分布関数の少なくとも1つが多数の音素モデル
    状態間で共用される多数の音素モデル確率分布関数を発生し、多数の音素モデル
    確率副分布関数の少なくとも1つが多数の音素モデル確率分布関数ので共用され
    る多数の音素モデル確率副分布関数を発生することによって、発生されることを
    特徴とする請求項21に記載の音声認識プロセス。
  26. 【請求項26】 さらに共用するための多数の音素モデルは、多数の確率分布
    関数の各々が共通の確率副分布関数を有するときに、多数の確率分布関数に代る
    共用される音素モデル確率分布関数を発生し、多数の音素モデル状態の各々が共
    通の音素モデル確率分布関数を有するときに、多数の状態に代る共用される音素
    モデル状態を発生し、多数の音素モデルの各々が共通の音素モデル状態を有する
    ときに、多数の音素モデルに代る共用される音素モデルを発生することによって
    、評価されることを特徴とする請求項21に記載の音声認識プロセス。
  27. 【請求項27】 音声認識装置に用いられる多数の音素モデルを発生する音素
    モデル発生方法において、 多数の学習したフレームが閾値を越える三音音素モデルを別の音素モデルとし
    て保持するステップと、 共通の二音を有する学習したフレームの数が閾値を越える多数の三音音素モデ
    ルを表す少なくとも1つの共用された音素モデルを発生するステップと、 音素文脈に等価の影響を有する学習したフレームの数が閾値を越える多数の三
    音音素モデルを表す少なくとも1つの共用された音素モデルを発生するステップ
    と、 同じ中心文脈を有する多数の三音音素モデルを表す少なくとも1つの共用され
    た音素モデルを発生するステップとを有する音素モデル発生方法。
  28. 【請求項28】 上記音素モデルが、隠れマルコフモデルであることを特徴と
    する請求項27に記載の音素モデル発生方法。
  29. 【請求項29】 実行可能な命令を含むコンピュータで読み取り可能な媒体に
    おいて、 音声信号をプロセッサに供給するステップと、 多数の音素モデルを有する音声認識器を用いて、上記供給される音声信号を処
    理し、多数の音素モデルの少なくとも1つを多数の音素間で共用するステップと
    、 上記供給される音声信号を表す信号を発生するステップとを含む音声認識プロ
    グラムが書き込まれた媒体。
  30. 【請求項30】 上記音声認識は、多数の音素モデル状態を発生して多数の音
    素モデル状態の少なくとも1つを多数の音素間で共用し、多数の音素モデル確率
    分布関数を発生して多数の音素モデル確率分布関数の少なくとも1つを多数の音
    素モデル状態間で共用し、多数の音素モデル確率副分布関数を発生して多数の音
    素モデル確率副分布関数の少なくとも1つを多数の音素モデル確率分布関数間で
    共用し、多数の共用された確率副分布関数に応じてさらに共用するため多数の音
    素モデルを評価することによって、行われることを特徴とする請求項29に記載
    の媒体。
  31. 【請求項31】 共用が、音声認識モデルの多数のレベル間で生じるとともに
    、音声認識モデルの少なくとも1つのレベル内で生じることを特徴とする請求項
    29に記載の媒体。
  32. 【請求項32】 上記多数の音素モデルは、多数の学習したフレームが閾値を
    越える三音音素モデルを別の音素モデルとして保持し、共通の二音を有する学習
    したフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの
    共用された音声モデルを発生し、音素文脈に等価の影響を有する学習したフレー
    ムの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共用された
    音素モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表す少なく
    とも1つの共用された音声モデルを発生することによって、発生されることを特
    徴とする請求項29に記載の媒体。
  33. 【請求項33】 音声信号をプロセッサに供給するステップと、 上記供給される音声信号を、多数の音素モデルを有するモデルを用いて処理し
    、多数の音素モデルの少なくとも1つを多数の音素間で共用するステップと、 上記供給される音声信号を表す信号を発生するステップとを有する音声認識方
    法。
  34. 【請求項34】 上記モデルは、更に、少なくとも1つが多数の音素モデル間
    に共用される多数の音素モデル状態と、少なくとも1つが多数の音素モデル状態
    間に共用される多数の音素モデル確率分布関数と、少なくとも1つが多数の音素
    モデル確率分布関数間に共用される多数の音素モデル確率副分布関数とを有する
    ことを特徴とする請求項33に記載の音声認識方法。
  35. 【請求項35】 上記多数の音素モデルは、多数の学習したフレームが閾値を
    越える三音音素モデルを別の音素モデルとして保持し、共通の二音を有する学習
    したフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの
    共用された音声モデルを発生し、音素文脈に等価の影響を有する学習したフレー
    ムの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共用された
    音素モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表す少なく
    とも1つの共用された音声モデルを発生することによって、発生されることを特
    徴とする請求項33に記載の音声認識方法。
  36. 【請求項36】 さらに共用するための多数の音素モデルは、多数の確率分布
    関数の各々が共通の確率副分布関数を有するときに、多数の確率分布関数に代る
    共用された音素モデル確率分布関数を発生し、多数の音素モデル状態の各々が共
    通の音素モデル確率分布関数を有するときに、多数の状態に代る共用された音素
    モデル状態を発生し、多数の音素モデルの各々が共通の音素モデル状態を有する
    ときに多、数の音素モデルに代る共用された音素モデルを発生することによって
    、評価されることを特徴とする請求項33に記載の音声認識方法。
  37. 【請求項37】音声信号をプロセッサに供給する入力手段と、 上記供給される音声信号を、多数の音素モデルを有するモデルを用いて処理し
    、多数の音素モデルの少なくとも1つを多数の音素間で共用する上記プロセッサ
    と、 上記供給される音声信号を表す信号を出力する出力手段とを備える音声認識装
    置。
  38. 【請求項38】 上記モデルは、更に、少なくとも1つが多数の音素モデル間
    に共用される多数の音素モデル状態と、少なくとも1つが多数の音素モデル状態
    間に共用される多数の音素モデル確率分布関数と、少なくとも1つが多数の音素
    モデル確率分布関数間に共用される多数の音素モデル確率副分布関数とを有する
    ことを特徴とする請求項請求項37に記載の音声認識装置。
  39. 【請求項39】 上記多数の音素モデルは、多数の学習したフレームが閾値を
    越える三音音素モデルを別の音素モデルとして保持し、共通の二音を有するとき
    に、学習したフレームの数が閾値を越える多数の三音音素モデルを表す少なくと
    も1つの共用される音声モデルを発生し、音素文脈に等価の影響を有する学習し
    たフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共
    用される音素モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表
    す少なくとも1つの共用される音声モデルを発生することによって、発生される
    ことを特徴とする請求項37に記載の音声認識装置。
  40. 【請求項40】 実行可能な命令を含むコンピュータで読み取り可能な媒体に
    おいて、 音声信号をプロセッサに供給するステップと、 多数の文脈依存音素モデルを有するモデル用いて、上記供給される音声信号を
    処理し、多数の音素モデルの少なくとも1つを多数の音素間で共用するステップ
    と、上記供給される音声信号を表す出力信号を発生するステップとを含む音声認
    識すプログラムが書き込まれた媒体。
  41. 【請求項41】 上記モデルは、更に、少なくとも1つが多数の音素モデル間
    に共用される多数の音素モデル状態と、少なくとも1つが多数の音素モデル状態
    間に共用される多数の音素モデル確率分布関数と、少なくとも1つが多数の音素
    モデル確率分布関数間に共用される多数の音素モデル確率副分布関数と有するこ
    とを特徴とする請求項40に記載の媒体。
  42. 【請求項42】 上記多数の音素モデルは、多数の学習したフレームが閾値を
    越える三音音素モデルを別の音素モデルとして保持し、共通の二音を有する学習
    したフレームの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの
    共用された音声モデルを発生し、音素文脈に等価の影響を有する学習したフレー
    ムの数が閾値を越える多数の三音音素モデルを表す少なくとも1つの共用された
    音素モデルを発生し、同じ中心文脈を有する多数の三音音素モデルを表す少なく
    とも1つの共用された音声モデルを発生することによって、発生されることを特
    徴とする請求項40に記載の媒体。
  43. 【請求項43】 さらに共用するための多数の共用された音素モデルは、多数
    の確率分布関数の各々が共通の確率副分布関数を有するときに、多数の確率分布
    関数に代る共用された音素モデル確率分布関数を発生し、多数の音素モデル状態
    の各々が共通の音素モデル確率分布関数を有するときに、多数の状態に代る共用
    された音素モデル状態を発生し、多数の音素モデルの各々が共通の音素モデル状
    態を有するときに多、数の音素モデルに代る共用された音素モデルを発生するこ
    とによって、評価されることを特徴とする請求項40に記載の媒体。
JP2000517408A 1997-10-16 1998-10-09 パラメータ共用音声認識方法及び装置 Withdrawn JP2001521193A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/953,026 US6006186A (en) 1997-10-16 1997-10-16 Method and apparatus for a parameter sharing speech recognition system
US08/953,026 1997-10-16
PCT/US1998/021451 WO1999021168A1 (en) 1997-10-16 1998-10-09 Parameter sharing speech recognition system

Publications (1)

Publication Number Publication Date
JP2001521193A true JP2001521193A (ja) 2001-11-06

Family

ID=25493478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000517408A Withdrawn JP2001521193A (ja) 1997-10-16 1998-10-09 パラメータ共用音声認識方法及び装置

Country Status (5)

Country Link
US (1) US6006186A (ja)
EP (1) EP1034533A4 (ja)
JP (1) JP2001521193A (ja)
AU (1) AU9798898A (ja)
WO (1) WO1999021168A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012113251A (ja) * 2010-11-26 2012-06-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、及びそのプログラム
JP2012514228A (ja) * 2008-12-31 2012-06-21 アールト コルケアコウルスエーティ パターン発見およびパターン認識のための方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
JPH11306238A (ja) * 1998-03-30 1999-11-05 Internatl Business Mach Corp <Ibm> 確率積分システム
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
US6725195B2 (en) * 1998-08-25 2004-04-20 Sri International Method and apparatus for probabilistic recognition using small number of state clusters
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US8260614B1 (en) 2000-09-28 2012-09-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
JP2003208195A (ja) * 2002-01-16 2003-07-25 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7454342B2 (en) * 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US20070198262A1 (en) * 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
WO2005020208A2 (en) * 2003-08-20 2005-03-03 The Regents Of The University Of California Topological voiceprints for speaker identification
US7496512B2 (en) * 2004-04-13 2009-02-24 Microsoft Corporation Refining of segmental boundaries in speech waveforms using contextual-dependent models
TWI264702B (en) * 2004-05-03 2006-10-21 Acer Inc Method for constructing acoustic model
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
US8239195B2 (en) * 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
GB2465383B (en) * 2008-11-14 2011-09-21 Toshiba Res Europ Ltd A speech recognition method and system
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
AU586167B2 (en) * 1984-05-25 1989-07-06 Sony Corporation Speech recognition method and apparatus thereof
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5093899A (en) * 1988-09-17 1992-03-03 Sony Corporation Neural network with normalized learning constant for high-speed stable learning
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH04207341A (ja) * 1990-11-30 1992-07-29 Sony Corp 無線電話装置
JPH0541894A (ja) * 1991-01-12 1993-02-19 Sony Corp 電子機器の制御装置
JPH0535878A (ja) * 1991-07-26 1993-02-12 Sony Corp ニユーラルネツトワーク
JPH0561496A (ja) * 1991-08-30 1993-03-12 Sony Corp 音声認識装置
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
JPH05134694A (ja) * 1991-11-15 1993-05-28 Sony Corp 音声認識装置
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
JP3252381B2 (ja) * 1992-09-08 2002-02-04 ソニー株式会社 パターン認識装置
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5583965A (en) * 1994-09-12 1996-12-10 Sony Corporation Methods and apparatus for training and operating voice recognition systems
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012514228A (ja) * 2008-12-31 2012-06-21 アールト コルケアコウルスエーティ パターン発見およびパターン認識のための方法
JP2012113251A (ja) * 2010-11-26 2012-06-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、及びそのプログラム

Also Published As

Publication number Publication date
WO1999021168A1 (en) 1999-04-29
AU9798898A (en) 1999-05-10
US6006186A (en) 1999-12-21
EP1034533A1 (en) 2000-09-13
EP1034533A4 (en) 2001-02-07

Similar Documents

Publication Publication Date Title
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
Rao et al. Speech recognition using articulatory and excitation source features
US6317712B1 (en) Method of phonetic modeling using acoustic decision tree
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4274962B2 (ja) 音声認識システム
JP6052814B2 (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
US5865626A (en) Multi-dialect speech recognition method and apparatus
Loizou et al. High-performance alphabet recognition
US20060229875A1 (en) Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Philippou-Hübner et al. The performance of the speaking rate parameter in emotion recognition from speech
WO2000031723A1 (en) Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP4283133B2 (ja) 音声認識装置
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Seman et al. Acoustic Pronunciation Variations Modeling for Standard Malay Speech Recognition.
JP2007052166A (ja) 音響モデルの準備方法及び自動音声認識装置
Gulić et al. A digit and spelling speech recognition system for the croatian language
EP1369847B1 (en) Speech recognition method and system
Sinha et al. Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR
Maneenoi et al. Acoustic modeling of onset-rhyme for Thai continuous speech recognition

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060110