JP4195428B2 - 多数の音声特徴を利用する音声認識 - Google Patents

多数の音声特徴を利用する音声認識 Download PDF

Info

Publication number
JP4195428B2
JP4195428B2 JP2004270823A JP2004270823A JP4195428B2 JP 4195428 B2 JP4195428 B2 JP 4195428B2 JP 2004270823 A JP2004270823 A JP 2004270823A JP 2004270823 A JP2004270823 A JP 2004270823A JP 4195428 B2 JP4195428 B2 JP 4195428B2
Authority
JP
Japan
Prior art keywords
speech
features
model
log
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004270823A
Other languages
English (en)
Other versions
JP2005165272A (ja
Inventor
スコット・イー・アクセルロッド
スリーラム・ヴィスワナス・バラクリシュナン
スタンリー・エフ・チェン
ユジン・ガオ
ラメシュ・エー・ゴピナス
ホン−コワン・クオ
ベノア・メゾン
デーヴィッド・ナハムー
マイケル・アラン・ピチェニー
ジョージ・エー・サオン
ジェフリー・ジー・ツヴァイク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2005165272A publication Critical patent/JP2005165272A/ja
Application granted granted Critical
Publication of JP4195428B2 publication Critical patent/JP4195428B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

本発明は、一般に音声認識システムに関し、より詳細には、対数線形モデルと共に多数の音声特徴を使用する音声認識システムに関する。
音声認識システムは、未知の発話からワード・シーケンスを識別するのに使用される。例示的音声認識システムでは、ケプストラム特徴やデルタケプストラム特徴などの音声特徴が、未知の発話から特徴抽出器によって抽出され、その未知の発話が特徴付けられる。次いで探索を行い、抽出したその未知の発話の特徴を、音声単位(句、単語、シラブル、音素、サブフォンなど)のモデルと比較し、様々なワード・シーケンス仮説(hypothesis,-es)のスコアまたは確率を計算する。通常は、可能性の低い仮説を除くことにより、探索スペースが制限される。最高のスコアまたは尤度または確率に関連するワード・シーケンスが、その未知の発話として認識される。音響モデルに加えて、様々なワード・シーケンスの相対尤度を求める言語モデルもワード・シーケンス仮説の全スコアの計算で使用される。
トレーニング・オペレーションにより、音声認識モデルに関するパラメータが求められる。音声認識モデルは、音声を一続きの音響特徴として、またはサブフォン、音素、シラブル、単語、句などの観測不能な「真の」状態シーケンスによって生成される観測値としてモデル化するのに使用することができる。トレーニング・オペレーションからのモデル・パラメータ出力はしばしば、トレーニング観測値の尤度を最大にするように推定される。音声認識に関する最適なパラメータの組は、トレーニング・データに対する尤度を最大にすることによって求められる。音声認識システムは、観測した音声信号が与えられた場合に、最大の事後確率を有するワード・シーケンスを求め、未知の発話を認識する。最良のワード・シーケンス仮定は、探索スペース内のすべての可能な仮説のスコアを考慮する探索プロセスによって求められる。
本発明の主たる目的は、音声認識システムにおいて、未知の発話を認識するのに対数線形モデルと多数の音声特徴の組合せを提供することにある。
本発明の例示的態様によれば、音声認識システムが提供される。
本発明の様々な例示的態様によれば、未知の発話を認識するのに、対数線形モデルと多数の音声特徴の組合せが提供される。もちろん、本発明における用語「多数」は本発明の特徴が現れるに必要十分な程度の「多数」であれば足り、一般的な意味として把握される「多数」を必ずしも意味せず、限定的に解釈されない。なお、多数の音声特徴は複数のレベルに分類し得る。
本発明の様々な例示的態様によれば、音声認識システムは、観測した音声信号と、場合によってはその他の情報とが与えられた場合に、対数線形モデルを使用して、仮説の事後確率、すなわち一続きの言語単位の条件付き確率をモデル化する。
こうした例示的態様によれば、事後モデルは、観測した音声特徴および事後モデルのパラメータが与えられた場合に、その一続きの言語単位の確率を取り込む。
本発明のこうした例示的態様によれば、多数の音声特徴が与えられた場合に、ワード・シーケンス仮説の確率を使用して事後モデルを求めることができる。すなわち、こうした例示的態様によれば、多数の音声特徴が与えられた場合に、タイミング情報およびラベルを有するワード・シーケンスの確率が使用されて事後モデルが求められる。
本発明の様々な例示的態様によれば、使用される音声特徴は、非同期音声特徴、重複する音声特徴、および統計的に非独立な音声特徴を含むことができる。
本発明の様々な例示的態様によれば、貧弱な、または不完全なトレーニング・データでパラメータをトレーニングすることができる対数線形モデルが使用される。
本発明の様々な例示的態様によれば、トレーニングで使用されるすべて特徴がテスト/認識で出現する必要はない。
以下の説明では、本発明の例示的態様がどのように使用されるかを詳述する。本発明の説明全体を通して、図1〜6を参照する。各図を参照するとき、各図にわたって示す同様の構造および要素は、同様の参照数字で示す。
図1には、本発明の例示的態様を実施する例示的音声処理システム1000が示されている。図1の音声処理システム1000は単に例示のために提示したに過ぎず、本発明の例示的態様を実装することができる無数の構成の代表例であることにまず留意されたい。したがって、図示するシステム構成に本発明が限定されるとみなすべきではない。
図1に示すように、音声処理システム1000は、電話システム210、音声移送システム220、音声入力装置230、およびサーバ300を含む。端末110〜120が、電話ネットワーク215を介して電話システム210に接続され、端末140〜150が、データ・ネットワーク225を介して音声移送システム220に接続される。図1に示すように、電話システム210、音声移送システム220、および音声入力装置230は音声認識システム300に接続される。音声認識システム300は、音声データベース310にも接続される。
動作の際には、音声が、リモート・ユーザから、端末110〜150のうち1つを通じてネットワーク215または225を介して送られ、または音声入力装置230から直接送られる。入力音声に応答して、端末110〜150は、様々な音声認識/端末アプリケーションを実行する。
音声認識システム300は、入力音声を受け取り、音声認識結果を入力端末/装置に提供する。
音声認識システム300は、音声データベース310を含むことができ、または音声データベース310に接続することができ、音声データベース310は、トレーニング・データ、音声モデル、メタデータ、音声データおよびその真のトランスクリプション、言語/発音モデル、アプリケーション特有のデータ、話者情報、様々なタイプのモデルおよびパラメータなどを含む。次いで音声認識システム300は、最適なワード・シーケンスを認識出力として提供し、またはワード・シーケンス仮説のラティスを、対応する信頼スコアと共に提供することができる。本発明の様々な例示的態様によれば、ラティスは、複雑なトポロジを有することができるグラフによる1組の仮説のサマリを含む複数の実施形態を有することができる。グラフがループを含む場合、その1組の仮説は無限となる可能性があることを理解されたい。
上記で論じたように、上記の例示的実施形態は、特定の実施形態での音声処理システム1000を記述するが、音声処理システム1000は、音声処理の技術分野で周知のどんなシステムでもよい。したがって、当業者に周知の様々なトポロジおよびプロトコルとして音声処理システム1000を構成することができ、音声処理システム1000がそうしたトポロジおよびプロトコルを含むことができることが企図される。
例えば、図1では4つの端末(部分的には2つの端末)と1つの音声入力装置しか示していないが、本発明の様々な例示的態様は、何らかの特定の数の端末や入力装置に限定されない。したがって、本発明では、任意の数の端末および入力装置を適用できることが企図される。
図2に、本発明の例示的態様を実施する例示的音声認識システム300を示す。図2に示すように、音声認識システム300は、スピーチ・プロセッサ(音声プロセッサ)320、記憶装置340、入力装置360、および出力装置380を含み、それらすべてがバス395で接続される。
動作の際には、音声認識システム300のプロセッサ320は、端末110〜150または音声入力装置230のユーザから、入力装置360を通じて、未知の発話、呼出し元IDなどのメタデータ、話者の性別、チャネル状態などを含む着信音声データを受け取る。次いでスピーチ・プロセッサ320は、記憶装置340に格納された、またはデータベース310から入力装置360を通じて受け取った適切なモデルに基づいて音声認識を実施する。次いでスピーチ・プロセッサ320は、出力装置380を通じて、要求側端末110〜150または音声入力装置230のユーザあるいは(ユーザが話したことに対して適切な行動を実施することができる)コンピュータ・エージェントに向けて認識結果を送る。
図2には特定の形態の音声認識システムを示すが、他のレイアウトも可能であり、本発明の様々な態様がそのようなレイアウトに限定されないことを理解されたい。
上記の例示的実施形態では、スピーチ・プロセッサ320は、メモリ340またはデータベース310に格納されたデータに基づいて認識結果を提供することができる。しかし、本発明の様々な例示的態様がそのようなレイアウトに限定されないことを理解されたい。
図3に、本発明の例示的態様を実施する例示的スピーチ・プロセッサ320を示す。図3に示すように、スピーチ・プロセッサ320はデコーダ322を含む。デコーダ322は、対数線形モデルを使用する音声認識に関連する言語単位の事後確率(posterior probability)を使用して、未知の発話(utterance)の認識を実現する。すなわち、デコーダ322は、求めた確率から、最高の確率を有する最適なワード・シーケンスを求め、そのワード・シーケンスを認識出力として出力する。デコーダは、可能な仮説のラティス(lattice)を取り除いて、探索スペースを制限し、計算時間を削減することができる。
デコーダ322はさらに、トレーニング用の音声データとその真のトランスクリプションを格納するトレーニング・ストレージ325と、トレーニング・オペレーションから得られるモデル・パラメータを格納するモデル・ストレージ327とに接続される。
図4に、図3のデコーダをより詳細に示す。図4に示すように、デコーダ322は、特徴抽出器3222、対数線形機能3224、および探索装置3226を含む。
動作の際には、トレーニング・オペレーションの間、トレーニング・データが、真のワード・トランスクリプションと共に、トレーニング・ストレージ325からデコーダ322に入力され、デコーダ322では、音声認識オペレーションの間に使用されるモデル・パラメータが生成され、モデル・ストレージ327に出力される。音声認識オペレーションの間、未知の音声データが、トレーニング・オペレーションの間にモデル・ストレージ327に格納されたモデル・パラメータと共にデコーダ322に入力され、最適なワード・シーケンスが出力される。
図3〜4に示すように、トレーニング・オペレーションの間、トレーニング・データが、メタデータ(meta-data)と、真のトランスクリプションから構成することができ、通常は単語であるが、句、シラブル、音素、音響音声特徴、サブフォンなどのその他の言語単位とすることもできる真理要素325からの真理(truth)と、必須ではないが、場合によっては、真のトランスクリプション中の言語単位を音声の対応する分節(segments)と整合させるタイム・アライメントと共に、特徴抽出器3222に入力される。すなわち、真理の最大尤度を求めるためにトレーニング・オペレーションが実施される。特徴抽出器3222は、多数の抽出要素を使用して、入力データから多数の特徴を抽出する。本発明の様々な例示的態様によれば、有利には、特徴は、非同期の特徴、重複する特徴、統計的に非独立な特徴などとすることができることを理解されたい。抽出要素は、限定はしないが、直接合致要素(directmatching element)、同期音声要素(synchronous phonetic element)、音響音声要素、言語意味語用論特徴要素(linguisticsemantic pragmatic features element)などを含む。
例えば、例示的な直接合致要素は、データベース中の様々な基準音声分節に対して、動的タイム・ワーピング・スコアを計算することができる。同期音声特徴は、メル・ケプストラム特徴などの伝統的な特徴から導出することができる。音響音声特徴は、ボイシング、節点などの言語示差的特徴(linguistic distinctive feature)を含む非同期特徴でよい。
本発明の様々な例示的実施形態によれば、こうした特徴抽出器のいずれも、完全に正確である必要がないことを理解されたい。特徴は、特定のワード・シーケンス仮説、例えば意味的または構文的パース・ツリー、語用論的(pragmatic)または意味的(semantic)コヒーレンスから抽出された、より高レベルの情報も含むことができる。特徴は、話者情報、発話速度、チャネル状態などのメタデータでもよい。
次いで、抽出された多数の特徴が対数線形機能3224に提供され、対数線形機能3224は、抽出された特徴と、場合によっては音声データに対する言語単位の特定のタイム・アライメントとが与えられた場合に、対数線形モデルのパラメータを使用して、仮定される言語単位またはシーケンスの事後確率を計算することができる。トレーニング・プロセスの間は、正しいワード・シーケンスは既知である。例えば、正しいシーケンスは、音声を文字化する人間によって作成される。しかし、発音の別形などのために、ワード・シーケンスを構成する複数の有効な言語単位の選択肢、例えば音素(phoneme)が存在する。すべての有効なシーケンスは、ラティスとしてコンパクトに表すことができる。加えて、音声に対する任意の特定の単位シーケンスの真のタイム・アライメントは、既知であることもそうでないこともある。トレーナ(図示せず)は、抽出された特徴、正しいワード・シーケンス、または言語単位シーケンスを、場合によっては音声に対するタイム・アライメントと共に使用し、対数線形モデルのパラメータを最適化する。
したがって、トレーニングの間、対数線形出力を探索装置3225に提供することができ、探索装置3225は、より良好な言語単位シーケンスの選択肢、および音声に対する言語単位シーケンスのより正確なタイム・アライメントを改善し、提供することができる。次いでこの新しいアライメントをFEEDBACKとして特徴抽出器3222にループバックし、2回目としてプロセスを反復し、モデル・パラメータを最適化することができる。人間の注釈または隠れマルコフ・モデル技術によって初期タイム・アライメントをブートストラップすることができることを理解されたい。したがって、最大尤度に対応するモデル・パラメータがトレーニング・モデル・パラメータとして求められ、モデル・データ要素327に送られ、モデル・データ要素327では、後続の音声認識オペレーションのために格納される。
本発明の様々な例示的実施形態では、対数線形モデルが、改良反復スケーリング、反復スケーリング、前処理付き共役勾配(preconditioned conjugate gradient)などを含むいくつかのアルゴリズムのうちいずれか1つを使用してトレーニングされる。トレーニングの結果として、何らかの制約を受ける最大尤度や最大エントロピーなどの何らかの基準の点から、モデルのパラメータが最適化される。トレーニングは、特徴抽出器によって提供される特徴、正しい言語単位シーケンス、および音声に対する対応するタイム・アライメントを使用するトレーナ(図示せず)によって実施される。
例示的実施形態では、現況技術の隠れマルコフ・モデル認識システム(図示せず)で前処理して、特徴を抽出し、ターゲットの単位シーケンスを整合する。例えば、隠れマルコフ・モデルを使用して、音声フレームを最適のサブフォン状態シーケンスに整合し、最高位のガウシアンを求める。すなわち、隠れマルコフ・モデル内では、所定の音声フレームに対する最良のマッチであるメル・ケプストラム特徴などの伝統的特徴のガウス確率モデルが使用される。例示的実施形態では、サブフォン状態シーケンスおよびランク付けガウス・データが、対数線形モデルをトレーニングするのに使用される特徴である。
この例示的実施形態はある特定の実装に過ぎず、対数線形モデルを使用する多数のその他のトレーニングの実施形態を本発明の様々な態様で使用できることを理解されたい。
音声認識オペレーションの間、認識すべき音声データが、メタデータと、場合によっては探索装置3226の現探索スペースを含むラティスと共に、特徴抽出器3222に入力される。このラティスは、隠れマルコフ・モデルに基づく周知の技術によって事前生成することができ、または前の認識のラウンドで生成することができる。ラティスは、探索スペース内で考慮される様々な可能な仮説のスコア/確率の現在の組のコンパクトな表現である。次いで特徴抽出器3222は、多数の抽出要素を使用して入力データから多数の特徴を抽出する。本発明の様々な例示的態様によれば、特徴は、非同期の特徴、重複する特徴、統計的に非独立な特徴などでよいことを理解されたい。抽出要素は、限定はしないが、直接合致要素、同期音声要素、音響音声要素、言語意味語用論特徴要素などを含む。次いで、抽出した多数の特徴が、対数線形機能3224に提供される。
すべての可能なワード・シーケンスのうち最適なワード・シーケンスを求めるために探索装置3226が設けられる。例示的実施形態では、探索装置3226は、可能性の低いワード・シーケンスを除くことにより、最も見込みのある候補に探索を限定する。探索装置3226は、その他の単位シーケンスの全ワードまたは一部のワードの尤度について対数線形機能3224に照会する。探索装置3226によって考慮される探索スペースは、スコア/確率と共に、考慮中の仮説のコンパクトな表現であるラティスとして表すことができる。このようなラティスは、探索スペースを抑制する探索装置への入力とすることができ、または作業が探索装置3226によって行われて、ラティス中の確率が更新され、または可能性の低い経路が除かれた後の出力とすることができる。有利には、探索装置3226は、ダイナミック・レンジ補償後の線形補間など非対数線形式に、対数線形機能(log-linear function)3224からの確率/スコアを、言語モデル、隠れマルコフ・モデルなどのその他のモデルからの確率/スコアと組み合わせることができる。しかし、言語モデルおよび隠れマルコフ・モデル情報は、対数線形機能3224で組み合わされる特徴とみなすこともできる。
探索装置3226の出力は、探索スペース中のすべての仮説の中で最高の事後確率を有する最適なワード・シーケンスである。出力は、コンピュータ・エージェントが使用してさらなるアクションを起こすことができる非常に可能性の高い仮説の非常に切り詰められたラティス(highly pruned lattice)も出力することができる。Nベスト・リストが、非常に切り詰められたラティスの一例である。探索装置3226は、更新後のスコアおよび場合によってはアライメントを有するラティスを出力することもできる。そのラティスを特徴抽出器3222および対数線形機能3224にフィードバックして、スコア/確率を改善することができる。本発明の様々な例示的実施形態によれば、この最後のステップは任意選択でよいことを理解されたい。
上記の例示的実施形態で論じたように、本発明の例示的態様の音声認識システムでは、理論的には語彙中の単語の任意のシーケンスからなる探索スペース内に多数の可能なワード・シーケンスが存在し、その結果、効率的な探索オペレーションがデコーダ322によって実施され、最適なワード・シーケンスが得られる。図4のフィードバック・ループに示すように、最初のパスで粗いモデルを使用してラティス、または最高の仮説のリストを生成することができ、かつ後続のパスでより改善されたモデルを使用してループバックおよび再スコアすることができる場合、シングル・パス復号化またはマルチプル・パス復号化を適用することができることを理解されたい。
マルチプル・パス復号化では、ラティス中の各ワード・シーケンスの確率が評価される。特定の各ワード・シーケンスの確率は、その構成要素サブフォン状態シーケンスの最良のアライメントの確率に関係付けることができる。本発明の様々な実施形態による任意の様々なアライメント・プロセスで、最適に整合した状態シーケンスを見つけることができ、本発明は何らかの特定のアライメントに限定されないことを理解されたい。
最高の確率を有するワード・シーケンスの選択が、単語認識を実施するための新しいモデルを使用して行われる。
本発明の様々な例示的実施形態によれば、様々なモデルからの確率を、本発明の様々な例示的実施形態の対数線形モデルからの確率とヒューリスティックに組み合わせることができることを理解されたい。具体的には、ダイナミック・レンジ補償後の線形補間により、伝統的な隠れマルコフ・モデル尤度スコアおよび言語モデル・スコアを含む複数のスコアを、本発明の様々な例示的実施形態の対数線形モデルからの確率スコアと組み合わせることができる。
本発明の様々な例示的実施形態によれば、探索装置3226は、様々なシーケンスのスコア/確率を求める際に、反復的に対数線形機能3224に照会(consult)する。ラティスは、探索装置3226によって照会され、何の仮説を考慮するかが決定される。ラティス中の各経路は、ワード・シーケンスに対応し、ラティス中に格納された関連する確率を有する。
本発明の上述の例示的実施形態では、対数線形モデルが、多数の音声特徴が与えられた場合に、仮説の事後確率に基づいて求められる。対数線形モデルにより、統一された仕方での、複数の特徴の潜在的な組合せが可能となる。例えば、非同期の特徴および重複する特徴を公式に組み込むことができる。
単純な例として、一続きの音が与えられた場合に、事後確率を、仮説に関連するシーケンスの確率として表すことができる。
Figure 0004195428
上式で、
は、一続きのワード・シーケンス(またはその他の言語単位)
Figure 0004195428
を含むj番目の仮説であり、
iは、i番目の単語(または単位)を指すインデックスであり、
kは、仮説中の単語(単位)数であり、
Tは、音声信号の長さ(例えばフレーム数)であり、
Figure 0004195428
は、仮説Hに関連する単語のシーケンスであり、
Figure 0004195428
は、音響観測値のシーケンスである。
上記の式(1)では、条件付き確率を最大エントロピー対数線形モデルによって表すことができる。
Figure 0004195428
上式で、
λは対数線形モデルのパラメータであり、
は、抽出した多数の特徴であり、
Zは、式2が真の確率であることを保証する規格化因子(normalizationfactor)である(合計すると1になる)。規格化因子は条件付き変数の関数である。
上記の例示的実施形態に示すように、本発明の様々な例示的態様によれば、図1〜4に示す音声認識システムは、対数線形モデルを使用して、音声認識に関連する言語単位の事後確率をモデル化する。上記で示したように、事後モデルは、観測された音声特徴と事後モデルのパラメータが与えられた場合、言語単位の確率を取り込む。したがって、多数の音声特徴が与えられた場合、事後モデルを使用して、ワード・シーケンス仮説の確率を求めることができる。
上記の表現は単なる一例であること、および本発明の様々な態様によれば、無数の変形形態を適用できることを理解されたい。例えば、シーケンス
Figure 0004195428
はワード・シーケンスである必要はなく、発話分に関連する句、シラブル、音素、サブフォン単位などのシーケンスでもよい。さらに、本発明の様々な態様のモデルを様々なレベルの言語的階層に適用することができること、および特徴fが、同期と非同期、独立と重複、相関と非相関、分節的と超分節的(suprasegmental)、音響的音声的、階層型言語的、メタデータ、より高レベルの知識などを含む多数の可能性を含むことができることを理解されたい。
本発明の様々な例示的態様に従ってモデル化することにより、使用される音声特徴は、非同期音声特徴、重複する音声特徴、および統計的に非独立な音声特徴を含むことができる。
本発明の様々な態様では、以下の特性を有する関数fの関数として特徴を定義することができる。
Figure 0004195428
上式で、
Figure 0004195428
は、確率が左右されるすべてのものを表し、状況および観測値を含むことができ、
bは、条件付き事象のある特性を表す二値関数であり、wは、単語などのターゲット(または予測される)状態/単位であり、
αは関数の重みである。
すなわち、特徴は、文脈および観測値に左右される計算可能な関数であり、特定の文脈/観測値および特定の予測、例えばwに対してファイアし、またはアクティブとなると考えることができる。
関数の重みは1または0に等しくすることができ、または実数値とすることができることを理解されたい。例えば、例示的実施形態では、重みは、特性が音声信号内で検出された否かについての信頼度、または特性の重要度に関係付けることができる。
本発明の様々な例示的態様によれば、デコーダ322からのラティス出力は、複数のスコアからなる可能性がある。例えば、上位の所定の数のマッチのスコアを得ることができる。加えて、隠れマルコフ・モデル・デコーダから得られた隠れマルコフ・モデル・スコアや、単語とシラブルと異音などの動的タイム・ワーピングの様々なマッチ・レベルに関するスコアなどの情報を含む他のデータを探索装置3226で使用することができる。
様々なスコアを組み合わせる例示的方法は、対数線形モデルを使用し、次いで対数線形モデルのパラメータをトレーニングすることである。
例えば、経路Hの事後確率に関する対数線形モデルは、様々なスコアの一次結合の和の指数関数によって与えることができる。
Figure 0004195428
上式で、
wjは、単語wによって埋められる分節に対するj番目のスコア特徴である。例えば、様々な周知の動的タイム・ワーピングおよび隠れマルコフ・モデル技術(図には明示的に示さず)によって得られる上位10個の動的タイム・ワーピング・スコアおよび隠れマルコフスコアが返される場合、ラティス中の各単語について11個のスコア特徴が存在することになる。
Zは、指数関数項のすべての経路(H1..3)にわたる和によって与えられる規格化定数Zであり、
Figure 0004195428
式(4)が真の確率、すなわち合計して1となるよう保証するのに必要である。
トレーニング・データに対して生成されるラティスについて、正しい経路の尤度を最大にすることにより、すなわちすべてのトレーニング・データにわたって仮説の確率を最大にすることにより、パラメータαを推定することができる。
上記の実施形態は単に例示的な実施形態に過ぎないこと、および階層的分節化(hierarchicalsegmentation)が使用可能であるので、シラブル特徴および異音(allophone)特徴を加えることによって上記の式(4)を修正することができることを理解されたい。重みパラメータαは、それ自体依存関係を有することができる。例えば、重みパラメータαは、単語長の関数とすることができ、またはその単語/シラブル/音などについてのトレーニング・サンプル数の関数とすることができる。
さらに、それぞれ経路Hおよび音響観測値シーケンス
Figure 0004195428
の関数である一般的特徴の重み付き和である指数を有するように式(4)をさらに一般化できることを理解されたい。
さらに、「非言語的(non-verbal)情報」(テストおよびトレーニング・シーケンスは同一の性、同一の話者、同一の雑音状態、同一の音声文脈などによるものかどうかなど)を表す他の特徴もこのフレームワークに含めることができること、および本発明の様々な例示的態様が上述の実施形態に限定されないことを理解されたい。
他の例示的実施形態では、個々のワード・スコアFwj自体を、対数線形モデルからの事後ワード確率となるように取ることができる。対数線形モデルは、多数の特徴を使用した場合であっても極めて容易に計算することができる。特徴の例は、動的タイム・ワーピング、隠れマルコフ・モデルなどである。
本発明の例示的態様によれば、任意の所与の検出された特徴の組を最大限利用するために、存在しない特徴についての仮定を利用せずに、対数線形モデルが使用される。すなわち、トレーニング・オペレーションと検査オペレーションで同一の特徴の組を必要とする隠れマルコフ・モデルなどの他のモデルとは対照的に、対数線形モデルは、未観測の特徴についての仮定を作成せず、その結果、ある特徴が、例えばノイズマスキングのために観測不能である場合、対数線形モデルは他の利用可能な特徴を最大限利用する。
本発明の例示的態様によれば、音声認識システムは、既知のモデルを対数線形モデルと共にトレーニングすることにより、既知のモデルを最大限利用することができ、既知のモデルを使用して第1ラティス、アライメント、または復号化を得、本発明の対数線形モデルと組み合わせることができる。
本発明の様々な例示的実施形態によれば、隠れマルコフ・モデルで広く使用されるメル・ケプストラム特徴などのスペクトル特徴のガウス分布の重みつき組合せを含み、音声分節をトレーニング・データの大規模コーパスに整合させる伝統的ガウス混合モデルにおいて、多数の可能な特徴の中で、伝統的な短時間スペクトル特徴に対する最良のマッチであるガウシアンの識別を利用する対数線形モデルが提供される。
本発明の様々な例示的態様によれば、トレーニングで使用されるすべての特徴が検査/認識オペレーションで現れる必要がないなどの利点が得られる。すなわち、対数線形モデル以外のモデルでは、トレーニングのために使用される特徴が検査で現れない場合、「不整合条件」が得られ、性能が貧弱となる。したがって、対数線形モデル以外のモデルを使用する結果として、トレーニングで使用される一部の特徴が雑音によって不明瞭となり、それがテスト・データ中に存在しない場合、しばしば障害が起こる。
図5に、本発明の様々な例示的態様によるデータ・トレーニングの方法の流れ図を示す。ステップ5000で開始して、制御はステップ5100に進み、ステップ5100でトレーニング・データおよびメタデータがデコーダに入力される。このデータは、格納された真理を含めて、通常はトレーニング・ストレージであらかじめ収集され格納された音声データを含む。メタデータは、話者の性別または識別、記録チャネル、話者のプロフィールなどの情報を含むことができることを理解されたい。真理は、一般に、文字化する人間によって作成された真のワード・シーケンス・トランスクリプションから構成することができる。次にステップ5200では、モデルがデコーダに入力される。このモデルは、モデル・ストレージにあらかじめ格納された一般的モデルである。次いでステップ5300では、あらかじめ格納されたラティスが入力される。次いで制御はステップ5400に進む。
ステップ5400では、多数の特徴が抽出され、探索が実施される。これらの特徴は、メル・ケプストラムや時間導関数などの伝統的スペクトル特徴から導出された特徴、ボイシング、節点などの音響音声または発語特徴、音声分節に対する動的タイム・ワーピング・マッチからのスコア、特定のワード・シーケンス仮説、例えば意味的または構文的パース・ツリーから抽出されたより高いレベルの情報、語用論的または意味的コヒーレンスなど、発話速度およびチャネル条件などを含む。このステップで抽出される特徴の一部は、このプロセスで更新される対数線形またはその他のモデルを含むことができることも理解されたい。
このステップでは、スコア、目標関数、補助統計を有するラティスが、本発明の様々な例示的実施形態による対数線形機能を使用して求められる。複数のモデル、すなわち全スコアを与える対数線形モデルならびに特徴抽出のために使用される任意のその他のモデルがこのプロセスでトレーニングされるために、複数の目標関数がこのステップで計算されることを理解されたい。トップ・レベル目標関数は、最大化すべき合計事後尤度である。特徴抽出器に対して複数のタイプの目標関数が存在することができることを理解されたい。様々な例示的実施形態では、こうしたタイプの目標関数は、事後尤度、直接尤度、距離などを含む。
このステップでは、真のワード・シーケンス・トランスクリプションと一致する様々な単位シーケンス仮説が、その対応するタイム・アライメントと共に調査され、部分的シーケンスおよび全シーケンスの確率が求められる。切り詰められた組合せ結果により、スコアを有する更新後ラティスが求められる。
本発明の様々な例示的態様によれば、このステップで計算される補助統計は、勾配関数と、補助関数技法を使用する最適化に必要な他の統計を含むことを理解されたい。
次にステップ5500では、目標関数が最適に十分近いか否かが判定される。目標関数または勾配の増加に関するしきい値を含む、最適性のための複数のテストが存在することを理解されたい。最適性に達していない場合、制御はステップ5600に進み、ステップ5600では、モデルが更新され、次いで制御はステップ5200に戻る。ステップ5600では、補助統計を使用してモデルが更新される。限定はしないが、準ニュートン(quasi-Newton)・グラジエント・サーチ、一般化反復スケーリング、および拡張バウム・ウェルチ(extendedBaum-Welch)、および期待最大化を含む、モデルを更新するための複数の方法が存在することを理解されたい。
効率的な実装は、反復でパラメータのサブセットだけを更新することができ、したがってステップ5400では、実施する必要があるのは限定された計算だけである。この制限は、単一の特徴抽出器を更新することだけを含むことができる。
最適性に達した場合、制御はステップ5700に進み、ステップ5700では、モデル・パラメータが出力される。ステップ5800では、プロセスが終了する。
図6に、本発明の様々な例示的態様による音声認識のための方法の流れ図を示す。ステップ6000で開始して、制御はステップ6100に進み、ステップ6100では、テスト・データがデコーダに入力される。本発明の様々な例示的実施形態によれば、このテスト・データは、リモート端末のユーザから電話またはデータ・ネットワークを介して受信され、または音声入力装置のユーザから受信される。このデータは、話者の性別または識別、記録チャネル、話者のプロフィールなどのメタデータも含むことができる。次にステップ6200では、モデルが入力される。このモデルは、トレーニング・オペレーション中にモデル・ストレージ327に格納される。次いでステップ6300では、あらかじめ格納された仮説ラティスが入力される。次いで制御はステップ6400に進む。
ステップ6400では、多数の特徴が抽出され、こうした特徴の対数線形モデルを使用して探索が実施される。こうした特徴は、伝統的なスペクトル特徴から導出された特徴を含む。このステップで抽出される特徴の一部は、対数線形またはその他のモデルを使用して求めることができることも理解されたい。
このステップでは、様々な単位シーケンス仮説とその対応するタイム・アライメントが調査され、部分的シーケンスおよび全シーケンスの確率が求められる。このステップでのこの探索は、前の入力ラティスによって抑制されることを理解されたい。切り詰められた組合せ結果により、スコアを有する更新後ラティスが求められる。この更新後ラティスの特定の実施形態は、単一の最も可能性の高い仮説とすることができることを理解されたい。
次に、ステップ6500では、別のパスが必要であるか否かが判定される。別のパスが必要である場合、制御はステップ6200に戻る。後続のパスで使用される特徴およびモデルは変化する可能性があることを理解されたい。ステップ6400でのラティス出力は、ステップ6300での入力ラティスとして使用することができる。そうではなく、追加のパスが不要である場合、制御はステップ6600に進み、ステップ6600では、最適なワード・シーケンスが出力される。すなわち、最高のスコアを有するラティス中の仮説に対応するワード・シーケンスが出力される。代替実施形態では、ラティスが出力されることを理解されたい。
次いで制御はステップ6700に進み、そこでプロセスは終了する。
本発明の上記の説明は、例示および説明のために提示したものである。この説明は網羅的なものではなく、開示の厳密な形態に本発明を限定するものでもなく、上記の教示に照らして、その他の修正形態および変形形態が可能である。したがって、開示の実施形態は、本発明の原理およびその実際的応用例を最も良く説明し、それによって他の当業者が、企図される特定の使用法に適するように、様々な実施形態および様々な修正形態として本発明を最良に利用することが可能となるために選び、説明した。従来技術によって限定される範囲を除いて、添付の特許請求の範囲が本発明のその他の代替実施形態を含むと解釈すべきものとする。
本発明の例示的態様を実施する例示的音声処理システムを示す図である。 本発明の例示的態様を実施する例示的音声認識システムを示す図である。 本発明の例示的態様を実施する例示的スピーチ・プロセッサを示す図である。 本発明の例示的態様を実施する例示的デコーダを示す図である。 本発明の例示的態様によるデータ・トレーニングに関する流れ図を示す図である。 本発明の例示的態様による音声認識に関する流れ図を示す図である。
符号の説明
110 端末
120 端末
140 端末
150 端末
210 電話システム
215 ネットワーク
225 ネットワーク
220 音声移送システム
230 音声入力装置
300 音声認識システム
310 音声データベース
320 スピーチ・プロセッサ
340 記憶装置
360 入力装置
380 出力装置
395 バス
1000 音声処理システム

Claims (2)

  1. 数の音声特徴を入力データから抽出可能な特徴抽出器と、
    前記特徴抽出器が抽出できた複数の音声特徴を使って、仮定される言語単位の事後確率を求める対数線形機能と、
    前記対数線形機能に照会し、未知の発話の認識後出力を求める探索装置とを備、 前記音声特徴が、ータベース中の基準音節文節に対して計算した動的タイム・ワーピングのスコアである
    音声認識システム。
  2. 数の音声特徴の抽出を試みるステップと、
    抽出した複数の音声特徴を使って、仮定される言語単位の事後確率を求めるステップと、
    対数線形機能を使用して、未知の発話の認識後出力を求めるステップとを含み
    前記音声特徴が、ータベース中の基準音節文節に対して計算した動的タイム・ワーピングのスコアである
    音声認識方法。
JP2004270823A 2003-11-28 2004-09-17 多数の音声特徴を利用する音声認識 Expired - Fee Related JP4195428B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/724,536 US7464031B2 (en) 2003-11-28 2003-11-28 Speech recognition utilizing multitude of speech features

Publications (2)

Publication Number Publication Date
JP2005165272A JP2005165272A (ja) 2005-06-23
JP4195428B2 true JP4195428B2 (ja) 2008-12-10

Family

ID=34620090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004270823A Expired - Fee Related JP4195428B2 (ja) 2003-11-28 2004-09-17 多数の音声特徴を利用する音声認識

Country Status (3)

Country Link
US (2) US7464031B2 (ja)
JP (1) JP4195428B2 (ja)
CN (1) CN1296886C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074926B1 (en) 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
JP5062171B2 (ja) * 2006-03-23 2012-10-31 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US7788094B2 (en) * 2007-01-29 2010-08-31 Robert Bosch Gmbh Apparatus, method and system for maximum entropy modeling for uncertain observations
US7813929B2 (en) * 2007-03-30 2010-10-12 Nuance Communications, Inc. Automatic editing using probabilistic word substitution models
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US20090099847A1 (en) * 2007-10-10 2009-04-16 Microsoft Corporation Template constrained posterior probability
US7933847B2 (en) * 2007-10-17 2011-04-26 Microsoft Corporation Limited-memory quasi-newton optimization algorithm for L1-regularized objectives
US8296141B2 (en) * 2008-11-19 2012-10-23 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US9484019B2 (en) 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8401852B2 (en) * 2009-11-30 2013-03-19 Microsoft Corporation Utilizing features generated from phonic units in speech recognition
WO2012023450A1 (ja) * 2010-08-19 2012-02-23 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US8727991B2 (en) 2011-08-29 2014-05-20 Salutron, Inc. Probabilistic segmental model for doppler ultrasound heart rate monitoring
US8909512B2 (en) * 2011-11-01 2014-12-09 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses based on an age of a hypothesis
CN102376305B (zh) * 2011-11-29 2013-06-19 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) * 2012-03-08 2014-07-08 Google Inc. Speech recognition process
CN102810135B (zh) * 2012-09-17 2015-12-16 顾泰来 一种药品处方辅助处理系统
US9697827B1 (en) * 2012-12-11 2017-07-04 Amazon Technologies, Inc. Error reduction in speech processing
US9653070B2 (en) 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
WO2014191054A1 (en) * 2013-05-31 2014-12-04 Longsand Limited Processing of audio data
CN103337241B (zh) * 2013-06-09 2015-06-24 北京云知声信息技术有限公司 一种语音识别方法和装置
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
US9529901B2 (en) * 2013-11-18 2016-12-27 Oracle International Corporation Hierarchical linguistic tags for documents
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US10832664B2 (en) * 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
JP6585022B2 (ja) 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
CN108415898B (zh) * 2018-01-19 2021-09-24 思必驰科技股份有限公司 深度学习语言模型的词图重打分方法和系统
JP7137694B2 (ja) 2018-09-12 2022-09-14 シェンチェン ショックス カンパニー リミテッド 複数の音響電気変換器を有する信号処理装置
JP7120064B2 (ja) * 2019-02-08 2022-08-17 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN110853669B (zh) * 2019-11-08 2023-05-16 腾讯科技(深圳)有限公司 音频识别方法、装置及设备
US11250872B2 (en) * 2019-12-14 2022-02-15 International Business Machines Corporation Using closed captions as parallel training data for customization of closed captioning systems
US11705111B2 (en) 2020-11-12 2023-07-18 Samsung Electronics Co., Ltd. Methods and systems for predicting non-default actions against unstructured utterances
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756595A (ja) 1993-08-19 1995-03-03 Hitachi Ltd 音声認識装置
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
WO1999031654A2 (en) * 1997-12-12 1999-06-24 Koninklijke Philips Electronics N.V. Method of determining model-specific factors for pattern recognition, in particular for speech patterns
CN1141696C (zh) * 2000-03-31 2004-03-10 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
DE10106581A1 (de) * 2001-02-13 2002-08-22 Philips Corp Intellectual Pty Spracherkennungssystem, Trainingseinrichtung und Verfahren zum iterativen Berechnen freier Parameter eines Maximum-Entropie-Sprachmodells
JP2002251592A (ja) * 2001-02-22 2002-09-06 Toshiba Corp パターン認識辞書学習方法
DE10119284A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
US6687690B2 (en) * 2001-06-14 2004-02-03 International Business Machines Corporation Employing a combined function for exception exploration in multidimensional data
JP3919475B2 (ja) 2001-07-10 2007-05-23 シャープ株式会社 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
US7324927B2 (en) * 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074926B1 (en) 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal

Also Published As

Publication number Publication date
US7464031B2 (en) 2008-12-09
JP2005165272A (ja) 2005-06-23
US20080312921A1 (en) 2008-12-18
CN1296886C (zh) 2007-01-24
CN1622196A (zh) 2005-06-01
US20050119885A1 (en) 2005-06-02

Similar Documents

Publication Publication Date Title
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP6705008B2 (ja) 話者照合方法及びシステム
CN107810529B (zh) 语言模型语音端点确定
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9911413B1 (en) Neural latent variable model for spoken language understanding
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4274962B2 (ja) 音声認識システム
US10170107B1 (en) Extendable label recognition of linguistic input
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
US20040006469A1 (en) Apparatus and method for updating lexicon
Wang Mandarin spoken document retrieval based on syllable lattice matching
Tabibian A survey on structured discriminative spoken keyword spotting
Benıtez et al. Different confidence measures for word verification in speech recognition
Kurian et al. Automated Transcription System for MalayalamLanguage
Furui Steps toward natural human-machine communication in the 21st century
Khalifa et al. Statistical modeling for speech recognition
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
KR101037801B1 (ko) 부단위 인식을 이용한 핵심어 검출 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060913

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080925

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees