JP4322815B2 - 音声認識システム及び方法 - Google Patents

音声認識システム及び方法 Download PDF

Info

Publication number
JP4322815B2
JP4322815B2 JP2005000506A JP2005000506A JP4322815B2 JP 4322815 B2 JP4322815 B2 JP 4322815B2 JP 2005000506 A JP2005000506 A JP 2005000506A JP 2005000506 A JP2005000506 A JP 2005000506A JP 4322815 B2 JP4322815 B2 JP 4322815B2
Authority
JP
Japan
Prior art keywords
token
node
tokens
likelihood
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005000506A
Other languages
English (en)
Other versions
JP2005215672A (ja
Inventor
ワイド・ホーゲンハウト
キーン・キオン・チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2005215672A publication Critical patent/JP2005215672A/ja
Application granted granted Critical
Publication of JP4322815B2 publication Critical patent/JP4322815B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Description

本発明は、音声認識システム、特に音声テキストシステム及びソフトウエア並びに同システムのための復号装置に関する。
自動音声認識システム(ASR)は、音声をテキストに変換する多くの用途、例えばコンピュータシステムにおけるデジタルディクテーションまたはモダーンカーに設けられるもののような埋め込み式コンピュータシステムの音声命令認識に用いられる。そのようなシステムは音声のような発話のデジタルオーディオ信号を入力として取り込み、オーディオ信号のテキスト変換を出力として供給する。ASRは、制限された資源の使用および低コストが要望される埋め込み式アプリケーションに対して特に問題となる記憶および処理パワーの集中を招く。
音声の短いサンプルを取り込み、それらを音声部分を表す特徴ベクトルに変換し、これらベクトルの列をテキスト単位またはワードの可能な列または連接をマッピングすることによって認識が行われる。このシステムは、テキスト単位列がいかに良く特徴ベクトルに対応するかに依存して一連の特徴ベクトルが与えられた複数のテキスト単位列に対する確率または尤度に関連する。最高確率を持つテキスト単位の特定の列は明らかに音声、即ち特徴ベクトル列の最も有望なテキスト表記である。
代表的なアプリケーションとして乗用車に搭載された音声認識システムがある。このシステムに利用できる有効な資源は1メガバイトRAMおよび1メガバイトROM並びに100MIPS CPUパワーに限定できる。代表的な入力文は“窓を開ける”および“ベーカーストリートを案内する”である。要求された実際の予定地点は(おそらく“CDプレーヤをスタートする”のような数100の短い句を認識するために必要なだけである)小型命令制御システムと何百ものストリート名を認識するために必要とするナビゲーションシステムとの間で大きく異なる。
アプリケーションにより、全ての可能なテキスト単位列(文)集は小さくか非常に大きくできる。言語モデルはアプリケーションにおいて意味をなす可能なテキスト単位列に関する制約を表す。これは語彙と組み合わされる。この語彙はテキスト単位毎に1以上の発音を含む。言語モデルおよび語彙を用いて復号化ネットワークが構成される。それによってネットワークを介する経路は特定テキスト単位連接の特定の発音に対応する。オーディオモデルは復号化ネットワークを介する任意の経路に尤度値を割り付けるために使用される。これらの値は経路に含まれる発音が実際の特徴ベクトルにどれだけ近いかに依存する。
復号化ネットワークは(他のノードを接続するために寄与するだけである)ヌル(空)ノードのような技術をできるだけ用いて、ノードをアークに接続するネットワークとして経路を表すことによって効率的な方法で(しばしば大きい)数の経路を表す。代表的なネットワークはテキスト単位を表すアークに関するラベルを含み、それによって全ての経路は共に特別の言語領域におけるテキスト単位の全ての有効列、例えば車内音声命令認識システムでの有効命令の全体を表す。そのようなネットワークの中の各ノ ードは特徴ベクトルの一連の観察における1ステップを表す。これは通常1以上の状態と関連するが、上述したように任意の状態にマップしないヌルノードも存在する。観察の尤度を計算できる多次元確率密度関数が1つの状態である。1つの状態はサウンドの多重発生を反映する1経路の複数のノードに、または異なる潜在的発話における同じサウンドを表す異なる経路の複数のノードに関連できる。
どの経路が最も適切であるかを決定するために計算が行われ、多くのアプリケーションでは、これは音声部分のテキスト表記となる。上記の車内命令認識システムにおいては、このとき表記命令が例えばウインドウを開けるためにコ ントローラに入力される。一般的には、この計算はビタビアルゴリズムを用いて行われる。もう一つの方法として、バウムウエルチ(Baum-Welch)(または往復)アルゴリズムが使用できる。これらのアルゴリズムはToken Passing: a simple conceptual model for connected speech recognition systems, by S.J. Young, N.H.Russell, J.H.S. Thornton, Cambridge University Engineering Department, July 31, 1989に記載されているようにトークン受け渡しアルゴリズム(Token Passing algorithms)として定式化できる。
これらアルゴリズムは復号化ネットワークとしてノードと関連するトークンを用いるものとして考えることができ、開始ノードからそのノードまでの最良部分経路を表す。各トークンは(論理)データ構造であり、メモリに記憶され、テキスト単位あるいはそのノードに導く最良部分経路に対応するワード履歴と対応する。また、トークンはワード履歴のための尤度“スコア”で成る。
多くのアプリケーションでは、N−最良ワード列が必要となる。例えば、ユーザまたは話者が最良または最高尤度列が正しくないことを示し ている場合、次の最良または第2の最高尤度列が代替えとして与えられ、Nまで同様に行われる。N−最良列では、最良経路だけでなく各ノードまでのN−最良経路を記憶しなければならない。アルゴリズムはN個のワード履歴を含むようにトークンを拡張することによってこれを取り扱いことができ、尤度またはスコアをそのような各ワード履歴に関連づける。各ノードまでのN最良経路を維持するためのもう一つの理由は統計的言語モデルの使用にある。このモデルはトークン内の尤度に追加できる。テキスト単位としてワードを使用し、最新の3つのワードを考慮する特別のケースでは、これは三重文字言語モデル(trigram language mode)として知られている。その場合、必要ならばまだ代替え列をアプリケーションに与えることができる。
これらのアルゴリズムでは、第1トークンがエンプティワード履歴で作られ、開始ノードと関連する。この後、新特徴ベクトル毎に、各トークンはネットワークエリアを介して到達できる全てのノードにコピーされる。“セルフループ(self-loop)”アークもある。これらは自らノードを接続し、ある時間トークンをノードに残すことを効果的に可能にする。各尤度はその状態となる特徴ベクトルの尤度で更新され、また次のノードに導くアークと関連する推移確率によっても更新される。等しいワード履歴を有する2個以上のトークンが合致すると、最高尤度(ビタビ)またはコンビネーションのいずれかが使用される(ボウムウエルチ)。異なるワード履歴を有する2個以上のトークンがあると、最良の1つが選択される(1−最良)か、または2つのトークンからN最良を反映するものを種々のワード履歴から選択する。
ネットワークを通しての処理は所定終端ノードに到達した後、あるいは例えば音声部分の終端に対応するある期間後に停止してもよい。うまくいけば、終端ノードと関連するトークンは終端ノードに導く経路の内の前記の一連のノードまたは各一連のノードに対応する尤度スコアを含む。
おそらく何千ものノードおよびより多い可能経路を含む実際のネットワークにおいては、これはメモリ空間およびCPU要件に対する意味を有する。種々の技術がトークン受け渡し処理に利用される処理および/またはメモリ資源量を軽減するために使用される。例えば、その列と関連する他の処理は処理パワーおよびメモリ空間を解放するために中止できるようにほとんどありそうもない列に対応するトークンを削除するために使用される。
これら存在する技術によってさえ、ASRシステムは大きな処理パワーおよびメモリ資源を必要とする。このことは、プロセッサおよび/またはメモリ資源を最小にする要望がある場合に車内音声命令認識システムのようなより小さい埋め込み型アプリケーションにおいて特に問題である。
一局面における一般条件では、この発明は、音声部分に対応する一連の特徴ベクトルを受け、N個の最も有望な結果、または複数の所定のカテゴリにおける最良の結果、あるいは多数の所定のカテゴリの各々におけるN個の有望な結果の近似を出力する。復号装置は確率密度関数に対応するノードのネットワークを用いる。これらノードはシステムの言語領域におけるテキスト単位の有効列に対応する経路に接続される。復号装置は特徴ベクトル列をマッピング毎に尤度値とともにノード経路または列にマッピングし、一組の所定のカテゴリの各々において最高尤度スコアを有するノードのN個のシーケンスを決定することによってテキスト単位のN個の最も有望なシーケンスを計算する。この計算は遅延結合メカニズムが用いられるトークン通過方法を用いて行われる。2つのトークンからのワード履歴および関連尤度値を新たな“交差ノード”トークンにマージングする代わりにこれらワード履歴および関連尤度値に対するポインタまたは識別子が新たなトークンと関連する。
これは、(ワード履歴を新トークンと関連ずけることを決定する)マージオペレーションを後に、例えばネットワーク処理が停止したときに行うことを可能にし、それ故に全く尤度がなく、かつ全くN−最良とならない結果となるトークンと関連するマージオペレーションを行わなければならないことを回避する。マージングはトークンのワード履歴が認識されたワードまたは認識される予定のワードによって拡張しなければならないことを復号装置が決定するときのような他の状況において必要となる。
剪定と組み合わされるときに、この遅延マージング技術は、低尤度の経路がワード認識、故にマージングの要求前にうまく剪定されるので実質的に計算を減少する。
トークンが一度終端ノードに到達すると、関連ワード履歴がワード履歴を記憶しているデータ構造から検索できる。
故に、この復号装置配置により処理パワーが節約され、また遅延しないときマージオペレーションの結果を記憶する必要がないのでメモリを節約できる。
特に一局面では、本発明は、所定の基準に従って、音声部分に対応する1以上の候補テキスト単位連接を決定するための自動音声認識シス テムの復号装置を提供する。復号装置は音声部分に対応する一連の特徴ベクトルを受ける手段と、異なる尤度値によって特徴ベクトルを、復号化ネットワークにおける各列がテキスト単位連接を表す複数のノード列にマッピングする手段と、各トークンが1つのノードに対応し、複数のテキスト単位連接およびこれら連接の尤度値と関連するダイ ナミックプログラミングトークン受け渡しアルゴリズムを実行することによって候補テキスト単位連接に対応する復号化ネットワークにおける1以上の候補ノード列を決定する手段とを具備する。復号化ネットワークにおける1つのノードと関連するトークンは該ネットワークにおける先のネットワークと関連するトークンから抽出される。共通ノードに送るべき異なるノードからのトークンは共通ノードに対応し、テキスト単位連接および異なるノードの先のトークンと関連する尤度値に対する識別子と関連する新トークンを生成するために組み合わされる。
この復号装置配置によって、テキスト単位連接および他の先のノード/トークンにおけるそれらの尤度値に識別子を与えることによって幾つかのマージを遅延できる。
複数の候補テキスト単位連接はN−最良尤度値を備えるテキスト単位連接、および/または複数のカテゴリで、例えば複数の特定のノイズレベルで最良尤度値を備えたテキスト単位連接とすることができる。
カテゴリ化が採用される場合、トークンは各々が1つのテキスト単位連接に対応している複数のカテゴリマーカに関連しているのが好ましい。各カテゴリマーカは前記カテゴリの1つに関連づけられている。
マッピング手段はオーディオモデルおよび言語モデルで構成することが好ましい。オーディオモデルはヒッデンマルコフモデル(Hidden Markov Model)であることが好ましい。
ダイナミックプログラミングトークン受け渡しアルゴリズム(dynamic programming token passing algorithm)はビタビアルゴリズムであることが好ましいが、それは例えばボームウエルチアルゴリズムであってもよい。
復号装置は剪定閾値未満の尤度値を持つトークンを剪定する手段を更に備えている。これは幾つかのトークンがマージングを必要とする前に剪定されるので必要な処理を減らす。
トークンおよびテキスト単位連接は論理的に分離されたメモリに記憶されることが好ましく、論理的分離リストデータ構造はトークンをそれらのテキスト単位連接または識別子および対応する尤度値と関連するために用いられる。しかしながら、他のメモリアーチテクチャも可能である。
識別子を有するトークンをマージングする手段はトークンを対応する尤度値に応じて先のノードのテキスト単位連接と関連づける手段を備える。
一実施形態では、トークンがマージ閾値を越える尤度値を有すればマージングが行われる。
復号装置は自動音声認識システム、例えばカーユースの音声作動制御または案内システムにおいて実施することが好ましい。
他の局面において、自動音声認識システムにおいて所定の基準に従って音声部分に対応する複数の候補テキスト単位を決定する復号装置を提供する。復号装置は音声部分に対応する一連の特徴ベクトルを受ける手段と、テキスト単位連接を表すシーケンス毎にヒッデンマルコフモデルに基づいたオーディオモデルを用いて、特徴ベクトルと異なる復号化ネットワークにおけるノードの列にマッピングする手段と、各トークンがノードに対応し、複数のテキスト単位連接およびこれら連接の尤度値に関連するダイナミックプログラミングトークン受け渡しアルゴリズムを実行することによって候補テキスト単位連接に対応する復号化ネットワー クにおいて1以上の候補ノード列を決定する手段とにより構成される。復号化ネットワークにおけるノードと関連するトークンは該ネットワー クの先のノードと関連するトークンから抽出される。共通ノードを通過することになる異なるノードからのトークンはマージされ、先のトークンのテキスト単位連接および尤度値に基づいているテキスト単位連接および尤度値に関連し、共通ノードに対応する新トークンを生成する。復号装置はさらに後でマージオペレーションを行うために十分であるインストラ クションを保持する仮構造を作ることによってマージオペレーションを遅らせる手段と、剪定閾値未満の尤度値を有するトークンを剪定する手段とを有する。
特に他の局面では、自動音声認識システムにおいて所定の基準に従って音声部分に対応する複数の候補テキスト単位連接を決定するための復号化方法を提供する。この方法は、音声部分に対応する一連の特徴ベクトルを受け、復号化ネットワークにおいて各々がテキスト単位連接を表す複数のノード列に異なる尤度値でマッピングし、各トークンが個々のノードに対応し、多数のテキスト単位連接およびこれら連接に対する尤度値に関連しているダイナミックプロツラミングトークン受け渡しアルゴリズムを実行することによって前記複数の候補テキスト単位連接に対応する復号化ネットワークにおける複数のノード列を決定する。ノード列におけるノードと関連するトークンは該ノード列における先のノードと関連するトークンから抽出される。共通ノードを通過することになる異なるノード列からのトークンは混合され、テキスト単位連接およびこれらテキスト単位連接と関連する尤度値の識別子と関連し、共通ノードに対応する新トークンを生成する。
また、上記好ましい装置に対応する方法を提供する。
また、これらの方法を実行するためのプロセッサコードを有するコンピュータプログラムを提供する。これは、CDROMのような記憶媒体などの搬送媒体または信号のような伝搬媒体に設けられる。
この実施形態は、発話のデジタルオーディオ信号を入力とし、オーディオ信号のテキスト表記を出力とする自動音声認識システムに用いられる。図1は、そのようなASRシステムの基本構成を示している。一般的にASRシステムは6つの主要な要素を有する。図1の部分をさらに詳細に参照すると、発話のデジタルオーディオ信号はオーディオプリプロセッサによって受信され、そこで一連の特徴ベクトルに変換される。各特徴ベクトルは音声の短いセグメントを表す。有効な変換技術は“HTK Book version 3.2” by S. Young, G. Evermann et al. Cambridge University Engineering Department December 2002に詳しく説明されている。
オーディオプリプロセッサから一連の特徴ベクトルが与えられると、復号装置はASRの他の要素、即ち復号化ネットワーク、オーディオモデル、言語モデルおよび語彙を用いて“最良”テキスト表記を見つけようとする。これは次の3つの文献、即ちL. R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, in Proceedings of the IEEE, 77(2):257-286, 1989; S.J. Young, N.H. Russell and J.H.S. Thornton, “Token Passing: A Simple Conceptual Model for Connected Speech Recognition System”, Cambridge University Engineering Department Technical Report CUED/F_INFENG/TR.38, Cambridge University, 1989; and J.J.Odell, V. Valtchev, P.C. woodland and S.J. Young, “A One-Pass Decoder Design for Large Vocabulary Recognition”, in Proceedings of the DARP A Human Language Technology Workshop, pp. 405-410, March 1995に詳しく説明されている。
復号化ネットワークは現在言語領域の可能な文の集合を表し、“A Frame-Synchronous Network Search Algorithm for Connected Word Recognition”, by C.H. Lee and L.R. Rabiner, IEEE Trabsaction on Acoustics, Speech, and Signal Processing, vol. ASSP-37, no. 11, November 1989にさらに詳しく述べられている。
オーディオモデルは(AM)音声単位、例えばワード、音韻または音節の数学的モデルである。有効なモデル単位は音韻モデルであり、有効なオーディオモデルはヒッデンマルコフモデル(HMM)である。
言語モデル(LM)は特定の言語または領域における可能なワード列に関する制約を表す。それは現在言語領域における文のシンタックスおよびセマンテック構造を得ることを計っている。有効な言語モデルは“Estimation of probabilities in the language model of the IBM speech recognition system”, by N. Arthur, IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-32(4):859-86, August 1984.
サブワードオーディオモデルが用いられれば、そのときには現在言語領域の任意のワードを表す正確なモデルシーケンスを与える辞書が必要となる。音単位オーディオモデル(phone unit Acoustic Model)には、語彙が発音辞書であり、これはワード毎に音韻表記を与える。
復号化問題はAM,LMおよび言語領域の文法によって得られる情報を用いて、(一連の特徴ベクトルの形式で)発話を受ける最良テキスト表記を見つけることである。これは次のように数式化できる。
Figure 0004322815
Figure 0004322815
P(W)は現言語領域における所定のワード列Wの確率であり、それは言語モデルによって与えられる。バイグラム言語モデル(bi-gram Language Model)を使用すれば、P(W)は式2aのように表される。P(O)は全てのワード列に渡って一定であるので通常は無視される。P(O/W)の値はオーディオモデルによって得られる。Hがワード列Wを表すモデルシーケンスH...Hであれば、次式が成り立つ。
Figure 0004322815
上述したように、好ましいオーディオモデルはヒッデンマルコフモデル(HMM)である。この場合、Hは一連のHMM、即ちH...Hの列である。ワードモデルを使用すると、M=N,即ち対応ワード毎に1モデルとなる。音モデルは尤も一般的に使用されるタイプのモデルである。音モデルを使用すると、一般的にはM>Nである。それはワードの音声転写は通常1よりい多い音を含むからである。HMMは図2に示すように有向アークによって接続される状態の集合である。
図2はアークによって相互接続されている1から5までの5つの状態を示している。これらの状態は1以上の音声単位または音韻に対応する。状態1は第1状態であり、状態2、3に発信リンクしている。状態3は自らに発信リンクするともに状態3および4に発信リンクしている。状態3は自らに発信リンクすると共に状態4および5に発信リンクしている。最後に状態4は自らに発信リンクすると共に最終状態5に発信リンクしている。状態間の選択的動きは異なるアクセントおよび音声速度に対応する。故に、例えば特定の音韻をゆっくり発音するか引き延ばす場合に自己に戻ったリンクを用いて状態が繰り返してもよい。
通常、第1および最終状態は非発音状態即ちヌル状態である。名称が意味するようにこれらはどの特徴ベクトルも発生しない状態である。ヌル状態はHMMネットワークにおけるHMM間の接続点として寄与する。ヌル状態を用いると、HMM間のアーク数が減少する。次の説明では、これらヌル状態は復号化処理の結果に影響しないので一般化を失うことなく簡単化のために無視される。
Figure 0004322815
τ=τ1,...,τはO=O,...,OおよびO=Oτm−1+1,...,OτmのようにモデルシーケンスHのための音声部分の1つの可能時間列である。S=Sτm−1+1,...Sτmはモデル Hのための1つの可能状態列である。状態id,S={i,m}はモデルidmと状態数iの両方を示している。Ai,jは状態iから状態jまでの推移確率である。b(O)は特徴ベクトルOを発生する状態jの確率である。P(O,S・H)は式4で定義される。
Figure 0004322815
次の恒等式は式4を簡単化するために用いられる。
Figure 0004322815
また、ヒッデンマルコフモデルは次のように仮定する。
・モデルが特定の特徴ベクトルを発生する確率は前に発生した特徴ベクトルまたは前のヒッデン状態に依存しない。それは現ヒッデン状態に依存するだけである。
・特定のヒッデン状態にある確率は前のヒッデン状態に依存するだけである。
故に、次の恒等式が式4に用いられる。
Figure 0004322815
通常、ビタビ復号化が使用される。この場合、最高尤度を与える時間列および状態列だけを考える。ビタビ復号化のために式3のP(O|H)が式5aに修正される。
Figure 0004322815
s=s,...,sは全発話のための1つの可能な状態列である。計算式5aは実質的にはダイナミックプログラミング問題であり、通常、コンピュータで能率的なビタビアルゴリズムが使用される。
式5aは次のように再定義される。
Figure 0004322815
Tは発話Oのための合計フレーム数である。結果的にP(O|H)が次の定義を用いて再帰的に計算できる
Figure 0004322815
そのようなネットワークの一部が図3に示さ れている。図2の“内部”アークが明確さのために除去された。通常、認識言語領域は(全ての可能ワード列を表す)ワードネットワークを用 いて特定される。ワードレベルネットワークは語彙の音韻表記を用いて、モデルネットワークに拡張される。モデルレベルネットワークは状態レベルネットワークにさらに拡張できる。そのような状態ネットワークのために所定の発話Oの修正表記Wが次式となる。
Figure 0004322815
但し、STARTは初期状態の集合であり、FINAL(H)はモデルシーケンスHの最終状態の集合である場合、((式))が成立する。状態ネットワークにおける全ての最終状態の集合は特定の状態ネットワークによって表される全ての可能ワード列に対応する。各最終状態は複数の有効ワード列と関連する。例えば、図3において、状態7は最終状態であり、状態1は最初の状態である。状態7で終わる状態ネットワークを介する3つの有効経路がある。これらの経路は状態列1257、1357および1387をそれぞれ介して状態ネットワークを辿る。状態6はこの状態ネットワークにおける他の最終状態である。状態列1246である、状態6での終わる1つの経路だけがある。
任意のダイナミックプログラミングアルゴリズム、例えばボウムウエルチが選択的に使用できるが、復号化ネットワーク処理は好ましくはビタビアルゴリズムを用いて行われる。
ダイナミックプログラミングアルゴリズムはS.J. Young, N.N. russel and J.H.S. Thornton, メToken Passing: A simple Conceptual Modelfor Connected Speech Recognition systemモ, Cambridge University Engin eering Department Technical Report CUED/F_INFENG/TR. 38, CAMBRIDTE UNICWEAIRY, 1989に記載されているようなトークン受け渡しアルゴリズムによって遂行されるのが好ましい。
トークンは図4に示されるようにネットワークの各ノードに関連する。トークンは要約または論理データ構造である。この論理データ構造はそれが関連している状態に対する尤度(スコア)およびその状態またはノードに対するテキスト単位の連接(ワード履歴)を含む。通常、ログ尤度は次式(6)を計算するためにコンピュータ的にはより安くなるので記憶される。
Figure 0004322815
時間jでは、状態jに対するトークンはログ(Φj(t))の値を保つ。新たな音声フレーム毎に、復号化ネットワークの全てのトークンは式6を用いて更新される。(Φj(t−1))は時間t−1に状態iに対するトークンにおけるログ尤度であることを留意すべきである。状態iからのトークンは状態jに伝搬され、ログ推移確率log(Ai,j)および現特徴ベクトルlog(bj(Ot))を発生する状態jの確率のログによって更新され、よってトークン受け渡しアルゴリズムの名がある。
時間Tでは、全ての最終状態と関連する一連のトークンから最良ログ尤度を持つトークンが“正確”表記に対応する状態列を表す。最終状態は1以上の状態列と関連できるので、トレースバック(trace back)情報の幾つかの形態が最良トークンを生成した状態列を回復できるように記録される。通常、ワード列だけが表記として必要であ り、それ故にトレースバック情報がワード境界で記録されるだけである。
式6によると、log(Aij)+log(Φi(t-1))に対して最高の値を与える状態からのトークンが選択され、1以上の先の状態を伴う状態のための新たなトークンとなるように更新される。
図5は、トークン伝播または通過の一例を示す。この例では、状態5は先の状態2および3からそれぞれトークンを受ける。状態2および3からのトークンの1つだけが更新のために選択され(ビタビ)、状態5で新たなト ークンとなる。選択されないトークンに関する情報はなくなる。
各トークンは最良表記の特定の仮説を表す。1以上のトークンが同じ状態にあるときに最良ログ尤度を持つ仮説だけがビタビ復号化において選択される。他の全ては破棄される。
N最良表記が要求される場合には、Nの仮説がトークンに維持される。これはN最良復号化と呼ばれ、“Spoken Language Processing-A Guide to Theory, Algorithm, and System Development” by X. Huang, A. Acera, andH.W. Hon., Prentice Hall, Upper Saddle River, New Jersey, USA, ISBN: 0-13-022616-5,2001に詳しく述べられている。このタイプの復号化では、先行状態からのこれらのトークンの各々が異なるワード履歴を記録するのでNベスト先行トークンからのワード履歴情報を保存しなければならない。Nベストワード履歴を保存することによってASRシステムは所定の発話に対するN最良転写を表すワードグラフまたはワード格子を発生できる。
この場合に、新トークンは最良ログ尤度を与えるトークンの単なる更新バージョンではない。理想的には、列における全ての先行状態かのトークンは混合され、N先行トークンからの全ての情報を維持するように新トークンを形成する。N先行トークンからのワード履歴およびスコアを持つ新トークンを生成する処理がトークンマージングと呼ばれる。
このタイプのマージングを維持するために、トークン構造がリストを含むように更新される。リストの各入力は1つの先行トークンからの関連情報を記録する。トークンがマージされると、これらトークンからのリストは図7に示されるように新トークンのための新リストにマージされる、即ち、図7の例では、状態5は先行状態2および3からトークンを受ける。状態2および3の各々は3つの入力を有するリストを持つトークンを有する。状態5に対する新トークンのログ尤度は(推移確率を与えた後)最良先行トークンから取り込まれ、上記のように式6に従って更新される。
通常、リストの入力はログ尤度の大きい順に分類され、リストのサイズが限定される。故に、Nの最良エントリだけが維持される。例えば、図7において、トークンの全てにはリストに最大3つのエントリが含まれる。状態2および3からのトークンがマージされると、2つのリストがマージされ、新リストを作るために分類されるが、新リストの最初の3つのエントリは状態5ための新トークンに保持される。
新分類リストを作るために全ての分類リストをマージすると、特にリストのエントリ数が大きければ、コンピュータ的には高価なオペレーションとなる。これは、全てのワード履歴入力のスコア(またはオフセット)を新トークンに保持するのはどのエントリであるかを決定するために比較しなければならなく、オフセットを再計算する必要があるためである。この余分なコストは、この タイプのトークンマージングが音声フレーム毎に復号化ネットワークにおいて状態毎に行われるのでP(O・H)のための合計計算コストを大きく増加させることになる。
トークンと関連するデータは、例えば図6に示されるように多くの方法でメモリに記憶できる。トークンはその内容またはデータを配信できると言う意味では要約データ構造である。図示のノードはスコアまたは尤度値および 複数のワード履歴からなる関連トークンを有する。スコアまたは尤度値は(リストの一番上に示されている)最高得点ワード履歴と関連する。全てのワード履歴は、トップワード履歴自体に対して結果的にゼロとなる、トップワード履歴との差として表されるスコアまたはログ尤度を有する。異なるワード履歴はこのノードを介する一連の異なる経路となる。トークンは尤度を適切な発生および推移尤度でコピーし、更新することによって1つのノードから他のノードに移動する。複数のトークンは1つのノードにコピーする必要があるとき、それらはマージしなければならない。低スコアを有するトークンはメモリ空間およびCPUを節約するために通常は取り除かれるか破壊される。
コンピュータの効率化のために、トークンと関連するワード履歴(“Open”、“Open the”...)が一般的には分離ワード履歴データ構造に記憶され、トークンはポインタまたはインデックスを介してワード履歴をこの構造(Word hist. 1, Word hist. 2,ノ)に記憶する。図示の例では、トークンのWord Hist 1ポインタまたはインデックスはワード履歴データ構造の“ウインドウを開ける”を指し示す。これは複製化よりむしろトークンによって共通ワード履歴を共有化することを可能にする。同様に、ワード履歴自体は破線でワード履歴データ構造に示されるようにワードおよび列において先のワードに対するポインタに再分割できる。これは複製を回避し、故にメモリ空間を節約する。
テキスト単位連接および関連する尤度スコアのトークンデータを維持するための種々の他のメモリ構成が当業者によって容易に実現できる。
復号化システムにおける幾つかのトークンは該システムの他のトークンと比較される非常に低いログ尤度を有していてもよい。これはそのトークンによって表される仮説がその点で時間的に余りありそうもないことを意味する。時間フレーム毎にシステムの全てのトークンは非常に低いログ尤度を有するそれらトークンを含めて更新される。しかしながら、これは通常余り起きそうもなく、それらありそうもないトークンを更新するために使用する計算コストは無駄になる。ありそうもない仮説が認識できできるだけ早く破棄すれば、計算時間が大きく節約できる。
故に、ビーム剪定の使用が好ましい。これは“A One-Pass Decoder Design for Large vocabulary Recognition”, J.J. Odell, V. Valtchev, P.C. woodland and S.J. Young, in Proceedings of the DARPA Human Language Technology Workshop, pp. 405-410, March 1995に詳細に記載されている。
ビーム剪定では、1タイムフレームに対して全てのトークンを更新すると、最良ログ尤度を有するトークンがシステムの全ての存在するトークンから選択される。最良ログ尤度はこのタイムフレームのための剪定ビームの頂部である。剪定閾値は図8に示されるようにビームの頂部からビーム幅を差し引くことによって決定できる。
システムの全てのトークンがチェックされ、剪定閾値未満のログ尤度を有する任意のトークンは更なる計算が無価値と考えられる。故に、これらのトークンは復号化の合計計算コストを減少するために破壊される。トークンを破壊するために、それはヌルトークンと置き換えられる。ヌルトークンはエ ンプティリストを有し、ワード履歴を持たないトークンであり、ワード履歴ではない。トークンのログ尤度はlog(0)に近似する大きな負の数である。
適切なビーム幅を選択することが重要である。厳しいビーム幅であると、正確な仮説を破棄する非常に高いリスクを持ちながら最大計算コストを節減することになる。
文献には多くの剪定方法が記載されている。ここに記載された方法は最も一般的でありながら、本発明と組み合わせて使用できる多くの他の方法がある。剪定方法によっては結果の節約を変えることができる。
剪定閾値は新タイムフレームに任意のトークンを作る前に推定できる。通常、最良ログ尤度は非常にゆっくり変化するので、通常、前のタイムフレームからの情報が使用される。このケースであれば、新トークンを作る前にログ尤度は推定されるべきである。新ログ尤度が推定剪定閾値を越えていれ ば、トークンが作られるだけである。不必要なトークンが作られないので効率は改善される。
より詳細にマージングオペレーションに戻ると、図9は各々が複数のワード履歴を含む2つのトークンがどのように既知の技術に従って状態ネットワークにおいて1つの新トークンにマージされるかを示している。1つのトークンは時間t−1にて状態2であり、3つのエントリ、即ち”open the”(ログ尤度150)、”close the”(ログ尤度130)および”find the”(ログ尤度100)を持っている。これらログ尤度は通常、最良ログ尤度に対する相関差として記憶される。これは図9に示されており、ここでは、状態2でのトークンにおいて値“150”の“トップログ尤度”の項目があり、このとき3つのエントリ“open the”,“close the”および“find the”が”0”, ”-20”および”-50”をそれぞれ有する。“トップログ尤度”は音声信号の状態モデルを介する最も有望な経路を示す値である。
第2トークンは時間t-1で状態3にあり、3つのエントリ“open new”(ログ 尤度140)、“close this”(ログ尤度120)および“delete this”(ログ尤 度100)を有する。このトークンはまた値“140”を有する“最高ログ尤度” の項目を有し、丁度挙げられた3つのエントリは“0”,“-20”および“-40”の相関値をそれぞれ有する。
状態5に推移するために、(これは可能性があるけれども)トークンに加えられる新たなワードがないが、時間tで状態5のシングルトークンがあるように2つのトークンがマージされる。今、"open the"に対応するトークン が推移ログ尤度および状態5の発生によるより高いログ尤度(160)を有する。全ての他のエントリのログ尤度の相関差はトークンがマージングしないで移動するとき変わらないが、(この例に示すように)2つのトークンがマージされるときに調整される。
トークンのエントリの数の制限、即ち3に制限することにより、選択がなされる。エントリ“open new”および“close the”が最高スコア(それぞれ150および140)を持つのでそれらが選択された。他のエントリのログ尤度は余りにも低いのでそれらエントリは除外された。トークンのエントリの数の制限により、ASRの正確な機能は危うくならないが、任意のトークン(その後、完全な認識過程)から正しく再構成できる代替え過程の数を制限する。
故に、概要的には、周知のマージング処理が次のステップを必要とする。
1.正確な状態数が記憶されているかトークンにより暗示しているかを確認することによって新トークンを記憶するメモリ空間を確立する。
2.新状態のための発生および推移ログ尤度を計算し、トップログ尤度に加算する。
3.新トークンのエントリを選択する。これらは、オフセットが変化していない場合における現存するトークンの一番良いものからか、または前記オフセットが新最高ログ尤度に対するオフセットになるよう調整すべき場合における任意の他のトークンから一番よいものを選ぶ。
4.有効な事由により、新トークンのエントリが分類順であることを確かめることが通常である。
これらステップの最後の2つはASRシステムの処理要求の大きな部分を表し比較的時間がかかる。
この発明の実施形態が図1の復号装置によって利用される。この実施形態は特徴ベクトルの実際の列を生成する種々の相互接続サブワードの確率を決定するためのビタビアルゴリズムに関して記載されている。
特に、マージオメレーションは図10に示されるように“遅延される”(または多くの場合、完全に無効にされる)。トークン内のワード履歴("open", "open the")またはそれらのポインタ(Word Hist. 1, Word Hist. 2・・・)のリストを記憶する代わりに遅延マージの都合の良い実施を可能にするため、リストは論理的に独立したLISTデータ構造に分離して記憶され、トークンはLISTデータ構造に適切なワード履歴構造(“A”,“B”および“C”)に対するワード履歴構造基準を有する。エントリまたはワード履歴構造のリストは既知トークンに含まれるリストに類似する実際のリスト(A,B)またはまだマージする必要がある他のリストに対する識別子(C)のリストのいずれかを含むことができる。(トークンがネットワーク終端に達するときのような)必要性が生じたときにオペレーションは実行しなければならないが、新トークンが剪定によりいつかの後に破棄されるならば、マージオペレーシ ョンは避けることができる。新トークンは遅延マージまたは混合トークンの2つのエントリリストのログ尤度に違いを維持し、それらを後の段階で正しく評価する。
図10のトークンと図9のトークンとを比較すると、状態2および3でのトークン間の差は本実施形態(図10)の方法においてリストがトークン(即ち、リストAおよびB)から分離しており、トークンがこれらリストに対する基準を有することであることを見ることができる。即ち、状態2のトークンはそのエントリとしてリスト“B”に対する基準またはポインタを有し、状態3のトークンはそのエントリとしてリスト“B”に対する基準を有する。遅延マージはこの分離がなくても実現できるけれども、この分離は好ましい実施形態の一部である。
図10において、状態5では、図9において起こるような状態2および3からのトークンをマージするよりも実際には最小計算が行える。トークンはトップ尤度を決定し、発生および推移尤度を用いて新尤度を算出する。この場合、160である新しい値が記憶される。また、それはリスト“C”に対する基準を有する。リストCはトークンからリスト間のマージオペレーションを着手するために十分である情報を記憶する。この場合には、リストCは後日マージされるべきリスト、即ちAおよびBに対する基準並びに2つのリストの尤度間の差、即ち−10を記憶する。
この方法の1つの利点は、それらの尤度スコアが余りにも小さいので後に剪定されるトークンに対してマージオペレーションが行われることである。
リストがトークン内に記憶されていない場合の実施形態の他の利点は、エントリを含むデータ構造が大きかったとしても複数のトークンは同じ構造で共有できるのでメモリ使用の節約となる。
状態1のトークンは、リストAに対する基準並びにトップ尤度基準150を有する。このとき、このトークンは複数の異なる状態、即ち状態2、3および4に送られる。これらの状態では、他のトークンは受けないので、新状態毎に発生および推移尤度を用いて各ケースにおいて更新する必要がある尤度だけである。故に、状態2、3および4の新トークンの全ては新トップ尤度値、即ち160、165および160をそれぞれ有するが、なおリストAを参照している。故に、新リストはこれらトークンに対して生成する必要がないが、代わりにそれらはリストAの現状の構造を共有する。リストに対して間接的基準を持つときにオーバヘッドがある間、通常、構造の共有化のために節約がある。
複数の遅延マージオペレーションを使用する実施形態が図12に示されている。時間tでのトークンは時間t-1でのトークンに属するリストに戻り参照する。これは順次より古いリストに戻って参照する。
特に、時間tではトークンは状態5となる。この状態で、一方は状態2から、他方は状態3からの2つのトークンが達していた。先の実施形態のように、状態5でのトークンは状態2および3から到達するトークンに対する新トップログ尤度を決定し、このケースでは値160である最良の1つを記憶する。このとき、新リストGに対する基準を記憶する。新リストGは状態2および3のトークンと関連する2つのリスト、即ちリストEおよびFに対する基準を記憶する。また、新リストはそれぞれ状態2および3からのリストEおよびFにおけるエントリの2つのトップ尤度間の差を記憶する。これは“Fオフ セット:−10”として記憶される。
状態2および3のトークンとそれぞれ関連するリストEおよびFを参照すると、これらリストが後にマージオペレーションを行うために十分である情報をも含むことを知ることができる。即ち、状態2と関連するリストは2つの先のリストAおよびBを参照し、リストBからのトップ尤度がリストAからオフセットしている量として値“−10”を記憶する。同様に、状態3と関連するリストFは2つの先のリストCおよびDを参照し、リストDがオフセットしている値“−20”を記憶する。
故に、先の状態におけるトークンについての情報で別のメモリ位置を参照してトークン構造は複数のマージオペレーションを後の時点まで遅延できる付加的な利点を有する。(多重)マージオペレーションを避けることによってトークンが剪定される機会が多くなることが分かる。
図13を参照すると、実施形態を示すメモリアーチテクチャが示されている。図5に示される方法と同様な方法において、復号化ネットワークにおけるノードXはノード基準とそのノードXに対する尤度スコアからなる関連トークンxを有する。しかしながら、ワード履歴("open", "open the")または対応するポインタ(Word Hist.1, Word Hist.2・・・)のリストの代わりに、トークンxはLISTデータ構造におけるワード履歴構造(A,B,C)に対するポインタまたはインデックス(リストC)を含んでいる。ワード履歴構造(A,B,C)はオフセットと関連するものと共に対応ワード履歴("open", "open the")に対するポインタ(Word Hist.1, Word Hist.2ノ)により構成される。
ワード履歴ポインタ(Word Hist.1ノ)または実際に幾つかの実施においてはワード履歴自体("open")を含むリストエントリ(AおよびB)に加えて、LISTデータ構造はまたLISTデータ構造(例えばC=A+B)における他のリストに対するポインタまたは基準を含むリストエントリ(C)により構成される。これらのポインタを用いることによって、通常必要とするマ ージオペレーションは例えばワード履歴が新ワードによって拡張する必要あるまで遅延できる。故に、トークンAおよびBの各々におけるワード履歴を比較し、尤度スコアを再計算するコンピュータによる高価な実施が遅延される。
図14は遅延されるときのマージングプロセスを示す。遅延マージオペレーションはトークンのワード履歴を拡張する必要があるときに実行してもよい。また、新特徴ベクトルの処理が終わると、例えば、1つのトークンが終端に達し、もっともらしいと判断されるので、または利用できる更なるベクトルがないか、あるいはアプリケーションによって課せられる時間制限に達したので、遅延マージオペレーションは必要ならその1トークンに対して実行される。この例では、復号化ネットワークにおけるノード1561に対応するトークンは190のログ尤度スコアを有し、ワード履歴構造Gと関連する。ワード履歴構造Gは、Fが−20の大きなペナルティを受けるような場合に2つの異なるワード履歴、EおよびFを混合することによって形成されることを示している。順次、構造Eは、−10のペナルティをBに与えるとAおよびBを混合して形成されることを示している。構造Fは、Dが−10のペナルティを受ける場合にCおよびDから形成されることを示している。
図はリストEを形成するためにAおよびBをどのように混合されるかを示している。リストEはA(ワード履歴1および2)からの2つのエントリとB(ワード履歴4)からの1つのエントリを含む。また、A(ワード履歴7および8)から2つのエレメントそしてリストB(ワード履歴10)から1つのエレメントを受けることによってリストFはそのようにしてリストCおよびDから形成されるかを示している。
これが一度行われると、リストGを構成することができる。このリストGはリストE(ワード履歴1および4)から2つのエントリを受け、リストF(ワード履歴7)から1つのエントリを受ける。これは、上位3つの仮説がこれら3つのワード履歴およびそれらのログ尤度を取ることによって近似するので、n=3に対してn−最良答を出す。他の近似値でも可能である。
フローチャートAおよびBはこの発明の実施形態に従った遅延トークンマージを用いる音声認識システムの一般用語を示している。これらのノードは通常状態に対応する“ノード”の概念を用いている。(例えば、幾つかのノード は、あるHMM構造がネットワークの異なる場所で繰り返されていれば、同じ状態に対応できる。その場合、各ノードは明瞭なトークンを有する。)フローチャートは、ネットワークの終端に達するまで分割され(即ち、1つのトークンが幾つかのノードに送られる)そして遅延マージされる(即ち、複数 のトークンが遅延されるマージオペレーションによって1つのノードに集められる)ことによってネットワークのトークンがネットワークをどのように通過(コピーまたは遅延マージ)するかを示している。
フローチャートに基づくシステムは下記のエレメントを使用する。
1.ネットワーク構造の提示。このネットワーク構造は(期待観察を反映する)ノードおよび許容経路を決定するノード間のアークを含む。これらアー クはそれを行き来するトークンのワード履歴に加えられるべきワードラベルも含むことができる。
2.先の時間インデックスで有効なトークン集、これらは存在するノードに関する情報、それらの最上位尤度およびそれらのエントリリストに対するインデックスを保有している。
3. 現時間インデックスに対して構成されるトークン集、これらは先のトークンと同じ情報を保持する。
4.トークンが参照するエントリリスト集。各リストは(ワード履歴とログ尤度オフセットの複数の対を含む)通常リスト、または遅延リストのいずれかである。遅延リストの場合、それらは(通常または遅延)の他のエントリリストに対する2以上のインデックスおよび2つのインデックスの低いスコア に対するログ尤度を一般的に含んでいる。
図15におるフローチャートAを参照すると、初期エンプティトークンは初期ノード(51)で作られる。このシステムは時間インデックス(52)を増加するループに入り、先の時間インデックスに対して作られたトークンからの情報を収集して全てのノード(53〜57)を推定する。
特に、これは、ノード(53)に対するインデックスであるパラメータnidxを初期化し、フローチャートB(54)に記載されたノード更新手順を実行することによってノード毎の方法で行われる。これは直ぐにさらに詳細に述べる。このとき、インデックスは増加され(56)、全てノード が処理されるまで推定手順は繰り返される(57)。この時点で、システムはあるトークンがネットワークの終端に到達したかどうかをチェックする(50)。達していなければ、チェックは次の時間インデックスによって継続する。あるトークンが終端に達すれば、システムはそのトークンに任意の遅延マージを行い、最良ワード履歴を出力する(59)。より高度な機構が終了に対して可能であり、これがその丁度一例であることが評価されることになる。
図16のフローチャートBを参照すると、単一ノードの推定は全ての到来アーク(61−66)を介して行き来し、これらを混合することによって行い、遅延エントリリスト構造を作る。
即ち、最初にトークンが作られ、ノードの全ての到来アークを索引するために使用されるパラメータpが初期化される(61)。各アークが処理される(62)。1つのアークがトークンを持たないノードからのものであれば、それは無視できる(63)。そのアークがワードラベルを有していれば(64)、そのノードからのトークンのワード履歴が更新される。ワードラベルを行き来するとき、遅延エントリリスト構造において参照している各エントリ毎にワード履歴を更新できるが、実施形態では遅延マージがワード履歴を実行する前に実行される(65)。
このとき、ワードラベルに遭遇したかどうかに関係なく、先の時間フレームからのトークンが新トークンに遅延マージされる(66)。最後に、アークインデックスが増加され(67)、ループが繰り返される。全ての到来アークが処理されたとき、自己ループをHMM構造に反映することによって先の時間インデックスのこのノードにあったトークンが新ノードに遅延マージ される。
先に説明したビーム剪定方法を用いて、新トークンが閾値より低ければ、それは剪定される(69−70)。この場合には、先の時間インデックスの最良尤度が使用されるものと仮定する。
遅延マージ手順(66)を図17を参照して説明する。時間t−1に対応する状態1、2および3からのトークンが時間tで状態4に達する。状態1からのトークンはリストAを参照し、130の最上ログ尤度を持ち、状態2からのトークンはリストBを参照し、130のトップログ尤度を持つ。状態3からのトークンはリストCを参照し、160の最上ログ尤度を有する。
本発明の実施形態に従って遅延マージトークンを生成する動作は以下の通りである。
1. 先の時間インデックスからの最初のトークンを追加すると、ノードインデックスとログ尤度(このノードの推移および発生ログ尤度によって更新される古いログ尤度)を設定する。単にエントリリストを参照する。
2. 先の時間インデックスからの他のトークンを処理すると、2つのエントリリストに対する参照を含む仮の構造を作り、これを新トークンの新エントリリストにする。また、(更新前の)スコアが最初のものより高いかどうかをチェックする。高ければ、新トークンのログ尤度を変更し、このトークンのエントリリストのインデックスをオフセット0で与える。他のエントリリストのオフセットを変更し、ログ尤度の差を反映する。ログ尤度が低ければ、ログ尤度の差を反映するオフセットを設定し、他のオフセットを0に設定する。
この動作は例えば図17に示されている。“ステップ1”は実行される。これによって、状態4の新トークンが150である、ノード1トークンからのトップログ尤度が与えられ、また、リストAである、ノード1トークンに対するリスト基準が与えられる。
次に、“ステップ2”が実行される。これにより、ノード2トークンが考慮される。ノード2トークンの値が低い(即ち130)であるので、状態4の新トークンに対するトップログ尤度を150に維持する。新エントリリスト基準Xが新トークンに与えられる。リストXを参照すると、これが遅延マージ情報を含むことを知ることができる。遅延マージ情報は後日マージオペレーションを行うには十分な情報である。リストXはノード1および2のためのリスト、即ちリストAおよびB並びにリストBにおけるトップログ尤度がノードAのログ尤度からオフセットする量、即ち−20を識別する。
図17の例は状態4に達する3つのトークンを有しているので、“ステップ2”は第3トークンに対して繰り返され、“ステップ3”として図のように実施される。ここで、新トークンはログ尤度160を与えられる。これはログ尤度の最大であるノード3トークンに対応する。新エントリリスト基準Yが新トークンに与えられる。リストYを参照すると、これは遅延マージ情報を含むことがわかる。この遅延マージ情報は後日マージオペレーションを行うには十分である。リストYはノード3トークンのリスト、即ちリストC並びにリストXを認識する。リストXはノード1および2からのトークンのリストの遅延マージのために作られるリストである。リストYはリストCの最上ログ尤度がリストXのログ尤度からオフセットする量、即ち−10も含む。
一般的に、ある時間遅延された後に要求されるマージオペレーションは次の通りである。
1.エントリリストが2を参照している2つのリストのどれもがそれ自体遅延されているか否かをチェックする。
2.従来では通常の手順のような通常のシステムについて先に説明したような通常の方法で2つの(非遅延)リストをマージする。
3.結果のエントリリストに同じインデックスを与える。それによってそれを参照した任意の他のトークンが自動的にマージバージョンを参照する。
4.遅延に使用された仮の構造を取り除く。
本発明の代替え実施形態によると、マージオペレーションがとにかく必要となることが確実であれば、マージオペレーションを遅延する必要がないことを守ることによってシステムがさらに改良される。この良好な兆候はマージすべきトークンのトップログ尤度を比較することによって得られる。図18に示されるようにこれが全システムの最良トークンのログ尤度に近ければ、そのときにはそのトークンはかなりの時間存続しそうであり、マージの遅延は価値があるかもしれない。しかし、これはビームの低い側に近くなれば、そのときにはトークンはすぐに取り除かれることが確実となり、そしてマージが完全に回避できることがあるのでマージを遅延することは全く有効となるかもしれない。
それ故に、この代替え実施形態によると、(例えば)2つのトークンがノードに達すると、これらトークンの最高ログ尤度と全てのトークンの最高ログ尤度とが比較される。マージすべきトークンの最高ログ尤度がトップログ尤度から所定遅延閾値より大きければ、そのときには遅延マージ処理が行われる。しかし、最高ログ尤度が所定遅延閾値以内であれば、マージ処理が遅延内で行われる。最高ログ尤度が(遅延閾値未満である)剪定閾値未満の場合、そのときは、トークンがマージ無しに、または遅延マージ処理が行われシステムから取り除かれる。
遅延マージ方法を標準トークン受け渡しアルゴリズムと比較する試みによって、全マージオペレーションのほぼ30%が回避することが立証された。マージオペレーションがCPUの使用のほぼ50%の割合を占めるので、これは全体のCPU使用のほぼ15%の節約に相当する。CPUの消費を低くすることによってユーザに対して安価な装置または早いフィードバックをもたらす。
上記実施形態はN−最良ワード履歴の決定に関して述べてきたが、複数のワード履歴が決定された代替え処置および複数のワード履歴が各トークンと関連している。複数のカテゴリにおいて最善の結果を決定することが望まれる場合の例がある。図19〜22を参照して複数のカテゴリが利用される他の実施形態を説明する。
可能なワード履歴をカテゴリ化したい多くの理由がある。例えば、復号装置はあるノイズレベルを仮定すれば、最も有望な発話が何であるか、あるトピックを仮定すれば、最も有望な発話は何であるか、または特定のサウンドが(このセグメントに影響する)このサウンドフラグメントの直前または直後に発せられていたならば最も有望な発話は何であるかをアプリケーションに示してもよい。
図19に示されるように、カテゴリマーカは発話の内容のある局面を表す各トークンの各ワード履歴と関連している。例えば、サウンド部分の直前または直後になされるサウンドを表すカテゴリ集、周囲のノイズ状態を表すカテゴリ集、またはユーザが参照しているトピックのような対話レベル情報を表すカテゴリ集がある。このとき、オーディオモデルまたは言語モデルはこれに基づいたワード履歴のスコアを自由に調整する。例えば、オーディオモデルはあるカテゴリに含まれる先のサウンドに関する情報に基づいた最初のサウンドの尤度を調整してもよい。
上述のように、トークンは一般的には関連トップスコア(150)およびこれからのオフセットを持つように構成され、例えばカテゴリ1および2の両方が同じワード履歴を持つ状態では、それらの尤度に差がある。
図20はアームが各カテゴリにおいてN−最良ワード履歴を決定することになっているN−最良カテゴリに基づいた配置を示している。標準方法では、状態2および3に対するトークンから状態5に対する新トークンへのマージングはカテゴリ毎にN−最良ワード履歴(この例では、2最良ワード履歴)を決定する必要がある。図9に示すオペレーションからの違いは同じカテゴリ識別子を持つワード履歴だけがマージングの対象と考えられる。故に、異なるカテゴリに対するワード履歴は分離されている。
図示のように、状態2に対するトークンは1つのカテゴリ2ワード履歴だけを有し、これに対して状態3に対するトークンは2つのカテゴリ2ワード履歴を有する。これはほとんどありそうもないワード履歴が破棄されるために起こるかもしれない。
カテゴリ化しないで図10に示される遅延マージオペレーションに似た方法で、状態2および3と関連するトークン(およびそれらの関連するワード履歴リストAおよびB)のマージングが図21に示されている。マージはリストデータベースにおけるエントリへのポインタCを使用する状態5に対するトークンを作ることによって遅延される。このエントリCは、最終的にマージングを必要とするかもしれない状態2および3からの寄与トークンのワード履歴AおよびBを認識するだけである。カテゴリ化で処理するときの付加的要素は、例えば図22に示すように例えばワード履歴ポインタ毎にリストテーブルにカテゴリフィールドを含めることによって各カテゴリと関連するポインタを区別することである。これは同じカテゴリにワード履歴だけがそのカテゴリのN−最良ワード履歴のそれらまたは1つとして考えられる。
図14と同様な遅延マージがカテゴリ化が可能な図23に示されている。説明の簡略化のために、“ウイニング”または終端トークンがマージングを必要とする他のワード履歴ポインタAおよびBを参照するワード履歴ポインタ持つと仮定する。リストデータベースのポインタAおよびBはワード履歴データベースの多数のワード履歴を指しているが、異なるカテゴリと関連している。故に、マージングは2つのカテゴリ、即ちカテゴリ1および2に関して行われる。カテゴリ1は2つの最良または最も有望なワード履歴1および7を有し、カテゴリ2は最有望としてワード履歴10および4を有する。
それ故に、カテゴリ基本システムにおいて遅延マージ方法を用いる他の手順は以下の通りである。トークンの標記の内部にワード履歴毎にカテゴリメーカのフィールドを付加する。音声部分の処理を開始するときに、1つのトークンが開始ノードに作られるが、各々が異なるカテゴリメーカを持つ複数のワード履歴を備えている。
トークンを遅延マージングするとき同じワード履歴だが、それらが異なるワード履歴を有するごとく異なるカテゴリを持つトークン内でエントリを処理する。同じワード履歴および同じカテゴリを同等なものとして用いてエントリを処理する。トークンが伝播するとき、それらの主要ログ尤度は通常オーディオモデルによって更新される。この間にトークンの他のワード履歴に対する相関差は一定となる。異なるカテゴリがあるとき、オーディオモデルまたは言語モデルが相関差を調整することを時々決定する。これは発生確率が種々のカテゴリに対して時々異なると言う事実を反映している。
トークンがネットワークの終端に達すると、最高の仮説がカテゴリ毎に設けることができ、あるいは実際にはnの最良結果が各カテゴリ毎に得ることができる。
変更および付加が全般的発明の概念内で可能である。この発明の実施形態は発明の実例として考えるべきであり、全般的発明の概念に不必要に限定するものではない。
例えば、理解を容易にするために、発明の概念はビタビアルゴリズムの形態であるトークン受け渡しアルゴリズムに関して述べてきた。しかし、発明の概念はビタビアルゴリズムを用いた任意の復号装置に適用できる。さらに、ビタビアルゴリズムが(往復アルゴリズムとしても知られている)ボウムウエルチアルゴリズムの特別なケースであるので、発明の概念をこのアルゴリズムに使用することができる。
さらに、発明の概念は一般の音声認識システムの観点から説明してきたこと、および実際には同時調音の効果を得るために異なる話速度に起因するタイミング差を保証し、話者間の差を取り扱うことができるより複雑な方法が用いられてもよい。
さらに、明細書の全体に使用されている用語“ワード”は全体的には実際のワード、幾つかのワードの句または二重音または音素のような実際ワードの成分である基本認識単位を意味している。
本発明の実施形態は特定機能およびその相関関係の遂行を示す機能的ブロックおよび方法ステップを用いて説明されている。これらの機能ブロックおよび方法ステップの境界は説明の便宜上任意に定義されていた。特定の機能およびその相関関係が適切に行われている限り代わりの境界で定義できる。そのような代わりの境界は請求の範囲に記載された発明の範囲および精神内にある。当業者はこれらの機能ブロックは別個の要素、アプリケーション特定集積回路、適正なソフトウエアを実行するプロセッサおよびそれらの組み合わせによって実行できる。
明細書の全体に渡った従来技術の検討はそのような従来技術が当分野において広く知られておりまたは共通の一般的知識の一部として形成するものではない。
本発明はまたここに記載され、または暗示され、あるいは図面に示され、または暗示された個々の特徴、あるいはそのような特徴の任意の組み合わせ、または任意のそのような特徴の概括またはその均等物に拡張する組み合わせを提供する。故に、本発明の広がりと範囲は上述した実施形態のいずれによっても限定されるべきでない。請求の範囲、要約および図面を含む明細書に記載された特徴は想でないことを明確に述べていなければ、同じ、均等または類似の目的に寄与する代替え特徴に置き換えてもよい。
自動音声認識システムの基本構成を示す。 状態集合としてのベイシックHMMを示す。 復号化用HMM状態ネットワークの一例を示す。 復号化ネットワークのノードと関連するトークンを示す。 トークン受け渡し方法を示す。 ASRのデータ構造を記憶するメモリアーチテクチャを示す。 トークンマージ手順を示す。 剪定ビーム閾値を示す。 図7のトークンマージング手順を示す。 実施形態に従ったトークン遅延マージングまたは混合手順を示す。 実施形態に従ったトークン構造の使用により得られるエントリリストの分担の一例を示す。 実施形態に従った多重遅延トークンの一例を示す。 実施形態のデータ構造を記憶するメモリアーチテクチャを示す。 実施形態の遅延マージオペレーションを示す。 この発明の実施形態に従った遅延トークンマージングを用いる音声認識システムの一般的な働きを示すフローチャートAを示す。 この発明の実施形態に従った遅延トークンマージングを用いる音声認識システムの一般的な働きを示すフローチャートBを示す。 実施形態に従った遅延マージトークンを生成する動作を示す。 本発明の実施形態に従った部分遅延マージ方法を示す。 カテゴリが各ワード履歴と関連する他の実施形態における復号化ネットワークのノードと関連するトークンを示す。 カテゴリかを用いるトークンマージング手順を示す。 実施形態に従ったカテゴリ基幹遅延マージングまたは混合手順を示す。 実施形態の遅延マージ動作を示す。 実施形態の遅延マージを示す。

Claims (2)

  1. 音声部分に対応する1以上の候補テキスト単位の連接を所定の基準に従って決定するための自動音声認識システムの復号装置であって、
    音声部分に対応する一連の特徴ベクトルを受ける手段と、
    一連のテキスト単位を表す復号化ネットワークの各ノード列に前記特徴ベクトルがどれだけ良く対応するかを示す尤度値を用いて、前記特徴ベクトルを前記ノード列にマッピングする手段と、
    各トークンが1つのノードに対応し、かつ、複数のテキスト単位の連接及びこれらの連接の尤度値と関連するダイナミックプログラミングアルゴリズムを実行することによって前記候補テキスト単位の連接に対応する前記復号化ネットワークにおいて1以上の候補ノード列を決定する手段と、
    を具備し、
    前記復号化ネットワークにおいて1つのノードと関連する1つのトークンは該ネットワークにおける複数の先のノードと関連する複数のトークンから取り込まれ、
    前記復号化ネットワークにおいて、共通のノードに移動することになる異なるノード(遷移元ノード)からの複数の前記トークンが混合されることによって、
    (A)それぞれの遷移元のノードが保持する各候補テキスト履歴のリストを示すポインタと、
    (B)前記各候補テキスト履歴に対応する尤度の前記各リスト間における尤度差であるオフセットと、
    (C)前記各リストに含まれる各候補テキスト履歴それぞれに、前記共通ノードの候補テキストを加えたものに対応する各尤度の中で最高の尤度とからなる新トークンを生成する、復号装置。
  2. 自動音声認識システムにおいて音声部分に対応する複数の候補テキスト単位連接を所定の基準に従って決定する復号化方法であって、
    音声部分に対応する一連の特徴ベクトルを受けるステップと、
    一連のテキスト単位を表す復号化ネットワークの各ノード列に前記特徴ベクトルがどれだけ良く対応するかを示す尤度値を用いて、前記特徴ベクトルを前記ノード列にマッピングするステップと、
    各トークンが1つのノードに対応し、かつ、複数のテキスト単位の連接及びこれらの連接の尤度値と関連するダイナミックプログラミングアルゴリズムを実行することによって前記候補テキスト単位の連接に対応する前記復号化ネットワークにおいて1以上の候補ノード列を決定するステップと、
    を具備し、
    前記復号化ネットワークにおいて1つのノードと関連する1つのトークンは該ネットワークにおける複数の先のノードと関連する複数のトークンから取り込まれ、
    前記復号化ネットワークにおいて、共通のノードに移動することになる異なるノード(遷移元ノード)からの複数の前記トークンが混合されることによって、
    (A)それぞれの遷移元のノードが保持する各候補テキスト履歴のリストを示すポインタと、
    (B)前記各候補テキスト履歴に対応する尤度の前記各リスト間における尤度差であるオフセットと、
    (C)前記各リストに含まれる各候補テキスト履歴それぞれに、前記共通ノードの候補テキストを加えたものに対応する各尤度の中で最高の尤度とからなる新トークンを生成する、復号化方法。
JP2005000506A 2004-01-05 2005-01-05 音声認識システム及び方法 Expired - Fee Related JP4322815B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB0400101A GB2409750B (en) 2004-01-05 2004-01-05 Speech recognition system and technique

Publications (2)

Publication Number Publication Date
JP2005215672A JP2005215672A (ja) 2005-08-11
JP4322815B2 true JP4322815B2 (ja) 2009-09-02

Family

ID=31503420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005000506A Expired - Fee Related JP4322815B2 (ja) 2004-01-05 2005-01-05 音声認識システム及び方法

Country Status (3)

Country Link
US (1) US7711561B2 (ja)
JP (1) JP4322815B2 (ja)
GB (1) GB2409750B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
US10042345B2 (en) 2014-01-31 2018-08-07 Kabushiki Kaisha Toshiba Conversion device, pattern recognition system, conversion method, and computer program product
US10055511B2 (en) 2013-12-24 2018-08-21 Kabushiki Kaisha Toshiba Search device, search method, and computer program product
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277850B1 (en) * 2003-04-02 2007-10-02 At&T Corp. System and method of word graph matrix decomposition
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US20090307274A1 (en) * 2008-06-06 2009-12-10 Microsoft Corporation Delayed merge
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US11487347B1 (en) * 2008-11-10 2022-11-01 Verint Americas Inc. Enhanced multi-modal communication
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US8914286B1 (en) * 2011-04-14 2014-12-16 Canyon IP Holdings, LLC Speech recognition with hierarchical networks
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US9483459B1 (en) * 2012-03-31 2016-11-01 Google Inc. Natural language correction for speech input
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101970041B1 (ko) * 2012-09-07 2019-04-18 카네기 멜론 유니버시티 하이브리드 지피유/씨피유(gpu/cpu) 데이터 처리 방법
KR20140089871A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR102267405B1 (ko) * 2014-11-21 2021-06-22 삼성전자주식회사 음성 인식 장치 및 음성 인식 장치의 제어 방법
US9552808B1 (en) * 2014-11-25 2017-01-24 Google Inc. Decoding parameters for Viterbi search
CN105700389B (zh) * 2014-11-27 2020-08-11 青岛海尔智能技术研发有限公司 一种智能家庭自然语言控制方法
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US10176802B1 (en) * 2016-03-21 2019-01-08 Amazon Technologies, Inc. Lattice encoding using recurrent neural networks
US10199037B1 (en) * 2016-06-29 2019-02-05 Amazon Technologies, Inc. Adaptive beam pruning for automatic speech recognition
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10157607B2 (en) 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11011155B2 (en) * 2017-08-01 2021-05-18 Texas Instruments Incorporated Multi-phrase difference confidence scoring
CN109036381A (zh) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
KR20200056001A (ko) 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
CN111583910B (zh) * 2019-01-30 2023-09-26 北京猎户星空科技有限公司 模型更新方法、装置、电子设备及存储介质
CN110046276B (zh) * 2019-04-19 2021-04-20 北京搜狗科技发展有限公司 一种语音中关键词的检索方法和装置
CN110970031B (zh) * 2019-12-16 2022-06-24 思必驰科技股份有限公司 语音识别系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
EP1133766B1 (en) * 1998-11-25 2004-01-21 Entropic Limited Network and language models for use in a speech recognition system
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
AU2000276400A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition
JP4048741B2 (ja) * 2001-07-24 2008-02-20 セイコーエプソン株式会社 Hmmの出力確率演算方法および音声認識装置
US20030061046A1 (en) * 2001-09-27 2003-03-27 Qingwei Zhao Method and system for integrating long-span language model into speech recognition system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
US10055511B2 (en) 2013-12-24 2018-08-21 Kabushiki Kaisha Toshiba Search device, search method, and computer program product
US10042345B2 (en) 2014-01-31 2018-08-07 Kabushiki Kaisha Toshiba Conversion device, pattern recognition system, conversion method, and computer program product
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product

Also Published As

Publication number Publication date
JP2005215672A (ja) 2005-08-11
US7711561B2 (en) 2010-05-04
GB0400101D0 (en) 2004-02-04
US20050149326A1 (en) 2005-07-07
GB2409750A (en) 2005-07-06
GB2409750B (en) 2006-03-15

Similar Documents

Publication Publication Date Title
JP4322815B2 (ja) 音声認識システム及び方法
US5621859A (en) Single tree method for grammar directed, very large vocabulary speech recognizer
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
EP1128361B1 (en) Language models for speech recognition
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
Schwartz et al. Multiple-pass search strategies
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US20040172247A1 (en) Continuous speech recognition method and system using inter-word phonetic information
JP2005227758A (ja) 音声特性に基づく電話発信者の自動識別
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US6253178B1 (en) Search and rescoring method for a speech recognition system
Renals et al. Start-synchronous search for large vocabulary continuous speech recognition
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Renals et al. Decoder technology for connectionist large vocabulary speech recognition
Lee et al. Improved acoustic modeling for continuous speech recognition
Lee et al. Acoustic modeling of subword units for speech recognition
JP3873418B2 (ja) 音声スポッティング装置
JP3559479B2 (ja) 連続音声認識方法
Steinbiss A search organization for large-vocabulary recognition based on n-best decoding.
JP2005091504A (ja) 音声認識装置
JP2731133B2 (ja) 連続音声認識装置
Bansal et al. A joint decoding algorithm for multiple-example-based addition of words to a pronunciation lexicon
Kam et al. Modeling pronunciation variation for Cantonese speech recognition
Holter et al. Combined Optimisation of Baseforms and Subword Models for an Hmm Based Speech Recogniser.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090603

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees