JP2002082689A - 語彙ツリーを用いた認識システム - Google Patents

語彙ツリーを用いた認識システム

Info

Publication number
JP2002082689A
JP2002082689A JP2001232574A JP2001232574A JP2002082689A JP 2002082689 A JP2002082689 A JP 2002082689A JP 2001232574 A JP2001232574 A JP 2001232574A JP 2001232574 A JP2001232574 A JP 2001232574A JP 2002082689 A JP2002082689 A JP 2002082689A
Authority
JP
Japan
Prior art keywords
node
nodes
dynamic programming
active
programming system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001232574A
Other languages
English (en)
Inventor
Luca Rigazio
ルカ・リガジオ
Patrick Nguyen
パトリック・ニュイエン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2002082689A publication Critical patent/JP2002082689A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Adornments (AREA)

Abstract

(57)【要約】 【課題】 処理能力が制約されている場合のアプリケー
ションにおいて有用な語彙ツリーを用いた認識システム
を提供する。 【解決手段】 動的プログラミング技術は、隣接したメ
モリ位置を各々の世代のノードが占有する平坦な表示と
してコンピュータメモリ内で符号化される語彙ツリーを
用いる。前記横断アルゴリズムは、一式の横断規則を用
い、これにより、所定の世代のノードは、該所定の世代
の親ノードが処理される前に処理される。最も深い子の
世代は最初に処理され、かつ、各々の世代のノード間の
横断は同じトポロジー方向に進行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識システム
に関する。より詳細には、本発明は、単独の単語および
連続的な音声の認識アプリケーションにおける動的プロ
グラミングパターンシーケンス認識技術に関する。
【0002】
【従来の技術】今日では、動的プログラミング技術は、
通常は、単独の/連続的な音声の認識の両方におけるタ
イムワーピング(time-warping)問題のために、およ
び、連続的な音声(連結された単語)の認識における最
適な単語シーケンス検索問題のために用いられている。
隠れマルコフモデル(Hidden Markov Model:HMM)
の場合に用いることができる公知のタイプの動的プログ
ラミング認識は、ビタビ(Viterbi)アルゴリズムであ
る。動的プログラミング技術については、さらに、HM
Mの他にも、例えばニューラルネットワークモデルのよ
うな他の種々のタイプの音声モデルとともに用いること
もできる。
【0003】典型的なビタビアルゴリズムは、帰納的
(inductive)アルゴリズムであり、この場合には、各
々の瞬間(フレーム)において該アルゴリズムは、n個
の状態の各々に対して考えられ得る最適な状態シーケン
スを、所望の観測シーケンス(observation sequence)
Oに関する中間状態として記憶する。こうして、アルゴ
リズムは、n個の状態の各々に対する最適な経路を、所
望の観測シーケンスに関する最後の状態として最終的に
見出す。これらの中から、アルゴリズムは、最も高い確
率(probability)を有するものを選択する。典型的な
ビタビアルゴリズムは、フレーム毎に進行し、口頭での
発語(utterance)と以前に訓練されたモデルとの間の
最適なマッチングを見出そうとする。
【0004】隠れマルコフモデル認識装置(recognize
r)の場合を例として取り上げると、モデル(HMM)
により生じている観測シーケンス(テスト話者の発語)
の確率は、全ての考えられ得る観測シーケンスを通して
の、各々の考えられ得る経路に関する確率の合計であ
る。各々の経路の確率は計算され、かつ、最も適切なも
のが識別される。ビタビアルゴリズムは、最も適切な経
路を計算し、かつ、自らが通過する状態を記憶にとどめ
る。
【0005】前記典型的なビタビアルゴリズムは、算定
上高価である。このアルゴリズムは、全ての有効な仮定
(hypotheses)のリストまたはトークン(token)を維
持するための広範囲の連結リスト(linked list)また
はハッシュテーブルを保持する。多量の計算エネルギー
が、これらのリストまたはテーブルからの項目を記憶し
かつ調べるという簿記工程において費やされる。
【0006】前記典型的なビタビアルゴリズムは算定上
高価であるので、音声認識装置の見かけ上の速度を顕著
に減速させることがある。このことは、迅速な応答時間
が必要とされるリアルタイムシステムにおいて特に問題
である。現時点での解決法は、単に、より強力なプロセ
ッサを用いることであるが、これは費用のかかる解決法
であって、セルラー電話および家庭用娯楽装備のような
幾つかの埋め込みシステム(embedded systems)および
小型の顧客製品においては望ましくないことであり得
る。
【0007】
【発明が解決しようとする課題および課題を解決するた
めの手段】本発明は、典型的なビタビアルゴリズムを改
良しようとするものであり、かつこれにより、処理能力
が制約されている場合のアプリケーションにおいて有用
である。実験においては、新たな技術が少なくとも3つ
の要因により認識速度を向上させることが示されてい
る。本発明は、大いに性能を向上させる関連検索アルゴ
リズムを備えた独自の語彙ツリー(lexical tree)構造
を用いる。このシステムは埋め込みアプリケーションお
よび顧客製品に適している一方で、該システムについて
は、性能をさらにいっそう向上させるために、大規模な
高速システム内に配置することもできる。前記アルゴリ
ズムについては、単独の単語の認識のために用いること
ができ、または、連続的な音声の認識のためのファース
トパスファストマッチ(first pass fast match)とし
て用いることができる。前記アルゴリズムについては、
さらに、クロスワード(cross-word)モデリングに拡張
することもできる。
【0008】本発明に関するより完全な理解のために、
その目的および利点については、以下の記載および添付
図面を参照する。
【0009】
【発明の実施の形態】<背景>図1は、例示的な音声認
識システムを示している。このシステムは、訓練段階お
よび認識段階という2つの段階において動作する。前記
訓練段階中に、システムは、アプリケーションの語彙を
構成する様々な音声(語句、単語、単音)を示す基準パ
ターンを学習し、かつ、前記認識段階中に、一式の基準
を考慮することにより、未知の入力パターンが識別され
る。前記訓練段階中に、各々の基準は、口頭での例によ
り学習され、かつ、ある通常の方法により得られるテン
プレートの形式で(テンプレートマッチングシステムの
形で)、または、統計的なパターン特性を特徴づけるモ
デルの形式で(確率論的システムのような形で)、のい
ずれかで記憶される。最も一般的な確率論的システムの
1つは、隠れマルコフモデル(HMM)を用いた統計的
モデリングの取り組みを利用する。
【0010】図1に示されるように、例示的な音声認識
装置は、認識プロセスを3つの段階において実行する。
参照番号10に示されるように、最初に、音声の分析お
よび特徴の抽出が、入力された音声に基づいて実行され
る。この段階は、信号の分析により得られた一式のパラ
メータを抽出することに焦点を当てている。参照番号1
2により示される次の段階は、パターンの分類を伴うも
のである。典型的なビタビアルゴリズムが実行されるの
は、この段階においてである。この段階の間に、入力さ
れた音声と各々の基準パターンとの間における類似性の
測定値が計算される。このプロセスは、特徴ベクトル間
の近接さの局所的な測定を定義し、かつさらに、話す際
の音長および速度が異なる2つの音声パターンを整列さ
せる方法を伴う。パターンの分類段階は、前記訓練段階
中に発生した情報を有するテンプレートまたはモデルデ
ィレクトリ14を用いる。最終的な段階は、決定段階1
6である。この段階中に、未知のパターンには、“最も
近接した”基準パターンのラベルが割り当てられる。通
常は、この決定は、類似性の測定結果を考慮に入れる規
則に基づいている。
【0011】今日一般的に用いられている多くの認識装
置は隠れマルコフモデルを音声モデルとして用いている
ので、隠れマルコフモデルの簡素な表示が図1の参照番
号20に示されている。しかしながら、本発明の本質が
隠れマルコフモデルを用いた認識装置に制約されるもの
ではないことが認識される。s1,s2,s3として示さ
れる3つの状態を有する隠れマルコフモデルが、図1に
示されている。もちろん、作業上の実施においては様々
な数の状態を用いることができ、かつ、ここに選択され
た状態の数は例示目的のためのものに過ぎない。本発明
はLR(left-to-right)HMMに制約されるものでは
ないが、前記アルゴリズムは、このクラスのモデルには
最良の結果をもたらす。したがって、図1に示されたH
MMは、状態遷移(state transition)が状態を飛び越
すことなく左から右方向へのみ進行するLR HMMで
ある。
【0012】前記隠れマルコフモデルは確率の集合を伴
い、該確率の中には、状態自体に関連するものもあれ
ば、ある状態から他の状態へまたはその状態自体へ遷移
することに関連するものもある。図1において、状態の
遷移が矢印により示されている。矢印の中には、ある状
態から異なる状態への遷移を示すものもあり、その一方
で、ある状態からその状態自体への遷移を示すものもあ
ることを特筆しておく。
【0013】音声モデルにより示すべき各々の語句、単
語、または単音は、それ自体のモデルを有しており、該
モデルは、各々の遷移に関連しかつ各々の状態に関連し
た確率値からなっている。これにより、各々の自己ルー
プ(self-loop)は、参照番号22により示される関連
遷移確率を有しており、他の状態に対する各々のループ
は、その関連遷移確率24を有している。さらに、各々
の状態は、自らに関連した確率情報を有している。
【0014】各々の状態に関連した確率値は、単一の値
が示すよりも複雑であり得るので、システムの中には、
ガウス分布によって、各々の状態に関連した確率を示す
ものもある。ときには、ガウス混合密度(Gaussian mix
ture density)データを具備するために、多数の分布の
混合が混合的な方法で用いられる。このようなデータ
は、参照番号26において図式的に示されており、か
つ、混合指数ポインタ(mixture index pointer)28
により参照される。これにより、混合指数ポインタは各
々の状態に関連し、この結果、該混合指数ポインタは、
該状態のためのガウス混合密度情報を識別する。もちろ
ん、図1に示された音声認識装置および隠れマルコフモ
デルの構造は、本発明を利用できる1つのタイプの認識
装置の例に過ぎないものであるように意図されているこ
とが繰り返し留意される。概して、本発明については、
パターン分類において動的プログラミングを実行する任
意のシステムとともに利用することができる。前述した
ように、最適なHMMは、LRHMMとともに得られ
る。これにより、本発明については、例えば、典型的な
ビタビアルゴリズムの代わりに用いることができる。
【0015】音声認識システムおよび隠れマルコフモデ
リングの基本的構造に関するさらなる情報については、
Junqua, Jean-Claude and Haton, Jean-Paul, Robustne
ss in Automatic Speech Recognition, Fundamental an
d Applications, Kluwer Academic Publishers, 1996
を参照のこと。
【0016】<好ましいデータ構造>本発明について
は、パターン分類段階12が実行される方法を大いに改
良するために用いることができる。本発明は、独自のア
ルゴリズムと結合してテンプレートまたはモデルディレ
クトリ14を示すための独自のデータ構造を用いる。こ
の独自のアルゴリズムは、このデータ構造を横断(trav
erse)して最適にマッチングする仮定を見出す。このセ
クションでは、好ましいデータ構造について説明し、次
のセクションでは、好ましいアルゴリズムについて説明
する。好ましいデータ構造は、テンプレートまたはモデ
ルディレクトリ14を、連結リストに対して平坦化され
た(flattened)語彙ツリーとして示す。図2は、この
トポロジーを示している。より明確には、図2は、文字
からなる個々の単語を記憶する語彙ツリー30の例を示
している。後述するアルゴリズムは、この語彙ツリーを
時間同期(time-synchronous)様式で横断し、かつ、各
々のアクティブノードにおいて動的プログラミング式を
適用する。これにより、アルゴリズムは、ノードからノ
ードへツリーを横断し、特徴抽出段階10(図1)にお
いて識別された文字と各々のノードにおける文字がマッ
チングするかどうかをテストする。
【0017】図2に示される例示的な語彙ツリーを考慮
すると、これらの単語を綴る文字からなる単語を用いる
例は、ここでは、単に教示目的のために選択されている
ことを認識すべきである。音声認識システムにおいて、
段階10における音声分析中に抽出された特徴は、音
素、音節などのような特徴またはこれらの特徴に相当す
る音声の単位(unit)であり得る。すなわち、本発明
は、個々の文字が各々のノードにおいてテストされてこ
れらの文字が綴る単語を識別するアプリケーションのみ
に制約されるものではない。むしろ、任意の適切な単位
を各々のノードにおいて用いることができる。例えば、
連続的な音声の認識において、システムは、各々のノー
ドにおいて単語全体を示すことができ、かつ、語彙ツリ
ーは、これらの単語からなる語句全体または文に対する
ポインターを有する。
【0018】図2を参照すると、平坦化された連結リス
ト32として語彙ツリー30が示されており、該平坦化
された連結リスト32は、該リストのトポロジーだけで
なく、対応するツリーの横断(traversal)をミラーリ
ングするために該リストが横断される道筋をも識別する
ための特定の特徴を多数有していることを特筆してお
く。より明確には、リストは、ツリー内の同じ降下レベ
ルにおける全てのノードが該リスト内における隣接した
エントリーとして示されるように構成されている。これ
により、連結リストは、ツリーのルートノードを示すた
めの第1構成またはノードによって始まる。ルートノー
ド構造の下方には、この例では、ツリーのノードk,h
に対応する次の中間の子ノード(child nodes)のため
の構造が存在する。連結リストによって進行すると、こ
の例では、次の2つのノードは、第2階層(tier)の子
を、すなわち、ツリーのノードaa,aaを示す。次の
3つのノードは、第3階層の孫(ノードr,r,l)を
示す。最後の4つのノードは、ツリーの最終的な階層
を、すなわち、ノードd,d,t,tを示す。
【0019】連結リスト内のノードは、ツリー内の各々
のノードに対応する文字または音声単位だけではなく、
それ以上のものを記憶する。さらに、各々のノードは、
少なくとも1つの順方向ポインターを、ツリーが横断さ
れることがあれば横断される次のノードに対して有して
いる。これにより、最終的にCARDという単語に対応
する音声単位を綴る場合に、第1子ノードkは、ノード
kからノードaaへどのようにツリーを横断するのかを
示すために、孫ノードaaに対するポインターを有して
る。さらに、各々のノードの構成は、右隅の小さなボッ
クスとして図2に示されたフラグを有している。このフ
ラグは、そのノードが親の最後の子を示しているかどう
かを識別するために設定される。この情報は、ツリーの
トポロジーが平坦化された連結リストの形で表される際
に、該ツリーのトポロジーをさらに記述するために用い
られる。
【0020】連結リストの実際の表示は、図3に示され
るデータ構造の形をとる。図3の構造は、平坦化された
連結リストのノードを、隠れマルコフモデルを用いる認
識装置のために構成できる方法を示している。これらの
ノードについては、他のタイプのパラメータをも記憶す
るように容易に構成することができる。したがって、図
3の例示は、本発明の範囲を制約するものとして理解さ
れるべきではない。前記構造については、隠れマルコフ
モデル認識装置以外の認識装置に対応するパラメータお
よび/またはテンプレート情報を記憶するために用いる
ことができる。
【0021】図3を参照すると、各々のノードは、以下
のようなツリーのトポロジー構造を記憶する。各々のノ
ードは、そのノードから次の子ノードへのポインターが
記憶されるデータ要素50を有する。これらのポインタ
ーは、図2に示されているポインターに対応しており、
かつ、ツリーを横断するときに用いられる。さらに、ノ
ードデータ構造は、そのノードが親の最後の子であるか
どうかを示すために設定されるかまたは設定されないブ
ールフラグ(Boolean flag)52を有する。この情報
は、図2において、塗りつぶされていないか(FALS
E)または塗りつぶされている(TRUE)小さなボッ
クスにより図式的に示されている。
【0022】示されている例は隠れマルコフモデルを示
すように構成されているので、ノードデータ構造は、自
己ループに関連した遷移確率と、そのノードに関連した
子に対するループ(loop to child)に関連した遷移確
率とを有するデータ要素54を有する。通常の認識装置
において、これらは、図1の参照番号22,24に示さ
れる確率に相当する浮動小数点値となる。ノードデータ
構造は、さらに、そのノードの対応ガウス混合密度を識
別するために指数またはポインターが記憶されるデータ
要素56を有する。混合指数ポインターは、図1の参照
番号28に示されている。この結果、混合指数ポインタ
ーは、ガウス混合密度26を示すデータの集合を、また
は、所定のノードが所定の音声単位を発する確率を示す
ために認識装置により用いられる他の確率値を示すデー
タの集合を指している。
【0023】前記ノードデータ構造における残りのデー
タ要素は、どの横断が最適な経路または最適なマッチン
グを示すのかを確認するアルゴリズムにより用いられ
る。データ要素58は、アルゴリズムがその分析プロセ
スを実行する際にそのノードに関連する累積確率スコア
を記憶する。データ要素60は、次のアクティブノード
として認識されるツリー内の他のノードへのポインター
を記憶する。アルゴリズムは、どのようにツリーを進行
するのかを決定するために、次のアクティブノードを用
いる。アルゴリズムとこれらの要素が作用する方法とに
関する詳細について、次に説明する。
【0024】<アルゴリズム>好ましいアルゴリズム
は、前述したように、時間同期様式でデータ構造を横断
する。すなわち、アルゴリズムは、特徴抽出プロセス
(図1の段階10)が進行する際に展開される観測デー
タと同期してノードを横断する。通常の認識装置におい
て、入力音声は、一時的に、フレームの形にセグメント
化されるかまたは再分割される。これにより、好ましい
アルゴリズムは、これらのフレームと同期して動作す
る。
【0025】ノードからノードへの横断は、ツリーのト
ポロジー構造により、さらに、「アクティブノードエン
ベロープ(active node envelope)」と称される第2構
造により指示される。アクティブノードは、最も適切に
マッチングする仮定を現時点で示しているノードであ
る。アクティブノードエンベロープは、これらの現在ア
クティブ状態であるノードの連結リストである。アクテ
ィブノードエンベロープは、動的構造を示している。ノ
ードは、アルゴリズムが進行するにつれて、アクティブ
ノードリストに加わるかまたは該リストから出ていく。
ノードは、自分の確率スコアがビーム検索閾値よりも高
ければアクティブリストに加えられ、かつ、以前のアク
ティブノードは、自分のスコアがこの閾値よりも低けれ
ばアクティブリストから切り捨てられる。アクティブノ
ードの確率スコアを計算するために、アルゴリズムは、
以下の動的プログラミング式を各々のアクティブノード
に適用する。 sk(t)=max{sφ(t−1)+aφ,k}+d
k(t) ここで、sk(t)は時刻tにおけるスコアであり、φ
はノードの親である。
【0026】アルゴリズムがどのように語彙ツリーを横
断するのかを理解するために、幾つかの定義を行うべき
である。語彙ツリーを参照すると、ノードの「深さ」
は、そのノードの左側にある状態番号として定義され
る。図4aを参照のこと。番号が大きくなるほど、ノー
ドの深さが増す。語彙ツリーの「列」は、同じ深さの一
式のノードとして定義される。各々の列に対して、ノー
ドに関する任意の順位関係が定義される。「アクティブ
エンベロープ」または「アクティブノードリスト」は、
アクティブ状態であるノードのリストであり、これらの
ノードは、ノードnが親n*を持つノードでありかつノ
ードkが親k*を持つノードであればk*<n*がk<n
を包含する、というような関係が与えられている場合に
順序づけられる。語彙ツリー内における所定の深さの全
てのノードをほぼ任意の順序で処理できるので、メモリ
キャッシュの性能を最大にする横断シーケンスが選択さ
れる。すなわち、プロセッサが所定のアドレスをメモリ
からロードすると、その内蔵キャッシュ機構は、さら
に、メモリからロードされているアドレスのすぐ後に続
く隣接アドレスのブロックをロードする。その後、これ
らの後続アドレスのいずれかにアクセスする必要があれ
ば、プロセッサは、メモリからの代わりにそのキャッシ
ュからこれらにアクセスし、これにより、関連するメモ
リアクセス時間を消去する。本発明では、キャッシュの
この特徴を利用するように、語彙ツリーを横断する。語
彙ツリーは、キャッシュに記憶された情報を利用する方
向にアルゴリズムがツリーを横断するように符号化され
る。
【0027】さらに例示を行うために、図2のノード
を、メモリ内における隣接した配列の形で順序づけるこ
とにする。これにより、好ましい実施形態は、メモリヒ
ープの昇順(increasing ordr)でノードを横断する。
好ましい横断経路は、図4bに示されている。横断は最
も深いアクティブノードにおいてスタートし、かつ次
に、所定の列内において昇順で進行する。いったん、列
内の全てのアクティブノードが横断されると、経路は以
前の列へ進行する。
【0028】当該の好ましいアルゴリズムは、以下の段
階によって進行する: 1.語彙ツリーにおける最も深いアクティブノードから
スタートする。 2.Bを、子の列のアクティブリストにおける最も小さ
な等級のノードとする。 3.アクティブリストを昇順で横断する。 4.現在のノードkの各々の子をcとする。 5.B<cならば、この条件が偽となるまでBをインク
リメントする。 6.B=cならば、動的プログラミング式を適用する。 7.B>cならば、単にcをnの前にリンクする。 8.深さをデクリメントし、かつ、親の列を処理する。
【0029】前述のアルゴリズムは、音声分析モジュー
ルの後続の出力を、その語彙ツリー内のエントリーと比
較し、各々のノードにおいて、どのエントリーが入力音
声の発語とマッチングする最も高い確率を有しているか
を決定する。ツリーの各々のノードを網羅的に分析する
ことが可能であるが、この闇雲な力ずくでの取り組み
は、非常に時間を浪費して非効率的である。好ましいア
ルゴリズムは、入力された発語とマッチングする最も高
い確率を現時点で有しているノードを識別することによ
り、該アルゴリズムの検索空間を、各々の連続的なイテ
レーションにおいて動的に低下させる。アルゴリズム
は、これらのノードを次のアクティブノードとして識別
する。アルゴリズムは、これらのノードを、および、こ
れらのノードのみを、その後続のイテレーションにおい
て用いる。
【0030】前記アルゴリズムは、各々のノードを訪れ
る際に、そのノードの確率スコアを計算する。ループ確
率および入力確率がlk=ak,k,ik=ak*,k(ここ
で、“k*”は“k*”を表すものとする)として定義
されれば、時刻t+1におけるスコアsk(・)について
は、 sk(t+1) = max{sk(t)+lk,sk*(t)+ik}
+dk(t) (ここで、“k*”は“k*”を表すものとする)とし
て計算することができる。
【0031】前記アルゴリズムは、t,t−1の代わり
にt,t+1を用いて、「逆方向」の反復(recursio
n)の代わりに「順方向」の反復を表すことを特筆して
おく。最終的な目的は、バックポインター(すなわち、
親ノードに関する情報)の使用を回避するために、子ノ
ードのみに関する(すなわち、kからではなくk*から
の)情報に基づいて、スコアを計算することである。
【0032】前記アルゴリズムは、「トポロジースコ
ア」rk(t)=sk(t)−dk(t)と、「部分的ト
ポロジースコア」r(t)=sk(t)+1とを定義
する。k*がアクティブリストに属していない場合に、
部分的トポロジースコアはトポロジースコアに等しいこ
とを特筆しておく。アルゴリズムは、以下の工程を実行
することにより、アクティブエンベロープ内のセルを横
断する。 1.スコアsk←rk+dk(音響的マッチング)を計算
する。 2.継承(bequeathal):各々の子cに対して、rc
max{sk+ic,rc}。前記子のスコアフィールド
は、部分的スコアrを保持すると仮定される。 3.自己アクティブ化(self-activation):rk←r
k=rk+lk。スコアフィールドは、現在、部分的トポ
ロジースコアを保持している。何のスコア継承も発生し
なければ、これは、さらに、t+1に対するトポロジー
スコアとなる。
【0033】前述の段階により示されるように、各々の
セルkは、各々のフレームにおけるそれ自身のトポロジ
ースコアと音響的スコアとを計算する。この特性は、
「自己アクティブ化」と称される。各々のセルは、自分
自身をアクティブ状態にし、次に、その全ての子をアク
ティブ状態にする。子が既にアクティブ状態にされてい
れば、親セルのスコアはその子に継承される。前記アル
ゴリズムがskと次のアクティブノードとを変数に保っ
ていれば、継承と自己アクティブ化とを逆転させること
もできる。このような場合に、ノードからのデータにつ
いては、自己アクティブ化後にメモリキャッシュから直
ちに廃棄することができる。継承プロセス中にノードは
その子に対して直接的なアクセスを有することを特筆し
ておく。このことは、前述したようなアクティブエンベ
ロープが構成される方法により保証される。
【0034】<アルゴリズムの動的性質およびアクティ
ブノードエンベロープの伝搬>前述したように、アクテ
ィブノードエンベロープは動的構造である。アクティブ
ノードは、アルゴリズムが進行する際に変化する。アク
ティブノードエンベロープが語彙ツリー上に重ね合わせ
られるときに、アクティブノードエンベロープは、アル
ゴリズムが時間とともに動作する際に伝搬する(propag
ate)と思われる。この概念は、図4aに図式的に示さ
れている。
【0035】図4aは、各々のノードにおいて、文字の
代わりに単語が示されている場合の例を示している。前
述の例では、個々の単語認識装置が示されていた。ツリ
ーの各々のノードは、辞書の単語を具備する文字または
音声単位を示していた。しかしながら、本発明の技術
を、個々の単語の認識装置および連続的な音声の認識装
置の両方において利用できることが想起される。これに
より、図4aは、ツリー構造が連続的な音声の認識装置
内でどのように見えるのかを示しており、この場合に、
個々の単語は各々のノードにおいて示され、かつ、その
出力は文または語句となる。図4aのツリー70を検査
することにより、例えば、“the quick brown fox”と
いう語句が、適切なツリーの横断によりどのように構成
されるのかが分かる。
【0036】図4aは、アクティブノードエンベロープ
が時間とともにどのように伝搬するのかを示している。
タイムライン72は、例示的なツリーに関する次のアク
ティブノードエンベロープが、最初の時刻aと後の時刻
bとにおいて、どのように現れるのかを示している。時
刻aは、“the”という単語が音声認識段階10(図
1)において分析された直後の“the quick brown fo
x”という発語内におけるポイントに対応している。時
刻bは、“brown”という単語が処理されたポイントに
対応している。時刻aにおいて、アクティブエンベロー
プは、参照番号74において示されており、このポイン
トにおいて部分的に分析された発語とマッチングする可
能性が高いアクティブエンベロープに対応する。後の時
刻bにおいて、アクティブエンベロープは、参照番号7
6に示されるように外側に伝搬している。参照番号7
4,76におけるアクティブノードエンベロープは、2
つの異なる時刻(時刻aおよび時刻b)のポイントにお
けるアクティブノードを示している。アルゴリズムは、
これらのアクティブノードに基づいて動作し、次の連続
するイテレーションのために語彙ツリー内へのエントリ
ーポイントを定義するために現在アクティブ状態のノー
ドを用いる。
【0037】この例により示されるように、次のアクテ
ィブノードは、ルートノードにおいて石が水たまりに落
とされた場合に波面(wavefront)が伝搬するように展
開または伝搬し、これにより、波が時間の経過とともに
外側へ伝搬する。単一単語の認識装置において、次のア
クティブノードの波面は、実際に、このような外側への
波状様式で伝搬する。これは、個々の各ノードを一度だ
け用いる必要があるためである。しかしながら、連続的
な音声の認識装置のような、より一般的な場合には、ノ
ードを再度訪れることができ、かつこれにより、次のア
クティブノード波面は、必ずしもルートノードから離れ
ていく方向には伝搬しない。この理由を理解するため
に、連続的な音声の認識装置においては、話し手は単語
を二度以上発することができることを理解すべきであ
る。これにより、“the quick brownquick brown fox”
という発語によって、次のアクティブノード波面が、ル
ートノードに向かって瞬時に伝搬する。
【0038】図5は、当該の好ましい検索アルゴリズム
の動的性質を示している。明確には、図5は、時刻=
0、時刻=1...時刻=4という異なる時刻における
語彙ツリーのサブセットを示している。フレーム型(fr
ame-based)認識装置において、これらの異なる時刻
は、連続するフレームに対応している。アルゴリズム
は、アクティブエントリーポイント矢印により示される
ように、時刻=0のルートノードにおいて始まる。時刻
=0において、ルートノードは、唯一のアクティブノー
ドである。アルゴリズムは、次に、ルートノードの子ノ
ードを識別するために進行し、かつ、これらの子ノード
もまた、時刻=1においてアクティブノードとなる。ア
ルゴリズムは、アクティブエンベロープ横断経路を用い
て、あるアクティブノードから次のアクティブノードを
訪ねる。この経路は、常に、最も深いノード(すなわ
ち、ルートノードから最も遠いノード)において始ま
る。
【0039】時刻=1において、アクティブノードエン
トリーポイントは、参照番号100を付された矢印によ
り指定される。アクティブノード横断経路は、次に、矢
印102,104により示されるように進行する。例示
目的のために、どのように個々のノードがアクティブ状
態になり、かつ次に、ビーム検索プロセスにより消去さ
れるのかを示す例示的な確率スコアが用いられる。時刻
=1において、ルートノードが100の確率スコアを有
していると仮定する(全てのスコアは、図5の括弧内に
示されている)。さらに、他の2つのアクティブノード
が、60およ80の確率スコアをそれぞれ有していると
仮定する。アルゴリズムは、所定の時間フレームにおけ
る最適スコアからの最大偏差として定義される「ビーム
サイズ」を用いるビーム検索技術を用いる。この例のた
めに、ビームサイズが30であると仮定する。ビーム検
索アルゴリズムは、ノードの確率スコアが、最も高い確
率のノードのスコアよりも、ビームサイズ分よりも大き
な差を有して低ければ、そのノードがさらなる処理から
消去されることを条件指定する。すなわち、ノードの確
率スコアが最大スコア−30よりも低ければ、そのノー
ドは後続の処理においてスキップされる。
【0040】時刻=0において、最大確率スコアは、ル
ートノードと関連したスコア、すなわち、100の確率
である。ビームは100−30、すなわち70である。
60のスコアを有するノードはビームよりも低く、これ
により、ビーム検索アルゴリズムにより切り捨てられ易
いことを特筆しておく。したがって、時刻=2において
は、ルートノード、および、アクティブノードエントリ
ー矢印100により指されるノードという、2つのアク
ティブノードのみが存在する。確率スコアは各々の時間
間隔において再計算されるので、各々のアクティブノー
ドに対する新たな値が計算される。ルートノードが16
0の確率スコアを有しており、かつ、もう一方のアクテ
ィブノードが120の確率スコアを有していると仮定す
る。さらに、時刻=2において、アクティブノード横断
経路が矢印100において入り、かつ、矢印102によ
り示されるように進行することを特筆しておく。
【0041】時刻=2においてビームを計算することに
より、アルゴリズムは、ビームが160−30=130
であると決定する。120の確率スコアを有するノード
はビーム値よりも低いので、さらなる処理から切り捨て
られる。これにより、ルートノードノードのみが、ビー
ムの切り捨てから生き残る。
【0042】時刻=3において、ルートノードはアクテ
ィブ状態のままであり、これにより、その子ノードもま
たアクティブ状態である。この場合には、時刻=2にお
いてビーム検索により切り捨てられた最も高い子ノード
は、アクティブ状態のルートノードの子であるために、
時刻=3において再アクティブ化されていることを特筆
しておく。さらに、アクティブノードエントリーポイン
ト100は最も深いノードを識別し、かつ、残りのアク
ティブノード矢印102,104はアクティブノード経
路がどのように接続されかつ定義されるのかを示すこと
を特筆しておく。この例において、図3に示されるよう
に、ルートノードが200の確率スコアを有しており、
エントリーポイントノードが220の確率スコアを有し
ており、かつ、残りのノードが240の確率スコアを有
していると仮定する。ビーム計算240−30=210
は、今度はルートノードがさらなる処理から切り捨てら
れるという結果となる。その理由は、ルートノードの確
率スコアがビーム値よりも低いためである。これによ
り、時刻=4において、ルートノードは、もはやアクテ
ィブ状態ではない。しかしながら、今度は最も低いノー
ドに関連する子ノードがアクティブ状態にされる。エン
トリーポイント100は最も深いノードへ移動する。該
ノードは、偶然に、以前の最も深いノードからの子ノー
ドの1つである。矢印102,104,106は、アク
ティブノード経路がどのように横断されるのかを示す。
前述の場合のように、エントリーポイントは常に最も深
いノードに存在し、かつ、横断は、最も深いノードが最
初に横断されかつ横断経路が該最も深いノードの親ノー
ドとともに終了するように進行する。
【0043】留意されている前述の例とともに、以下
に、図6のフローチャートと、付録Iにおいて現れる詳
細な疑似コードリストとを参照して、当該の好ましいア
ルゴリズムについて説明する。図6を参照すると、好ま
しいアルゴリズムは、段階200において、現在のアク
ティブノードリストの親ノードを、ビームスコアよりも
低いスコアを有しているためにさらなる考察から除去す
る(すなわち、ビームアウト(beam out)する)必要が
あるかどうかを調べることにより始まる。次に、アクテ
ィブノードリストは、段階202に示されるように横断
される。段階204において、音響的マッチングが計算
され、かつ、ビームが更新される。次に、段階206に
おいて、アルゴリズムは親から子へ動的プログラムマッ
チングを実行し、かつ、段階208において、次のアク
ティブノードリストを時刻t+1の間に横断できるよう
に接続が更新される。次に、この手順は、段階200へ
戻ることによって反復される。
【0044】図6のフローチャートに対応する段階は、
下記の付録Iに示される疑似コードにおける見出しリス
トとして挿入されている。付録IIは、語彙ツリーを発生
させるために用いられるアルゴリズムのための疑似コー
ドリストを与える。
【0045】連続的な音声の認識装置において、プロセ
ッサは、音響的マッチングと、検索アルゴリズムそれ自
体と、言語のモデリングとの計算に時間を費やす必要が
ある。言語モデルペナルティの遅れた適用に起因して、
検索空間を吐き出す(spit)必要がある。したがって、
語彙ツリーに埋め込まれた仮定を記憶することはもはや
不可能である。しかしながら、ワードインターナル文脈
依存モデル(word-internal context-dependent model
s)が用いられれば、静的語彙ツリーに関する1つの例
が必要であるのみである。さらに、ユニグラム(unigra
m)言語モデル(LM)を前因子とする(pre-factor)
ことができる。これらのモデルは、ユニグラムまたはバ
イグラム(bigram)言語モデルのルックアヘッド(look
ahead)のために有用である。さらに、語彙ツリー内に
おける膨大な数のノードは、同じLMルックアヘッドス
コアを共有する。
【0046】
【表1】
【表2】
【0047】前述のことから、本発明が、音声認識シス
テムにおける動的プログラミングマッチングを実行する
ために、非常に小型の効率的なデータ構造およびアルゴ
リズムを提供することが分かる。このアルゴリズムおよ
びデータ構造については、種々の動的プログラミングお
よび認識のアプリケーションにおいて、典型的なビタビ
アルゴリズムの代わりに用いることができる。語彙ツリ
ー構造およびアクティブノード横断技術は、メモリおよ
び/または処理速度に制約を与えている認識システムに
おいて非常に有利に用いることができる、メモリに関し
て非常に効率的なプロセスという結果となる。したがっ
て、本発明は、埋め込みシステム、顧客製品、および、
大容量メモリや高速プロセッサを利用できない場合の他
の認識アプリケーションにおいて有用である。
【0048】本発明について、その好ましい実施形態の
形で説明してきたが、その一方で、本発明については、
添付の請求項に示された本発明の真意から逸脱すること
なく変更がなされ得ることが理解される。
【図面の簡単な説明】
【図1】 本発明によって構成された復号器を、モデル
ベースの認識装置を実施するために用いることができる
方法を示す音声認識装置のブロック図である。
【図2】 本発明において用いられる語彙ツリーに関す
る、当該の好ましいデータ構造を示す図である。
【図3】 語彙ツリーの各々のノードを示すために用い
られるデータ構造図である。
【図4a】 実行される基本的なタスクを示すタイムラ
イン図である。
【図4b】 アクティブ状態のエンベロープが横断され
る方法を示すツリー図である。
【図5】 アルゴリズムの動的性質を理解するために有
用な一連のツリー図である。
【図6】 アルゴリズムのフローチャートである。
【符号の説明】
10 音声分析および特徴抽出段階 12 パターン分類段階 14 テンプレートまたはモデルディレクトリ 16 決定段階 20 隠れマルコフモデル 22 自己ループ遷移確率 24 他の状態への各々のループの遷移確率 26 ガウス混合密度 28 混合指数ポインタ 30 語彙ツリー 32 平坦化された連結リスト 70 ツリー 72 タイムライン 74,76 アクティブノードエンベロープ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 パトリック・ニュイエン アメリカ合衆国・93103・カリフォルニ ア・サンタバーバラ・イー・コタ・ストリ ート・1117・ナンバーエー Fターム(参考) 5D015 HH05 HH08 HH23

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 プロセッサによりアクセス可能であり
    かつコンピュータにより読み取り可能なメモリにおいて
    実施されるツリーデータ構造と、 前記プロセッサにより実施される横断アルゴリズムとを
    具備し、 前記ツリーデータ構造は、ルートノードと、該ルートノ
    ードからトポロジー的に最も遠くにある最も深い子の世
    代を包含する複数の親−子世代とをトポロジー的に定義
    する複数のノードを有し、 前記横断アルゴリズムは、一式の横断規則に基づいて前
    記ノードを横断し、これにより、所定の世代のノード
    は、該所定の世代の親ノードが処理される前に処理さ
    れ、最も深い子の世代は最初に処理され、かつ、各々の
    世代のノード間の横断は同じトポロジー方向に進行する
    ことを特徴とする改良された動的プログラミングシステ
    ム。
  2. 【請求項2】 前記ツリーデータ構造は、隣接したメ
    モリ位置を各々の世代のノードが占有する平坦な表示と
    して、前記メモリ内で符号化されることを特徴とする請
    求項1に記載の改良された動的プログラミングシステ
    ム。
  3. 【請求項3】 前記ツリーデータ構造は、連結リスト
    によって示されている親−子世代によって、前記メモリ
    内で符号化されることを特徴とする請求項1に記載の改
    良された動的プログラミングシステム。
  4. 【請求項4】 前記ツリーデータ構造は、隣接したメ
    モリ位置を各々の世代のノードが占有し、かつ、同じ親
    の子の間におけるトポロジー的な境界を指定する証印を
    該各々の世代のノードが有する平坦な表示として、前記
    メモリ内で符号化されることを特徴とする請求項1に記
    載の改良された動的プログラミングシステム。
  5. 【請求項5】 前記ノードのうちの選択されたものを
    アクティブノードとして指定するための機構をさらに具
    備することを特徴とする請求項1に記載の改良された動
    的プログラミングシステム。
  6. 【請求項6】 前記ノードのうちの選択されたものを
    アクティブノードとして指定するための機構は、前記ツ
    リーデータ構造に関連したアクティブエンベロープデー
    タ構造を具備することを特徴とする請求項5に記載の改
    良された動的プログラミングシステム。
  7. 【請求項7】 前記ノードのうちの選択されたものを
    アクティブノードとして指定するための機構をさらに具
    備し、 前記横断アルゴリズムは、アクティブノードのみが処理
    される横断規則を有することを特徴とする請求項1に記
    載の改良された動的プログラミングシステム。
  8. 【請求項8】 前記ツリーデータ構造は、語彙目録を
    示す語彙ツリーであることを特徴とする請求項1に記載
    の改良された動的プログラミングシステム。
  9. 【請求項9】 前記ツリーデータ構造は、音声認識装
    置の語彙目録を示す語彙ツリーであることを特徴とする
    請求項1に記載の改良された動的プログラミングシステ
    ム。
  10. 【請求項10】 プロセッサによりアクセス可能であ
    りかつコンピュータにより読み取り可能なメモリにおい
    て実施されるツリーデータ構造と、 ノードのうちの選択されたものをアクティブノードとし
    て指定するための機構と、 前記プロセッサにより実施される横断アルゴリズムとを
    具備し、 前記ツリーデータ構造は、複数のノードを有し、 前記横断アルゴリズムは、前記アクティブノードのみが
    処理される一式の横断規則に基づいて前記ノードを横断
    することを特徴とする改良された動的プログラミングシ
    ステム。
  11. 【請求項11】 前記ノードのうちの選択されたもの
    をアクティブノードとして指定するための機構は、前記
    ツリーデータ構造に関連したアクティブエンベロープデ
    ータ構造を具備することを特徴とする請求項10に記載
    の改良された動的プログラミングシステム。
  12. 【請求項12】 前記横断アルゴリズムは、横断され
    るノードに尤度スコアを割り当てる動的プログラミング
    プロセスを有することを特徴とする請求項10に記載の
    改良された動的プログラミングシステム。
  13. 【請求項13】 前記ノードのうちの選択されたもの
    をアクティブノードとして指定するための機構は、前記
    アクティブノードを指定するために、前記尤度スコアを
    用いることを特徴とする請求項12に記載の改良された
    動的プログラミングシステム。
  14. 【請求項14】 前記横断アルゴリズムは、横断され
    るノードに尤度スコアを割り当てる動的プログラミング
    プロセスを有し、 前記ノードは、該ノードの尤度スコアが所定の閾値より
    も高ければアクティブノードとして指定されることを特
    徴とする請求項10に記載の改良された動的プログラミ
    ングシステム。
  15. 【請求項15】 前記所定の閾値は、最も高い尤度ス
    コアに基づいて計算されることを特徴とする請求項14
    に記載の改良された動的プログラミングシステム。
  16. 【請求項16】 前記ノードのうちの選択されたもの
    をアクティブノードとして指定するための機構は、アク
    ティブエンベロープを定義し、かつ、所定の閾値よりも
    低い尤度スコアを有するノードを除去することにより、
    該アクティブエンベロープを伝搬するための一式の規則
    を用いることを特徴とする請求項10に記載の改良され
    た動的プログラミングシステム。
  17. 【請求項17】 前記ノードのうちの選択されたもの
    をアクティブノードとして指定するための機構は、アク
    ティブエンベロープを定義し、かつ、所定の閾値よりも
    高い尤度スコアを有するノードを挿入することにより、
    該アクティブエンベロープを伝搬するための一式の規則
    を用いることを特徴とする請求項10に記載の改良され
    た動的プログラミングシステム。
  18. 【請求項18】 ノードを挿入するための前記一式の
    規則は、前記アクティブエンベロープ内のノードが該ノ
    ードのトポロジー指数により分類されることを保証する
    ことを特徴とする請求項17に記載の改良された動的プ
    ログラミングシステム。
  19. 【請求項19】 前記プロセッサはキャッシュを用
    い、 前記ツリーデータ構造は、該ツリーの横断が前記キャッ
    シュ内に進行するように、前記メモリ内で符号化される
    ことを特徴とする請求項1に記載の改良された動的プロ
    グラミングシステム。
  20. 【請求項20】 前記プロセッサはキャッシュを用
    い、 前記ツリーデータ構造は、該ツリーの横断が前記キャッ
    シュ内に進行するように、前記メモリ内で符号化される
    ことを特徴とする請求項10に記載の改良された動的プ
    ログラミングシステム。
JP2001232574A 2000-07-31 2001-07-31 語彙ツリーを用いた認識システム Pending JP2002082689A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US628,828 1990-12-17
US09/628,828 US7035802B1 (en) 2000-07-31 2000-07-31 Recognition system using lexical trees

Publications (1)

Publication Number Publication Date
JP2002082689A true JP2002082689A (ja) 2002-03-22

Family

ID=24520472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001232574A Pending JP2002082689A (ja) 2000-07-31 2001-07-31 語彙ツリーを用いた認識システム

Country Status (8)

Country Link
US (1) US7035802B1 (ja)
EP (1) EP1178466B1 (ja)
JP (1) JP2002082689A (ja)
CN (1) CN1156820C (ja)
AT (1) ATE293275T1 (ja)
DE (1) DE60109999T2 (ja)
ES (1) ES2238394T3 (ja)
TW (1) TW533403B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007035B2 (en) * 2001-06-08 2006-02-28 The Regents Of The University Of California Parallel object-oriented decision tree system
GB2391679B (en) 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
FR2857528B1 (fr) * 2003-07-08 2006-01-06 Telisma Reconnaissance vocale pour les larges vocabulaires dynamiques
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
GB0420464D0 (en) 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
DE602005012596D1 (de) * 2004-10-19 2009-03-19 France Telecom Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system
US7552106B2 (en) * 2004-11-17 2009-06-23 International Business Machines Corporation Variable length file entry navigation
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US9131117B2 (en) * 2006-09-18 2015-09-08 Telcordia Technologies, Inc. Optimal content distribution in video-on-demand tree networks
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US10564944B2 (en) * 2010-01-07 2020-02-18 Microsoft Technology Licensing, Llc Efficient immutable syntax representation with incremental change
US9230548B2 (en) * 2012-06-06 2016-01-05 Cypress Semiconductor Corporation Hybrid hashing scheme for active HMMS
RU2602970C2 (ru) * 2014-12-01 2016-11-20 Общество С Ограниченной Ответственностью "Яндекс" Способ организации множества объектов, содержащихся в дереве квадрантов, в односвязный список и компьютер, используемый в нем
US9507877B2 (en) 2014-12-01 2016-11-29 Yandex Europe Ag Method of and system for storing spatial objects
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US10481863B2 (en) * 2016-07-06 2019-11-19 Baidu Usa Llc Systems and methods for improved user interface
US11556775B2 (en) 2017-10-24 2023-01-17 Baidu Usa Llc Systems and methods for trace norm regularization and faster inference for embedded models
US10623557B2 (en) * 2018-05-30 2020-04-14 International Business Machines Corporation Cognitive telephone fraud detection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US5983180A (en) 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
US6374222B1 (en) * 1998-08-12 2002-04-16 Texas Instruments Incorporated Method of memory management in speech recognition
US6389416B1 (en) * 1999-02-19 2002-05-14 International Business Machines Corporation Depth first method for generating itemsets
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition

Also Published As

Publication number Publication date
DE60109999D1 (de) 2005-05-19
US7035802B1 (en) 2006-04-25
TW533403B (en) 2003-05-21
DE60109999T2 (de) 2005-09-01
EP1178466A2 (en) 2002-02-06
CN1349211A (zh) 2002-05-15
EP1178466B1 (en) 2005-04-13
ATE293275T1 (de) 2005-04-15
CN1156820C (zh) 2004-07-07
EP1178466A3 (en) 2003-04-23
ES2238394T3 (es) 2005-09-01

Similar Documents

Publication Publication Date Title
JP2002082689A (ja) 語彙ツリーを用いた認識システム
CN108305634B (zh) 解码方法、解码器及存储介质
Chen Bayesian grammar induction for language modeling
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US7805312B2 (en) Conversation control apparatus
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
JP6346893B2 (ja) ハイブリッドgpu/cpuデータ処理方法
US8321218B2 (en) Searching in audio speech
JPH0362000A (ja) 陰マルコフモデル音声認識の効率的簡潔化アルゴリズム
WO2009044931A1 (en) Automatic speech recognition method and apparatus
KR20070045748A (ko) 개체명 검출 장치 및 방법
US8255220B2 (en) Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database
CN115862600B (zh) 语音识别方法、装置及车辆
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
JPH08505957A (ja) 音声認識システム
JP2003208195A5 (ja)
JP2009003110A (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
WO2012076895A1 (en) Pattern recognition
Ortmanns et al. The time-conditioned approach in dynamic programming search for LVCSR
JP2905674B2 (ja) 不特定話者連続音声認識方法
Lacouture et al. Lexical tree compression
JP2015118354A (ja) 音声認識装置および音声認識方法
McDonough et al. An algorithm for fast composition of weighted finite-state transducers
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム