JP5331801B2 - 言語モデル先読み確率を計算する方法および装置 - Google Patents

言語モデル先読み確率を計算する方法および装置 Download PDF

Info

Publication number
JP5331801B2
JP5331801B2 JP2010513518A JP2010513518A JP5331801B2 JP 5331801 B2 JP5331801 B2 JP 5331801B2 JP 2010513518 A JP2010513518 A JP 2010513518A JP 2010513518 A JP2010513518 A JP 2010513518A JP 5331801 B2 JP5331801 B2 JP 5331801B2
Authority
JP
Japan
Prior art keywords
language model
probability
word
tree
prefetch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010513518A
Other languages
English (en)
Other versions
JP2010540976A (ja
Inventor
チェン、ランジョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2010540976A publication Critical patent/JP2010540976A/ja
Application granted granted Critical
Publication of JP5331801B2 publication Critical patent/JP5331801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

本発明は言語モデル先読み確率を計算する方法および装置に関する。
言語モデル(language model)LMは、音響的観測から独立したものであり、ASRにおいて、ある言語における単語が文を構成するためにどのようにして連結されるべきかに関する制約条件を組み込むのに使用される。一般には、n−1個の履歴単語を考慮するnグラム(n-gram)に基づく言語モデルが使用される。言語モデルを適用するためには完全な単語が必要とされるため、単語が完成される前に言語モデルを適用し始めることを可能にする言語モデル先読み(language model look ahead:LMLA)確率が導入された。
言語モデル先読み(LMLA)は、nグラム復号プロセスを加速させることができる。LMLAの基本的な考えは、現在の単語IDが未知であるときにLMLA確率を言語スコアとして使用するというものである。この技術は、復号プロセスにおけるより効率のよい枝刈り(pruning)につながる。しかし、LMLA確率を生成する計算コストは、従来の方法においては高い。高次のLMLA、例えば、トライグラム(trigram)LMLAが用いられるとき、探索空間において発生する異なるトライグラムコンテキストの数は、バイグラム(bigram)コンテキストの数と比べて劇的に増大する。この結果、トライグラムLMLAの計算コストはバイグラムLMLAよりずっと高くなり、このコストは、この技術の使用による探索空間の縮小によってさえも埋め合わせることができない。この問題を克服するために、ノードベースのLMLA確率キャッシュ、LM確率および完全なハッシングを事前に計算することを含む、いくつかの優れた方法が提示されている。これらの方法の大部分は、どのようにしてLMLA確率を効率よくキャッシュに入れ、探索するかに注目したものである。しかし、LMLAを生成すること自体が時間のかかるプロセスである。
本発明はこの問題に対処するものであり、第1の態様においては、言語の語彙の単語がツリーの葉に位置する言語モデル先読みツリーの各ノードにおける先読み確率を計算するシステムであり、
第1の低次言語モデルを使用して語彙の単語それぞれに言語モデル確率を割り当てる手段と、
第1の言語モデルを使用してツリーのすべてのノードの言語先読み確率を計算する手段と、
語彙の1つまたは複数の単語の言語モデル確率が、より高次の言語モデルを使用して計算することができるかどうか判定し、単語をより高次の言語モデルを用いて更新する手段と、
言語モデルが更新されている単語によって影響を受けるノードにおいてのみ先読み確率を更新する手段と
を備えるシステムを提供する。
本発明では、より低次のLMLAツリーからより高次のLMLA確率を生成する。この方法は、nグラムのLMの疎性(sparseness)に基づくものである。バックオフベースのLMにおいては、単語コンテキスト情報が与えられると、nグラム確率のごくわずかな部分だけが明示的に推定され、nグラム確率の残りの部分は、バックオフ推定値によって計算される。このことに基づいて、本明細書では、nグラムLMLAツリーの計算を、(n−1)グラムLMLAツリーから開始する。nグラムLMLAツリーのノードが、計算できなかったために、nグラム値が割り当てられていない場合、このノードのLMLA確率は、(n−1)グラムLMLAツリーから直接取得することができる。
この方法を使用すると、バイグラムLMLAツリーを生成するプロセスを3倍加速させることができ、トライグラムLMLAツリー生成するプロセスを12倍加速させることができる。
従来の方法は、LM確率とLMLA確率の計算を2つの独立したプロセスとして扱う。しかし、LMLA確率の計算はLM確率の計算と強い関連性を有する。この関係を利用すれば、LMLA確率の計算を大幅に加速させることができる。
本発明は、統計的言語モデルおよび言語モデル先読みを用いて実行される復号器における言語モデル(LM)先読み確率の計算回数を低減する。さらに本発明は、LM先読みのメモリコストも低減する。
nグラム言語モデルを考えるときには、単語と先行する単語の出現回数に関する統計情報を照合する必要がある。しかし、このデータは必ずしも利用できるとは限らない。この問題に対処するために、例えば、ある特定の単語について、この単語に利用できるバイグラムデータがないときに、ユニグラム(unigram)モデルからバイグラム確率を推定することを可能にする、バックオフパラメータの概念が導入された。システムは、好ましくは、バックオフパラメータをより低次の言語モデルと共に使用する。システムは、このバックオフパラメータを記憶し、または計算するように構成され得る。
語彙の1つまたは複数の単語の言語モデル確率をより高次の言語モデルを使用して計算することができるかどうか判定するために、システムは、好ましくは、単語が前に認識された単語と組み合わさって出現しているかどうか判定するように構成されている。
より高次のモデルは、好ましくは、バイグラム、トライグラム、フォーグラム(4-gram)、またはより高次のnグラムモデルである。
好ましい実施形態において、システムは、マルチキャッシュ構造を有するメモリをさらに備え、このメモリのキャッシュの数は、システムにおいて使用されるnグラムモデルの次数に等しい。
第2の態様において、本発明は、
音声を受け取る手段と、
音声から音響信号を抽出し、音声に含まれる単語の第1の確率を求める手段と、
前述のような言語モデル先読みツリーの各ノードにおける先読み確率を計算するシステムを備える、音声に含まれる単語の第2の確率を求めるための言語モデルを提供する手段と、
第1の確率と第2の確率を組み合わせ、受取り音声から認識される単語を出力する手段と
を備える自動音声認識システムを提供する。
音声を受け取る手段は、マイクロホン、音声の記録などとすることができる。
第3の態様において、本発明は、言語の語彙の単語がツリーの葉に位置する言語モデル先読みツリーの各ノードにおける言語モデル先読み確率を計算する方法であって、
第1の低次言語モデルを使用して語彙の単語それぞれに言語モデル確率を割り当てることと、
第1の言語モデルを使用してツリーのすべてのノードの言語先読み確率を計算することと、
語彙の1つまたは複数の単語の言語モデル確率が、より高次の言語モデルを使用して計算することができるかどうか判定し、単語をより高次の言語モデルを用いて更新することと、
言語モデルが更新されている単語による影響を受けるノードにおいてのみ先読み確率を更新することと
を備える方法を提供する。
好ましくは、より低次の言語モデル確率を求めることは、バックオフパラメータを使用する。
この方法は動的な方法であり、単語を構成するために新しい音響信号が絶えず復号されることが必要になる。新しいLMLAツリーが必要とされる場合、このツリーは、
言語モデル先読み確率をより低次の言語モデルにリセットし、
語彙の1つまたは複数の単語の言語モデル確率を、より高次の言語モデルを使用して計算することができるかどうか判定し、単語をより高次の言語モデル確率を用いて更新し、
言語モデルが更新されている単語により影響を受けるノードにおいてのみ先読み確率を更新する
ことによって構築することができる。
LMLAツリーは、受け取られる音響ベクトルごとに更新される必要はない。例えば、新しいLMコンテキストを生じることにならない新しいベクトルが求められ、またはこのコンテキストのLMLAツリーがキャッシュ内で見つけることができる場合には、LMLAを更新する必要は生じない。
第4の態様において、本発明は、
音声を受け取ることと、
音声から音響信号を抽出し、音響信号に基づいて音声に含まれる単語の確率を求めることと、
前述のように言語モデル先読みツリーの各ノードにおける先読み確率を計算することを備える言語モデルを提供することと、
受取り音声から認識される単語を出力することと
を備える自動音声認識方法を提供する。
この説明は音声認識を中心としたものになるが、本発明は、音声−音声翻訳、OCR、手書き文字認識、または統計的言語モデル情報を使用した他の動的プログラミング探索にも適用され得ることが、当業者には理解されるであろう。システムはDNAゲノム配列決定にさえも適用され得る。
本発明は、ハードウェアとしても、汎用コンピュータ内のソフトウェア上でも実施することができる。さらに本発明は、ハードウェアとソフトウェアの組み合わせとして実施することもできる。また本発明は、単一の処理装置によって実施することもでき、処理装置の分散ネットワークによって実施することもできる。
本発明はソフトウェアによって実施され得るため、本発明は、任意の適切な搬送媒体で汎用コンピュータ提供されるコンピュータコードを包含するものである。搬送媒体には、フロッピー(登録商標)ディスク、CD−ROM、磁気装置、プログラマブル・メモリ・デバイスといった任意の記憶媒体、または、電気的信号、光学的信号、マイクロ波信号などの任意の信号といった任意の過渡的媒体が含まれ得る。
図1は、ASRの探索空間を示す概略図である。 図2は、単語ネットワークを示す概略図である。 図3は、単語ネットワークとバイグラムLMとに基づく探索空間を示す概略図である。 図4は、LM先読み確率ツリーを示す概略図である。 図5は、従来技術の方法に従って言語モデル先読み確率を計算する際の各ステップを示す図である。 図6は、本発明の一実施形態に従って言語モデル先読み確率を計算する際の各ステップを示す図である。 図7は、マルチキャッシュ構造に基づくトライグラムLMLAを示す図である。 図8は、LMLAを使用する信号処理のための一般的なシステムを示す概略図である。
次に本発明を、以下の非限定的な好ましい実施形態を参照して、より詳細に説明する。
自動音声認識(ASR)の間、認識されるべき音声は、まずディジタル化され、次に、音声のスペクトル領域内容を表す特徴が計算される。これらの特徴を認識システムの語彙内の単語と照合するためには、2種類の確率分布が使用される。これらの一方は、上記特徴から導出される音響ベクトルを発話されている単語と一致させる確率を表す音響−音声または音響モデルであり、他方は言語モデルである。言語モデルは、音響的観測から完全に独立したものであり、文全体を構成するために語彙の単語をどのようにして連結するべきかに関する制約条件を組み込むのに使用される。
本発明は言語モデルに関連するものである。しかし、本発明の背景として、まず、ASRの一般的説明を行う。
本明細書で使用する場合、「単語」という語は統計的言語モデルの基本単位を表す。「単語」に関連して、単語列、サブワード列、および辞書の概念は以下のとおりである。
a.単語列
i.復号の一般的問題は、入力信号に含まれる「単語」の列を見つけることである。「単語」は、言語モデル(LM)における統計的単位の列である。
ii.単語の列は、nグラムモデルと呼ばれる統計的LMによってモデル化することができ、nグラムモデルは、最も新しいn−1個の履歴単語を使用して現在の単語の確率を計算する。単語の列w…wがあるものと仮定すると、nグラムモデルに基づいて、w…wの確率は以下のように計算することができる。
Figure 0005331801
式1において、単語履歴wi−n+1…wi−1は、i=1のときはP(w)とし、i≧2かつi−n+1<1である場合、P(w|w…wi−1)とする。
b.サブワード列
本特許において考慮される復号タスクでは、各単語は1つまたは複数のサブワード単位、例えば、音声における単音、OCRなどにおける文字、「sat/s A t/,sang/s A n g/」などとして表すことができる。
c.辞書
発音辞書は、探索空間における単語集合の一般的表現であり、多くの場合、単語ネットワークによって表され、単語ネットワーク内の各パスは単語のサブワード列を表す。広く使用されている単語木は、単語ネットワークの特殊例である。
復号の主要タスクは、膨大な探索空間の中から最も高い尤度を有する単語列を選択することである。隠れマルコフモデル(Hidden Markov Model:HMM)ベースの大語彙連続音声認識(Large Vocabulary continuous speech recognition:LVCSR)では、復号問題は、音響特徴列が与えられたとすると、辞書、音響モデルおよび言語モデル情報を組み合わせること、ならびに、(最大事後尤度を有する)最善のパスを、すなわち、各ノードがHMM状態を所与の時刻と対応付ける格子探索空間(trellis search space)から最善のHMM状態列を見つけることである。図1に、ASRの探索空間の一例(NeyおよびOrtmanns、2000年)を示す。
図2に単語ネットワークを示す。効率よくするために、ASRの発音辞書は普通、各弧(arc)が音素モデルを表す単語ネットワークとして編成される。音素モデルは、コンテキスト依存とすることも、コンテキスト独立とすることもできる。広く使用されている発音プレフィックスツリーは、単語ネットワークの特殊例である。
図3に、H.NeyおよびS.Ortmanns著、「LVCSRのための動的プログラミング探索の進展」、IEEE会報、2000年8月、1224〜1240頁(H. Ney and S. Ortmanns, "Progress in Dynamic Programming Search for LVCSR", Proceedings of the IEEE, August 2000, pp1224-pp1240)に記載されているASRの探索空間の概略図を示す。図3において、単語ネットワークは3つの単語A、B、Cと無音を含む。各フレームtにおいて、同じ単語で終わるすべての仮説が再結合され、対応する単語履歴と共に新しい単語ネットワークに伝播される。
音響特徴列が与えられたとすると、復号の原理は、
Figure 0005331801
で表すことができ、式中、w は探索空間内の単語列であり、x はフレーム1からフレームTまでの音響特徴列であり、s はフレーム1からフレームTまでのHMM状態列である。SLM情報を用いた時間同期ビタビ復号では、フレームtごとに、動的プログラミングプロセスを、単語内のプロセスと、この単語の境界におけるプロセスの2つの部分に分割することができる。バイグラム復号が用いられる場合、単語内のプロセスは以下のように表すことができる。
Figure 0005331801
式中、Q(t,s)は、先行要素vを有する単語ネットワークの状態sにおいて時刻tに終わる最善の部分パスのスコアであり、システムはQ(t,s)を使用して仮説を伝播する。B(t,s)は、先行要素vを有する単語ネットワークの状態sにおいて時刻tに終わる最善の部分パスにおける最後の履歴単語の終了時刻であり、システムは、B(t,s)を使用してトレースバック情報を記憶する。s max(t,s)は、仮説(t,s)および先行要素vについての最適先行要素状態である。
単語の境界においては、部分パスの総スコアにLMスコアが加えられる必要があり、次いで、時刻tに単語wとして終わるすべての仮説が再結合される必要がある。すなわち、以下のとおりである。
Figure 0005331801
式中、Sは単語ネットワークにおける単語wの最後の状態である。LMスコアが加えられた後、新しいスコアを使用して、次のステップの動的プログラミングプロセスが実行される。すなわち、以下のとおりである。
Figure 0005331801
スコアの小さい仮説は枝刈りによって除去される。枝刈りの手法には、音響ビーム枝刈り、言語モデルビーム枝刈りおよびヒストグラム枝刈りなどが含まれる。フレームtごとに、音響ビーム枝刈りでは、最善の状態仮説を選択し、最善のスコアに近いスコアを有する仮説だけが保持され、すなわち、
Figure 0005331801
であり、状態仮説(t,s,v)は、
Figure 0005331801
の場合除去され、式中、fACは枝刈り閾値である。
言語モデル枝刈りは、現在のフレームtにおいて単語境界に到達する仮説にだけ適用される。これは以下のように示すことができる。
Figure 0005331801
単語境界における仮説(t,s=0,v)は、
Figure 0005331801
の場合除去される。
前述のように、本発明は言語モデル、より具体的には、LM先読み技術に関連するものである。
前述の復号アルゴリズムは辞書単語ネットワークに基づくものであり、辞書単語ネットワークでは、他の単語と共用されない最初の弧に到達するまでシステムが単語IDを取得することができない。したがって、単語IDは普通、辞書単語ネットワークの末尾の近くに位置する。言語モデルは、単語をどのようにして連結すべきかに関する制約条件を提供するものであるため、単語IDが検出されるとき、ごく後の方で言語モデルを復号プロセスに組み込むことができる。
しかし、LMスコアを可能な限り早く導入するために、S.Ortmanns、H.NeyおよびA.Eiden著、「大語彙音声認識のための言語モデル先読み」、音声言語処理国際会議会議録、米国ペンシルバニア州フィラデルフィア、1996年10月、2095〜2098頁(S. Ortmanns, H. Ney and a. Eiden, "Language-Model Look-ahead for Large Vocabulary Speech Recognition ", in Proc. Int. Conf. Spoken Language Processing, Philadelphia, PA, Oct. 1996, pp2095-pp2098)には、LM先読み技術が記載されている。
LMコンテキストが与えられたとすると、LM先読みネットワーク内のノードごとに、LM先読み確率は、この特定のノードから到達することのできるすべての単語にわたる最大LM確率として定義される。すなわち、
Figure 0005331801
であり、式中、W(n)はノードnから到達することのできる単語の集合を表す。
LM先読みの基本的な考え方は、LM先読み確率を動的プログラミング手順に組み込んでより効率のよい枝刈りを実現するというものである。LM先読み技術を用いない場合、ある単語内の仮説のスコアは、現在の単語IDが知られていないため、現在の単語のLMスコアを含まない。LM先読みが使用されるときには、LM先読み確率が仮説の本来のスコアに組み込まれ、これらの新しいスコアに基づいて枝刈りが実行される。
図4はLM先読み確率ツリーの図である。LM先読みネットワークは、例えば、図2に示す種類などの単語ネットワークのコピーである。図4のLM先読みツリーでは、特定のLMコンテキストが与えられた場合、あらゆるノードはこれのLM先読み確率を含む。LM先読みネットワークは、ただ1つの後続ノードしかないすべてのノードを除去することによって圧縮することができる。
LM先読み確率を計算する従来の方法は、動的プログラミング手順を用いる。最初に、LM先読みネットワークにおける葉ノードのLM先読み確率が、異なる単語の実際のLM確率として割り当てられる。というのは、LM先読みネットワーク内のあらゆる葉ノードが1つの個別の単語に対応するからである。次いで、個別ノードごとに、LM先読み確率が、このノードの後続ノードの最大LM先読み確率によって決まる。LM先読みネットワーク全体のLM先読み確率は、下から上まで再帰的に計算することができる。すなわち以下のとおりである。
Figure 0005331801
式中、s(n)はノードnの後続ノードの集合である。
通常、LM先読み確率は、復号プロセスの間にオンラインで生成される必要がある。したがって、LM先読み確率を計算する際の効率は、復号速度に大きく影響する。動的プログラミング手順は、LM先読み確率を計算する効率のよいやり方を提供するが、過大な計算回数が生じる。
図5に、LM先読み確率の計算を示す。この計算は2つの部分に分かれており、第1の部分が図5aに、第2の部分が図5bに示されている。第1の部分は、単語のnグラムモデル確率など、LMコンテキストに基づく語彙内のあらゆる単語のLM確率を計算することである。第2の部分は、LM先読みネットワーク内の各ノードに、各ノードごとに特定のノードから到達することのできるすべての単語のLM確率を合計することによってLM先読み確率を割り当てることである。
LM先読み確率は、動的プログラミング手順によって割り当てられる。語彙がV個の単語を含み、LM先読みネットワークはM個のノードを含むと仮定する。これは、探索空間において発生する各LM履歴に、LVCSRシステムは、ステップ1においてV個の確率を探索し、ステップ2においてM個の先読み確率を生成する必要があることを意味する。VおよびMの値は、LVCSRシステムにおいてはきわめて大きい。通常、1つの文の認識プロセスの間に、探索空間においては数百個のバイグラムコンテキストおよび数千個のトライグラムコンテキストが発生する。より高次のnグラム、例えば、フォーグラムでは、探索空間内のLMコンテキストの数は一層大きくなる。LMコンテキストごとに、前述のLM確率計算が実行される必要がある。したがって、従来の方法を使用してLM先読み確率を計算するとCPUコストが高い。
一方、探索空間において発生するLM先読み確率がキャッシュされる場合、LM先読みネットワークがM個のノードを含み、探索空間においてN個の異なるLMコンテキストが発生するものと仮定すると、合計で、M×N個のLM確率を記憶させる必要が生じる。LVCSRシステムにおいて、高次のnグラム復号が使用されるときには、MもNも大きくなり、したがって、LM先読みを実行するメモリコストも高い。
図6に、本発明の一実施形態によるLM先読み確率を計算する方法を概略的に示す。
この実施形態では、低次のLM先読み情報を使用して、より高次のLM先読みの計算が低減される。図5を参照して示した方法は、低次のLM先読み情報を利用せず、LM先読みネットワーク内の各ノードにLM先読み確率を割り当てる必要がある。
本発明の一実施形態による方法では、ノードの小部分集合におけるLM先読み確率を更新しさえすれはよく、LM先読みネットワーク内のノードの大部分については、これらのノードのLM先読み確率を低次のLM先読みネットワークから直接コピーすることができる。
このバックオフベースのnグラムモデルは、以下のように表すことができる。
Figure 0005331801
式中、f(・)は、nグラムファイルから読み取られる割り引かれたLM確率であり、C(・)は、学習コーパスにおいて発生する事象の頻度であり、Backoff(h)は、全てのwについてP(w|h)の和が1になるように定められる、履歴hに対するバックオフパラメータであり、h’はhのより低次の履歴を表す。
式12は、nグラムデータにおいて履歴単語対が見つからないときに、より低次のモデルがバックオフ推定値として使用されることを示している。実際には、大語彙の適用例では、履歴hが与えられた場合、訓練データにおいて見つかる異なる履歴単語対の数が語彙Vのサイズよりずっと小さくなる。これは、単語履歴hごとに、nグラム確率の大部分がバックオフ推定値によって与えられることを意味する。この現象を使用して、言語モデル化における計算を加速させることができる。
nグラム言語モデルを考えるときには、ある単語と先行する単語の出現回数に関する統計情報を照合する必要がある。しかし、このデータは必ずしも利用できるとは限らない。この問題に対処するために、例えば、ある特定の単語に利用できるバイグラムデータがないときに、この単語のユニグラムモデルからバイグラム確率を推定することを可能にする、バックオフパラメータの概念が導出された。例えば、図6の実施形態において、バックオフパラメータは以下のように計算される。
nグラムのLMは以下のように計算することができる。
Figure 0005331801
これは、確率として、
Figure 0005331801
を満たさなければならない。
式aによれば、式bは、
Figure 0005331801
と書き換えることができる。
よって、バックオフパラメータは次式から計算することができる。
Figure 0005331801
バックオフパラメータは、事前に計算し、記憶させることができる。
ノードnにおけるLM先読みの定義は、nから到達することのできるすべての単語にわたる最大LM確率であり、これは以下のように表すことができる。
Figure 0005331801
式中、W(n)は、ノードnから到達することのできる単語の集合をあらわす。
式(12)によれば、LM先読みの定義は以下のように書き換えることができる。
Figure 0005331801
式中、
Figure 0005331801
であり、
Figure 0005331801
である。
したがって、LMLAツリー内の各ノードは2つの部分に分割することができる。すなわち以下のとおりである。
Figure 0005331801
単語履歴hが与えられたとすると、明示的なnグラム推定値を使用して、Nに関連するLMLA確率だけが計算されればよく、Nに関連するLMLA確率の残りの部分は、バックオフ推定値を使用して計算される。
上記分析に基づき、LMLA確率を計算する新しい方法が提示される。
上記分析によれば、LM先読みの計算を4つのステップに分割することができる。
ステップ1:低次のLM先読みネットワークTを生成する。Tにおける各ノードnに、
Figure 0005331801
とする。
ステップ2:低次のLM先読み確率に履歴hのバックオフパラメータを掛けて、新しいLM先読みネットワーク(ツリー)、
Figure 0005331801
を生成する。
Figure 0005331801
における各ノードnに、
Figure 0005331801
とする。
ステップ3:学習コーパスにおいてLMコンテキストhと共に発生した各単語wに、
Figure 0005331801
の葉ノードにおけるバックオフLM確率を、nグラムモデルにおける割り引されたLM確率で置き換える。すなわち、C(h,w)>0の場合、f(w|h)を使用して、
Figure 0005331801
におけるf(w|h’)*backoff(h)を置き換える。
ステップ4:W={w|C(h,w)>0}内の各単語wに、動的プログラミング手順を使用して、そこからwに到達することのできるノードにおけるLM先読み確率を更新する。
図6には、この新しい方法に基づくLMLA確率の計算が示されている。図6aにはステップ1および2が示され、図6bにはステップ3および4が示されている。LMLA確率を計算する新しい方法は、バックオフLMLAツリーから開始する。図6のLMLAツリーは、8枚の葉、すなわち8個の個別単語を含む。LMコンテキストhが与えられた場合、ただ2つの単語wおよびwだけが明示的なLM確率を有するものと仮定すると、この新しい方法では、そこからwおよびwに到達することのできるノード、すなわち図6の黒いノードにおけるLMLA確率を計算しさえすればよく、LMLA確率の残りの部分、すなわち、グレーのノードにおけるLMLA確率は、バックオフLMLAツリーから直接コピーすることができる。
この実施形態の方法は、旧い方法のようにあらゆるノードを更新するのではなく、LM先読みツリーにおけるノードの部分集合、すなわち、式17のNに属するノードだけを計算することによって、CPUコストを著しく低減する。個々のLMコンテキストhについて、単語集合W={w|C(h,w)>0}は、全認識語彙よりずっと小さい。したがって、N内のノードは、LM先読みツリー内のノードの小部分集合にすぎない。
よって、トライグラム先読み確率などの高次のLM先読み確率をきわめて効率よく計算することができる。従来の方法では、探索空間において発生したLM先読みネットワークをキャッシュするのに1つのバッファを保持し、このため、これらのLM先読みネットワークを後で再利用することができる。提案の方法では、nグラムLM先読み確率を計算するために、nグラム先読みネットワークのみならず、(n−1)グラム先読みネットワークもキャッシュに入れる必要がある。nグラム先読み確率が計算される前に、必要とされるnグラム先読みネットワークがすでにnグラム先読みバッファにキャッシュされているかどうかがチェックされる。キャッシュされていない場合、対応する(n−1)グラムの先読みネットワークが(n−1)グラム先読みバッファにおいて探索される。次いで、提案の方法を使用して、(n−1)グラム先読みネットワークからnグラム先読みネットワークが生成される。(n−1)グラム先読みネットワークが計算されるときにも類似の動作が実行される。すなわち、(n−1)グラム先読みネットワークを生成するには(n−2)グラム先読みネットワークがキャッシュされる必要がある。この動作は反復して実行され、より高次の先読みネットワークを生成するために、より低次の先読みネットワークが常にキャッシュに入れられる
この実施形態の方法を使用すれば、LM先読み確率を計算するCPUコストを著しく低減することができる。
従来の方法では、LM先読みツリーにおける各ノードに、対応するLM先読み確率が計算される必要がある。
提案の方法では、LM先読み確率が更新される必要のあるノードは、LM先読みツリーのノードのごく一部でしかない。Node(w)を、そこから単語wに到達することのできるノードの集合として定義すると、LM先読み確率が更新される必要のあるLM先読みネットワーク内のすべてのノードは、以下のように表すことができる。
Figure 0005331801
個々のLMコンテキストhについて、単語集合W={w|C(h,w)>0}
は全認識語彙よりずっと小さい。したがって、集合N内のノードの数は、LM先読みネットワーク内のノードの総数よりずっと少ない。
また、この実施形態の方法は、メモリコストも低減することができる。一見したところ、提案の方法は、より高次の先読みネットワークとより提示の先読みネットワークの両方をキャッシュに入れる必要があり、メモリコストが高い。しかし、より低次の先読みネットワークをキャッシュするためのバッファのサイズは、より高次の先読みネットワークをキャッシュするためのバッファのサイズよりずっと小さい。他方、提案の方法は、従来の方法よりずっと高速であり、したがって、最頻度の高い先読みネットワークをキャッシュしさえすればよく、残りのより頻度の低い先読みネットワークは、要求に応じて、余り大きなCPUコストをかけずに生成することができる。最の頻度の高い先読みネットワークは、探索空間において発生するすべての先読みネットワークと比べて、メモリのわずかな部分しか占めないため、提案の方法は、実際には、メモリコストを低減する。
さらに、従来の方法は、探索空間内のすべてのLM先読みネットワークをキャッシュに入れる。提案の方法では、nグラムコンテキストごとに、システムは、このコンテキストに基づくnグラム確率が実際にモデルに存在するかどうかチェックすることができる。特定のnグラムコンテキストのnグラム確率が記憶されていない場合、このコンテキストに関連するnグラム先読みネットワークは記憶される必要がなく、(n−1)グラム先読みネットワークが直接使用される。したがって、本発明の実施形態による方法では、記憶されるnグラム先読みネットワークをさらに低減することができる。
1.この実施形態の方法は、LM先読み確率の計算を著しく加速させる。
2.この実施形態の方法は、トライグラムまたはより高次のnグラム先読みのメモリコストを低減することができる。
この実施形態の方法では、より高次のLMLA確率の計算はより低次のLMLA確率の値に依存し、高次のLMLAを実施するためのマルチキャッシュ構造が設計されている。システムによって保持されるキャッシュの数は、復号器によって用いられるLMの次数と同じである。各次数のLMLA確率のキャッシュがある。要求されるLMLAツリーは、これがキャッシュに存在しない場合、低次のLMLAキャッシュからの対応するバックオフツリーを使用して生成される。
図7に、マルチキャッシュに基づくトライグラムLMLAの枠組みを示す。マルチキャッシュ構造に基づき、トライグラムLMLAは5つのステップに分割することができる。
ステップ1:復号器は、LMLAスコアリングモジュールにノードnのLMLAスコアおよび単語履歴wを要求し、LMLAスコアリングモジュールは、要求されたLMLA確率がすでにトライグラムLMLAキャッシュにあるかどうかチェックし、キャッシュにある場合、LMLA確率が返され、そうでない場合、ステップ2に進む。
ステップ2:バイグラム単語履歴wを使用して、バイグラムLMLAバイグラムLMLAキャッシュが探索され、wのLMLAバッファがすでにキャッシュにある場合、ステップ4に進み、そうでない場合、ステップ3に進む。
ステップ3:ユニグラムLMLAバッファを使用して、wのバイグラムLMLAが生成され、キャッシュされる。
ステップ4:wのバイグラムLMLAバッファを使用して、wのトライグラムLMLAバッファが生成され、キャッシュされる。
ステップ5:要求されたLMLA確率が復号器に返される。
図6の方法が、WSJ(Wall Street Journal)の2万単語を語彙とするシステムを有するトライグラムLMLAと共に使用された。訓練音声はWSJ0およびWSJ1コーパス、SI284訓練集合である。この語彙は、言語データコンソーシアム(Linguistic Data Consortium:LDC)によって提供される約20kの単語を有する閉じた語彙である。音響モデルは、1状態当たり10個のガウス混合成分を有する6000個の連結HMM状態を含む。音声特徴ベクトルは33次元であり、10次元C−MFCKL、1次元の対数エネルギー、ならびにこれらの1次および2次の時間微分を含む。LMは、約4千万語を有するWSJ87〜89テキストコーパスによって訓練されたトライグラム言語モデルである。
Figure 0005331801
表1には、同じビーム幅に基づく異なる構成でのLMLAのCPUコストが示されている。本明細書で提案する方法は、LMLA確率の計算コストを大幅に低減したことが示されている。バイグラムLMLAツリーを生成する処理は3倍加速され、トライグラムLMLAツリーを生成する処理は12倍加速される。トライグラムLMLAが使用されるとき、探索空間において発生する異なるトライグラムコンテキストの数は、バイグラムコンテキストの数よりずっと多くなる。旧来の方法では、トライグラムLMLAの利益はLMLAによってもたらされる余分の計算を埋め合わせることができず、システムはバイグラムLMLAシステムよりいっそう低速になる。他方、新しい方法は従来の方法よりLMLA確率をずっと高速に計算するため、新しい方法が使用されるとき、トライグラムLMLAは、バイグラムLMLAと比べて、システムをさらに加速させる。
表2に、新しい方法に基づくトライグラムLMLAおよびバイグラムLMLAの性能を示す。同じWERを達成する際に、トライグラムLMLAに基づく復号は常に、バイグラムLMLAを用いた復号より高速である。トライグラムは高速復号に際してより効率がよく、ビーム幅が160であるとき、トライグラムLMLAのWERはバイグラムLMLAより1%優れ、ビーム幅が200に増大されると、この差は0.3%まで下がる。
すでに述べたように、新しい方法でのトライグラムLMLAは、トライグラムLMLA確率がバイグラムLMLA確率から生成され、バイグラムLMLA確率がユニグラムLMLA確率から生成されるマルチキャッシュ構造に基づくものである。表3に、WSJ20kタスクにおける評価データの1つに基づく異なる次数のLMLAの計算量を示す。3倍多いトライグラムLMLAツリーが生成される場合でさえも、トライグラムLMLAは1.26%のCUPコストしか占めず、他方バイグラムLMLAは、7.63%のCPUコストを占めることが示されている。これは主に、トライグラムデータの疎性によるものである。トライグラムデータは、バイグラムデータと比べて非常に疎であり、トライグラムLMLAにおいて更新されるべきノードはバイグラムLMLAにおいて更新されるべきノードよりずっと少ない。したがって、計算コストの大部分は、呼び出される頻度が低くても、バイグラムLMLAによるものである。
Figure 0005331801
Figure 0005331801
前述のように、本発明は、言語モデルと併せた入力信号の動的処理が必要とされる同類のシステムにも適用され得る。図8に、入力信号が入力ユニット1において提供される基本システムを示す。ユニット1からの出力は次いでユニット3に供給され、そこで、入力信号における可能性の高い単語の第1の確率分布を生成することのできる音響モデルまたは他のモデルが決定される。例えば、音声認識に際して、このユニットは、音響−音声モデルを提供するはずである。ユニット5は、言語において各単語がどのようにして連結され得るかに関する制約条件を組み込んだ言語モデルを提供する。言語モデルと音響モデルユニット3の間にはやり取りが生じ得る。最後に、復号器7は出力を生成し、この出力は、音声認識の場合には、単語になる。
システムは、音声−音声翻訳システムの一部とすることができ、音声−音声翻訳システムにおいて、出力は、さらに変換され、TTSシステムなどを使用して音声として出力される。
また、システムはOCRに使用することもでき、OCRでは、入力1における入力が音声ではなくスキャンテキストになり、ユニット3は、音響モデルを提供するのではなく、スキャンテキスト内に位置する単語の確率を出力する。言語モデル5は、前述のやり方と同様に動作する。復号器7は、コンピュータが、単語処理などにおいて使用するために読み取り、操作することのできるテキストを出力する。同様にシステムは、入力が手書きテキストであり、ユニット3が手書きテキストを復号する手書き入力分析にも適用することができる。この場合もやはり、言語モデルは、前述のやり方と同様に動作する。
最後に、このシステムは、例えばDNAゲノム配列決定などにおける、特殊な言語モデルにも使用され得る。

Claims (25)

  1. 言語の語彙の単語がツリーの葉のところに位置する言語モデル先読みツリーのノードに
    おける先読み確率を計算するシステムであって、
    前記葉に相当する前記語彙の前記単語に第1の低次言語モデル確率を割り当て、ノード
    に前記先読み確率を計算することにより、第1の低次言語モデル先読みツリーを生成する
    生成手段と、
    前記語彙の1つまたは複数の単語の前記第1の低次言語モデル確率を、より高次の言語
    モデルを使用して計算することができるかどうか判定し、前記単語の前記第1の低次言語
    モデル確率を前記より高次の言語モデルを用いて更新する第1更新手段と、
    前記第1の低次言語モデル確率が更新された前記単語による影響を受ける前記第1の低
    次言語モデル先読みツリーのノードについて前記先読み確率を更新する第2更新手段と
    を備え、前記第1の低次言語モデル先読みツリーの次数は、前記より高次の言語モデルに
    対して1ほど低い、システム。
  2. 前記生成手段は、バックオフパラメータを用いて前記第1の低次言語モデル確率を割り
    当てる、請求項1に記載のシステム。
  3. 前記第1更新手段は、単語が、以前に認識された単語と組み合わさって出現しているか
    どうか判定することにより、前記第1の低次言語モデル確率を、より高次の言語モデルを
    使用して計算することができるかどうか判定する請求項1に記載のシステム。
  4. 前記より高次の言語モデルは、バイグラム、トライグラム、フォーグラム、またはより
    高次のnグラムモデルである請求項1に記載のシステム。
  5. マルチキャッシュ構造を有し、キャッシュの数がシステムで使用されるnグラムモデル
    の次数に等しいメモリをさらに備える請求項4に記載のシステム。
  6. 音声を受け取る手段と、
    前記音声から音響信号を抽出し、前記音声に含まれる単語の第1の確率を求める手段と

    請求項1に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するシス
    テムを備える、前記音声に含まれる前記単語の第2の確率を求めるための言語モデルを提
    供する手段と、
    前記第1の確率と前記第2の確率を組み合わせ、前記音声から認識される前記単語を出
    力する手段と
    を備える自動音声認識システム。
  7. 請求項6に記載の自動音声認識システムと、前記出力される単語を翻訳すべき目的言語
    に変換する手段とを備える音声−音声翻訳システム。
  8. スキャンテキストを受け取る手段と、
    前記テキストに含まれる単語の第1の確率を求める手段と、
    請求項1に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するシス
    テムを備える、前記スキャンテキストに含まれる前記単語の第2の確率を求めるための言
    語モデルを提供する手段と、
    前記第1の確率と前記第2の確率を組み合わせ、前記スキャンテキストから認識される
    前記単語を、コンピュータが読み取ることのできる書式で出力する手段と
    を備えるOCRシステム。
  9. 手書きテキストを受け取る手段と、
    前記テキストに含まれる単語の第1の確率を求める手段と、
    請求項1に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するシス
    テムを備える、前記テキストに含まれる前記単語の第2の確率を求めるための言語モデル
    を提供する手段と、
    前記第1の確率と前記第2の確率を組み合わせ、前記手書きテキストから認識される前
    記単語を、コンピュータが読み取ることのできる書式で出力する手段と
    を備える手書き文字認識システム。
  10. 1つまたは複数の単語の更新を、より高次の言語モデル確率を用いて複数回にわたって
    繰り返し、更新毎に前記言語モデル先読みツリーの次数を1づつ上げる、請求項1記載の
    システム。
  11. 前記第1の低次言語モデル先読みツリーは、以前に更新された言語モデル先読みツリー
    からなるものであって、該更新された言語モデル先読みツリーの次数は、該更新された言
    語モデル先読みツリーの更新に用いられた前記より高次の言語モデルの次数に等しい、請
    求項1記載のシステム。
  12. キャッシュをさらに具備し、前記以前に更新された言語モデル先読みツリーを前記キャ
    ッシュから取得する、請求項11記載のシステム。
  13. 前記第1の低次言語モデル先読みツリーはn−1グラム言語モデル先読みツリーであり
    、前記より高次の言語モデルはn−グラム言語モデルであり、前記nは少なくとも2以上
    の整数である、請求項1記載のシステム。
  14. 最初の更新においては前記言語モデル先読みツリーをバイグラム言語モデルを用いて更
    新し、次回の更新においては更新された当該言語モデル先読みツリーをトライグラム言語
    モデルを用いて更新する、前記請求項10記載のシステム。
  15. 前記第1の低次言語モデル先読みツリーをキャッシュに記憶する請求項1記載のシステ
    ム。
  16. 言語の語彙の単語がツリーの葉のところに位置する言語モデル先読みツリーのノードに
    おける先読み確率を計算する方法であって、
    コンピュータが、
    前記葉に相当する前記語彙の前記単語に第1の低次言語モデル確率を割り当て、ノード
    に前記先読み確率を計算することにより、第1の低次言語モデル先読みツリーを生成する
    生成ステップと、
    前記語彙の1つまたは複数の単語の前記第1の低次言語モデル確率を、より高次の言語
    モデルを使用して計算することができるかどうか判定し、前記単語の前記第1の低次言語
    モデル確率を前記より高次の言語モデルを用いて更新する第1更新ステップと、
    前記第1の低次言語モデル確率が更新された前記単語による影響を受ける前記第1の低
    次言語モデル先読みツリーのノードについて前記先読み確率を更新する第2更新ステップ

    を実行し、
    前記第1の低次言語モデル先読みツリーの次元は、前記より高次の言語モデルに対して
    一次元ほど低い、方法。
  17. 前記生成ステップは、バックオフパラメータを用いて前記第1の低次言語モデル確率を
    割り当てる、請求項16に記載の方法。
  18. 前記第1更新ステップは、単語が、以前に認識された単語と組み合わさって出現してい
    るかどうか判定することにより、前記第1の低次言語モデル確率を、より高次の言語モデ
    ルを使用して計算することができるかどうか判定する、請求項16に記載の方法。
  19. 前記より高次のモデルは、バイグラム、トライグラム、フォーグラムまたはより高次の
    nグラムモデルである請求項16に記載の方法。
  20. 前記更新された第1の低次言語モデル先読みツリーを用いて後続の信号を復号するステ
    ップをさらに備える請求項16に記載の方法。
  21. 音声を受け取ることと、
    前記音声から音響信号を抽出し、前記音響信号に基づいて前記音声に含まれる単語の確
    率を求めることと、
    請求項16に記載の言語モデル先読みツリーのノードにおける先読み確率を計算するこ
    とを備える言語モデルを提供することと、
    前記単語の確率と前記先読み確率を用いて、前記音声から認識される前記単語を出力す
    ることと
    を備える自動音声認識の方法。
  22. 請求項21に記載の自動音声認識の方法と、前記出力される単語を翻訳すべき目的言語
    に変換することとを備える音声−音声翻訳の方法。
  23. スキャンテキストを受け取ることと、
    前記テキストに含まれる単語の第1の確率を求めることと、
    請求項16に記載の言語モデル先読みツリーのノードにおける先読み確率を計算する方
    法を備える、前記スキャンテキストに含まれる前記単語の第2の確率を求めるための言語
    モデルを提供することと、
    前記第1の確率と前記第2の確率を組み合わせ、前記スキャンテキストから認識される
    前記単語を、コンピュータが読み取ることのできる書式で出力することと
    を備えるOCRの方法。
  24. 手書きテキストを受け取ることと、
    前記テキストに含まれる単語の第1の確率を求めることと、
    請求項16に記載の言語モデル先読みツリーのノードにおける先読み確率を計算する方
    法を備える、前記テキストに含まれる前記単語の第2の確率を求めるための言語モデルを
    提供することと、
    前記第1の確率と前記第2の確率を組み合わせ、前記手書きテキストから認識される前
    記単語を出力することと
    を備える手書き文字認識の方法。
  25. 請求項16から24のいずれか1項に記載の方法を実行するようにコンピュータを制御
    するプログラム。
JP2010513518A 2007-10-04 2008-10-02 言語モデル先読み確率を計算する方法および装置 Active JP5331801B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0719453.3 2007-10-04
GB0719453A GB2453366B (en) 2007-10-04 2007-10-04 Automatic speech recognition method and apparatus
PCT/JP2008/068322 WO2009044931A1 (en) 2007-10-04 2008-10-02 Automatic speech recognition method and apparatus

Publications (2)

Publication Number Publication Date
JP2010540976A JP2010540976A (ja) 2010-12-24
JP5331801B2 true JP5331801B2 (ja) 2013-10-30

Family

ID=38739167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010513518A Active JP5331801B2 (ja) 2007-10-04 2008-10-02 言語モデル先読み確率を計算する方法および装置

Country Status (5)

Country Link
US (1) US8311825B2 (ja)
JP (1) JP5331801B2 (ja)
CN (1) CN101548285A (ja)
GB (1) GB2453366B (ja)
WO (1) WO2009044931A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU209152U1 (ru) * 2021-04-18 2022-02-03 Общество с ограниченной ответственностью "Информационные технологии" (ООО "ИнфоТех") Планка стопорная для крепления боковых накладок изолирующего стыка

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8718202B2 (en) 2008-08-11 2014-05-06 Texas Instruments Incorporated Reduced complexity viterbi decoding
US8626508B2 (en) * 2009-02-26 2014-01-07 National University Corporation Toyohashi University Of Technology Speech search device and speech search method
JP4757936B2 (ja) * 2009-07-23 2011-08-24 Kddi株式会社 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US9069755B2 (en) * 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters
US8914286B1 (en) * 2011-04-14 2014-12-16 Canyon IP Holdings, LLC Speech recognition with hierarchical networks
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US9053361B2 (en) 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9489940B2 (en) * 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
US9224386B1 (en) 2012-06-22 2015-12-29 Amazon Technologies, Inc. Discriminative language model training using a confusion matrix
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
CN103035238B (zh) * 2012-11-27 2014-09-17 中国科学院自动化研究所 音频数据的编码方法及解码方法
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
US8756499B1 (en) * 2013-04-29 2014-06-17 Google Inc. Gesture keyboard input of non-dictionary character strings using substitute scoring
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
JP6301647B2 (ja) 2013-12-24 2018-03-28 株式会社東芝 探索装置、探索方法およびプログラム
JP6315980B2 (ja) 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6404564B2 (ja) 2013-12-24 2018-10-10 株式会社東芝 デコーダ、デコード方法およびプログラム
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9189708B2 (en) 2013-12-31 2015-11-17 Google Inc. Pruning and label selection in hidden markov model-based OCR
JP6301664B2 (ja) 2014-01-31 2018-03-28 株式会社東芝 変換装置、パターン認識システム、変換方法およびプログラム
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
JP6301794B2 (ja) 2014-09-18 2018-03-28 株式会社東芝 オートマトン変形装置、オートマトン変形方法およびプログラム
JP6453631B2 (ja) 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
JP6562698B2 (ja) 2015-04-28 2019-08-21 株式会社東芝 ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
US10311046B2 (en) * 2016-09-12 2019-06-04 Conduent Business Services, Llc System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences
US10460727B2 (en) 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10461152B2 (en) * 2017-07-10 2019-10-29 Globalfoundries Inc. Radio frequency switches with air gap structures
CN110364171B (zh) * 2018-01-09 2023-01-06 深圳市腾讯计算机系统有限公司 一种语音识别方法、语音识别系统及存储介质
CN111813891B (zh) * 2019-04-12 2024-03-26 北京地平线机器人技术研发有限公司 语言模型的训练、预测词的出现概率的方法和装置
CN112767921A (zh) * 2021-01-07 2021-05-07 国网浙江省电力有限公司 一种基于缓存语言模型的语音识别自适应方法和系统

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
JP2905674B2 (ja) * 1993-10-04 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者連続音声認識方法
JP3304665B2 (ja) * 1995-02-17 2002-07-22 松下電器産業株式会社 音声認識装置
CA2211636C (en) * 1995-03-07 2002-01-22 British Telecommunications Public Limited Company Speech recognition
JPH11344991A (ja) * 1998-05-30 1999-12-14 Brother Ind Ltd 音声認識装置および記憶媒体
JP2938865B1 (ja) * 1998-08-27 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
JP4289715B2 (ja) * 1999-04-02 2009-07-01 キヤノン株式会社 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
WO2001026092A2 (en) * 1999-10-06 2001-04-12 Lernout & Hauspie Speech Products N.V. Attribute-based word modeling
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US8069045B2 (en) * 2004-02-26 2011-11-29 International Business Machines Corporation Hierarchical approach for the statistical vowelization of Arabic text
JP4521631B2 (ja) * 2004-03-16 2010-08-11 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
GB0420464D0 (en) * 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7574358B2 (en) * 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US20070164782A1 (en) * 2006-01-17 2007-07-19 Microsoft Corporation Multi-word word wheeling
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
JP4689497B2 (ja) * 2006-02-28 2011-05-25 三菱電機株式会社 音声認識装置
US7617103B2 (en) * 2006-08-25 2009-11-10 Microsoft Corporation Incrementally regulated discriminative margins in MCE training for speech recognition
JP5319141B2 (ja) * 2007-03-19 2013-10-16 株式会社東芝 言語モデルの枝刈り方法及び装置
US20090326945A1 (en) * 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU209152U1 (ru) * 2021-04-18 2022-02-03 Общество с ограниченной ответственностью "Информационные технологии" (ООО "ИнфоТех") Планка стопорная для крепления боковых накладок изолирующего стыка

Also Published As

Publication number Publication date
US20090099841A1 (en) 2009-04-16
GB2453366B (en) 2011-04-06
GB2453366A (en) 2009-04-08
JP2010540976A (ja) 2010-12-24
CN101548285A (zh) 2009-09-30
GB0719453D0 (en) 2007-11-14
US8311825B2 (en) 2012-11-13
WO2009044931A1 (en) 2009-04-09

Similar Documents

Publication Publication Date Title
JP5331801B2 (ja) 言語モデル先読み確率を計算する方法および装置
US10127902B2 (en) Optimizations to decoding of WFST models for automatic speech recognition
JP6346893B2 (ja) ハイブリッドgpu/cpuデータ処理方法
US8229731B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
Shao et al. A one-pass real-time decoder using memory-efficient state network
Hacioglu et al. On lexicon creation for turkish LVCSR.
JP5319141B2 (ja) 言語モデルの枝刈り方法及び装置
KR20050036303A (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
JPWO2020235024A1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
Zitouni et al. Statistical language modeling based on variable-length sequences
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
KR100277690B1 (ko) 화행 정보를 이용한 음성 인식 방법
JP2938865B1 (ja) 音声認識装置
Varjokallio et al. A Toolkit for Efficient Learning of Lexical Units for Speech Recognition.
JP6277659B2 (ja) 音声認識装置および音声認識方法
Hasegawa-Johnson et al. Fast transcription of speech in low-resource languages
JP3969079B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
Chen et al. Efficient language model look-ahead probabilities generation using lower order LM look-ahead information
Si et al. Recurrent neural network language model in mandarin voice input system
Seward Efficient methods for automatic speech recognition
Ravishankar E cient algorithms for speech recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130426

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130729

R151 Written notification of patent or utility model registration

Ref document number: 5331801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350