JP2002533771A - 音声認識履歴にもとづく言語モデル - Google Patents

音声認識履歴にもとづく言語モデル

Info

Publication number
JP2002533771A
JP2002533771A JP2000590160A JP2000590160A JP2002533771A JP 2002533771 A JP2002533771 A JP 2002533771A JP 2000590160 A JP2000590160 A JP 2000590160A JP 2000590160 A JP2000590160 A JP 2000590160A JP 2002533771 A JP2002533771 A JP 2002533771A
Authority
JP
Japan
Prior art keywords
word
cache
sequence
words
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2000590160A
Other languages
English (en)
Inventor
シュタインビス ヴォルカー
クロコヴ ディトリッヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2002533771A publication Critical patent/JP2002533771A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 小語彙のパターン認識システムは、数字(例えば電話番号)の列またはコマンドの列のような単語の列を認識するために用いられる。参照単語の表現が語彙(132、134)に蓄積されている。入力手段(110)は、発話または筆記された単語を表現する時系列的な入力を受信するために用いる。パターン認識器(120)は、入力パターンと語彙の参照単語の表現とを統計的に比較することによって、可能性のある複数の単語の列を生成する単語レベル整合ユニット(130)を具える。キャッシュ(150)は、直近に認識した複数の単語を記憶するために用いるものである。列レベルの整合ユニット(140)は、M個(M≧2)の単語の列の確率を提供する統計的言語モデルに依存して、複数の単語の列から単語の列を選択するものである。この確率は、キャッシュ内での列の発生の頻度に応じたものとする。このようにして、単語列の使用の頻度についての信頼できるデータが利用できない多くの小語彙システムのために、キャッシュを用いて実際の使用を表現するデータを提供することができる。

Description

【発明の詳細な説明】
【0001】 (技術分野) 本発明は、一連の単語を認識する小語彙パターン認識システムに関するもので
あり;この語彙は複数の参照単語の表現を蓄積したものであり; このシステムは: 発話または筆記された単語列を表現する時系列的入力パターンを受信する入力
手段と; この入力パターンと語彙の参照単語の表現とを統計的に比較することによって
複数の単語列を生成する単語レベル整合ユニットを具えるパターン認識器と を具えるものである。
【0002】 (背景技術) 数字列またはコマンド列のような単語列を認識する小語彙のパターン認識シス
テムがますます利用されるようになっている。こうしたシステムは例えば、通信
、コンピュータまたはオーディオ/ビデオ製品のボイスコントロール(発声制御
)に利用されている。例として、ユーザが電話番号を発声した後におそらくは「
ダイヤル」命令を発声することによって電話呼出しを行うことができる。また、
コンピュータのオペレーティングシステム及び種々のアプリケーションプログラ
ムも、ボイスコマンド(発声命令)によって操作することができる。本発明は音
声表現入力の認識に利用される他に、手書き文字認識システムのような小語彙の
文字/単語認識システムをも網羅するものであり、このシステムでは入力信号が
手書きまたは印刷された文字/単語を表現する。このシステムは例えば、口座番
号のように筆記/タイプされた数字列を認識するために用いることができる。小
語彙システムは通常、200〜300エントリまでの範囲の語彙を有するもので
あり、これらは単語と称されるものである。実際に、こうした単語は数字列認識
用の数字またはコマンドのような単一文字で表わすことができ、これらは実際に
は(「save file(ファイルに保存せよ)」のような)コマンド列の認識用の2つ
以上の発声/印刷単語によって形成されるものである。通常、音声または手書き
のサンプルのような入力パターンの認識は、2つのステップから成る。第1ステ
ップでは、単語を表わす入力信号のセグメントと学習材料とを比較する。単語の
発声、筆記、または印刷においては変動が生じるので、第1ステップの比較では
、統計的意味で入力信号セグメントと整合させて、語彙中の可能性のあるいくつ
かの単語を識別することになる。結局、入力信号を認識する第1ステップでは、
いくつかの候補単語の列を識別することになる。これらの列は通常、グラフを用
いて表現されるものである。通常、これらの列は、入力パターンが個々の参照単
語にどれだけ良好に整合するかを反映する統計的尤度を与えられている。第2ス
テップでは、列の尤度(既に確立されたの個々の単語整合の尤度との組合わせで
)にもとづいて、最も適切な列を選択する。大語彙システムでは、第2ステップ
は通常、統計的言語モデルにもとづくものであり、この言語モデルは通常のテキ
ストにおける単語または単語列の発生頻度についての統計的情報を提供するもの
である。こうしたシステムは、L.Rabiner,B-H.Juang”Fundamentals of speech
recognition”,Prentice Hall 1993,434ページ〜454ページに開示されている。
単語対の発生の尤度を特定するいわゆるバイグラムが頻繁に用いられている。言
語モデルは、認識すべき単語列を表現する数百万の単語を有する多大なテキスト
資料を分析することによって確立される。一部のシステムでは、システムの使用
中に既設の言語モデルを更新することができる。
【0003】 小語彙システムでは、語彙及び学習材料の量がより少ないので、最初の単語候
補の識別は大語彙システムより簡単なものとなる。例えば、電話番号のような数
字列の認識については、10桁の数字を表現するに過ぎないので語彙を小さくす
ることができる。しかし、可能性のある列の中から選択して抽出する第2ステッ
プは、多くのアプリケーションにとって実行が困難である。国内ひいては世界中
で生起する異なる電話番号の数は膨大なものである。さらに、使用頻度が低い番
号に加えて、多くの番号が同様な頻度で使用され、これらの統計的な区別が低い
レベルになっている。同様に、コンピュータのコマンド及び制御用に、ユーザは
非常に多数の有効なコマンド列の中から選択することができ、頻繁に使用される
列の先験的知識がほとんど存在しない。従って、多くの小語彙システムについて
は、通常の大語彙言語モデルを作成して使用することが困難である。その代わり
に、小語彙システムは有限状態モデルを使用することができ、状態は単語に対応
するものであり、可能性のある単語列をモデルの遷移に限定するものである。通
常、すべての単語が同等の尤度を割り当てられており、この有限状態モデルに従
って存在しうる単語列の間に、尤度の区別が生じることがない。
【0004】 本発明の目的は、候補の単語列の中からより良好な選択を行うことができる、
本明細書に記述する種類の小語彙のパターン認識システムを提供することにある
【0005】 (発明の開示) この目的を満足させるために、本システムは、直近に認識された複数の単語を
記憶するためのキャッシュ;及びM≧2なるM個の単語列の確率を提供する統計
的9言語モデルに依存して、複数の単語列から単語列を選択する列レベルの整合
ユニットをを具える音声認識装置を具えるものであり;この確率はキャッシュ内
での列の発生頻度に応じたものとする。キャッシュを使用することによって、シ
ステムはユーザの直近の挙動に追随することができる。電話番号のような単語列
の合計数は膨大なものであり、これらの番号を一般的なやり方で統計的に区別す
ることは困難であるが、個々のユーザの場合で扱う方向には至らない。例えば通
常、個人が使用する電話番号の集合は100未満に限られる。さらに、一部の番
号は他のものよりずっと頻繁に使用される。同様に、コマンド及び制御について
は、一般的に使用されるコマンドの列を確立することが困難となりうる。しかし
、多くの個別ユーザが、機器を操作する好みのやり方がある。通常のユーザの挙
動は、キャッシュ内に効率的に獲得することができる。例えば、株式についての
ウェブページを定期的に監視するユーザは多分、「'open explorer(エクスプロ
ーラを開く)'、'favorites(お気に入り)'、'stock(株式)'」というコマンド
列を発行する。この3つのコマンドの列を言語モデル用のキャッシュに記憶させ
ることによって、この列を他の大部分の3コマンド列より選択しやすくすること
ができる。キャッシュに記憶させたデータを言語モデル用に使用することによっ
て、個別のユーザ、及びユーザの直近の挙動に適応した言語モデルを使用するこ
とができる。単語列が正しく認識され、例えば認識された電話番号で電話接続が
行われた場合にのみ、単語列をキャッシュに記憶させることが好ましい。
【0006】 従属請求項2に記載した好適例では、言語モデルがキャッシュヒット及びキャ
ッシュミスの両者に対して0でない確率をもたらす場合に、バッキングオフ(二
番取り)戦略を使用する。このようにして、キャッシュミスに至る単語列にもま
だ選択される適度な機会があり、認識の第1ステップで、可能性がより低い(例
えば、音声学的により類似しない)ものとして識別されたが、キャッシュ内に存
在する(そして言語モデルを使用することによって結果的に尤度が増加する)単
語列によって、これらの単語列が圧殺されることがない。
【0007】 従属請求項3に記載した好適例では、正規化値をキャッシュミス用に使用する
。さらに、キャッシュ内での発生回数が減少するとともに、キャッシュヒットに
対する尤度がこの正規化値に収束するようにする。これにより、キャッシュヒッ
トとキャッシュミスとの間で確率がスムーズに遷移するようになる。
【0008】 従属請求項4に記載した好適例では、割引パラメータを使用して、キャッシュ
ヒットが確率に与えるインパクトを低減し、確率をさらに平滑にする。
【0009】 従属請求項5に記載の好適例では、(副)列((サブ)ストリング)全体とキ
ャッシュ内の個々の単語とを比較することによって、列(または副列)間で選択
を行うために、単純言語モデルを用いる。キャッシュヒットの相対数は平滑化操
作との組合わせで副列の確率を与えるものである。
【0010】 従属請求項6に記載の好適例では、M−グラム言語モデルを用いて、列全体の
代わりにM個の単語(列がより短い場合にはM未満)のみをキャッシュと比較で
きるようにする。好都合なことに、M個の単語列についてのキャッシュミスの場
合には、より短い列(M−1個の単語の)へのバッキングオフを用いることがで
きる。これにより特に電話番号については、たとえ特定番号がまだキャッシュ内
にない場合でも、同じ数字列で始まるローカル番号をより良好に認識することが
できる。
【0011】 従属請求項7に記載の好適例では、特別な記号を用いて列どうしの区分(そし
て好ましくは、認識した各列毎にキャッシュに記憶させる)を行う。例えば、列
記号の特定の先頭を用いる場合には、実際に単語が列内のある箇所に発生する場
合にのみ、新たな列(この特定の記号及びこれに続くさらにいくつかの単語)が
自ずとヒットすることになる。
【0012】 少なくともトリグラムを用いて、可能性のある単語列どうしを良好に区別する
ことができることが好ましい。好都合なことには、フォア−グラムまたはファイ
ブ−グラムを用いて、正確な選択と、比較的小型、例えば100エントリのキャ
ッシュを用いる言語モデルの適正さとを良好に均衡させることが好ましい。
【0013】 (発明を実施するための最良の形態) 以下、本発明の実施例について図面を参照して説明する。図1に、本発明によ
る小語彙のパターン認識システム100のブロック図を示し、これは数字列また
はコマンド列のような単語の列を認識するものである。本発明の認識技法は、音
声認識システム並びに筆記またはタイプされた単語を認識する認識システムで利
用することができる。例として、図1に連続音声認識システム100を示す。本
発明による技法は、離散音声認識システムにも同等に用いることができる。図1
に示すものと同様な構造のシステムが、手書きまたは印刷文字列の認識用として
知られている。図1の音声認識システム100は、スペクトル分析サブシステム
110及びユニット整合サブシステム120を具えるものである。スペクトル分
析サブシステム110では、音声入力信号(SIS)をスペクトル的に、かつ/
または時間的に分析して、特徴の表現ベクトル(観測ベクトル、OV)を計算す
る。通常、音声信号をディジタル化して(例えば、レート6.67kHzでサンプリン
グ)、前処理、例えばプリエンファシスを適用する。連続するサンプルをグルー
プ化(ブロック化)して、例えば音声信号32msecに相当するフレームとする。連
続するフレームは部分的に、例えば16msecだけ重なっている。各フレーム毎に特
徴の表現ベクトル(観測ベクトル)を計算するために、線型予測符号化(LPC
)法をよく用いる。この特徴ベクトルは、例えば24、32、または63個の構
成要素を有することができる。多くの音声認識システムは音声発生の確率モデル
を仮定するものであり、これにより特定の単語列W=w1w2w3...wqが一連の
音響観測ベクトルY=y1y2y3...yTを生成する。観測した観測ベクトルY=
y1y2y3...yT(時刻t=1,...,Tにおける)の列を生成した確率が最も高い単
語の列W=w1w2w3...wqを特定することによって、認識エラーを統計的に最
小化することができ、この観測ベクトルはスペクトル分析サブシステム210の
出力結果である。これにより最大の確率: すべての可能性のある単語列Wについて、maxP(W|Y) を決定することになる。 条件確率にベイズ理論を適用することによって、P(W|Y)が次のように与えら
れる: P(W|Y)=P(Y|W)・P(W)/P(Y) P(Y)がWと独立なので、確率が最大の単語列が次のように与えられる: すべての可能性のある単語列Wについて、 arg maxP(Y|W)・P(W) (1)
【0014】 ユニット整合サブシステム120では、音響モデルが式(1)の第1項を与える
。音響モデルは、所定の単語列Wについての観測ベクトルの列Yの確率P(Y|W
)を推定するために用いるものである。このことは、ユニット整合システム12
0が観測ベクトルと音声認識ユニットの内容目録とを整合させることによって行
う。音声認識ユニットは、一連の音響参照体によって表現されるものである。種
々の形態の音声認識ユニットを用いることができる。例として、単語全体、また
は2つ以上の単語から成るコマンドのような単語のグループさえも、1つの音声
認識ユニットによって表現することができる。単語モデル(WM)は、一連の音
響参照体を複写したものを所定の語彙の各単語に提供するものである。大部分の
小語彙システムでは、単語全体が音声認識ユニットによって表現され、この場合
には単語モデルと音声認識ユニットとの間に直接的な関係が存在する。例えば比
較的多数(例えば数百)のコマンドを認識するために用いられる他の小語彙シス
テムにおいては、単音、二単音、音節のような言語学にもとづく副単語ユニット
並びにフェネン及びフェノンのような言語学にもとづく派生ユニットを音声認識
ユニットに用いることができる。これらのシステムの後者のカテゴリに対しては
、レキシコン(特定語彙)134によって音響モデルを与えることができ、この
レキシコンは語彙の単語に関係する副単語ユニットの列を記述するものであり、
副単語モデル132はシステムに含まれる音声認識ユニットの音響参照体の列を
記述するものである。単語モデル作成器136は、副単語モデル132及びレキ
シコン134にもとづく単語モデルを作成するものである。
【0015】 図2Aに、単語全体の音声認識ユニットにもとづくシステム用の単語モデルを
示し、図に示す単語の音声認識ユニットは、10個の音響参照体(201〜21
0)の列を用いてモデル化したものである。図2Bに、副単語ユニットにもとづ
くシステム用の単語モデル220を示し、図に示す単語は3つの副単語モデル(
250、260及び270)の列によってモデル化され、その各々が4つの音響
参照体(251、252、253、254;261〜264;271〜274)
を有するものである。図2に示す単語モデルは隠れマルコフモデル(HMM)に
もとづくものであり、これは音声及び手書き信号をを確率的にモデル化するため
に広く用いられている。このモデルを用いて、各認識ユニット(単語モデルまた
は副単語モデル)は通常、HMMによって特徴づけられ、そのパラメータは学習
データの集合から推定される。HMMをより大きなユニット用に適切に学習させ
るために多数の学習データが必要なので、通常、例えば40個の限られた副単語
ユニットの集合を用いる。HMM状態は(音声認識用の)音響参照体または(手
書き文字認識用の)図形参照体に対応するものである。参照体をモデル化する種
々の技法が知られており、これらは離散または連続確率密度を含むものである。
【0016】 図1に示す単語レベルの整合システム130は、観測ベクトルとすべての音声
認識ユニットの列とを整合させて、このベクトルと列との整合の尤度を算出する
ものである。副単語ユニットを用いる場合には、整合に対して、レキシコン13
4を用いることによって、可能性のある副単語ユニットの列がレキシコン134
内の列に限定されるという制約がおかれる。これにより可能性のある単語の列が
低減されるという結果になる。本発明によれば、列レベルの整合システム140
が言語モデル(LM)150を用いて整合に対してさらなる制約をおき、探査す
る経路は、言語モデルによって特定されるような、可能性の高い単語列に対応す
るものとなる。このようにして、ユニット整合サブシステム120の出力結果は
、数字列(例えば電話番号)または多単語のコマンドのような認識された単語列
(RS)となる。本発明による、多数の可能性のある単語列を有する小語彙の認
識に指向したシステムでは、原則として、言語モデルによって除外される単語列
がないようにする。一部の列では統計的に信頼できるデータが得られないので(
一般的な資料からも、ユーザによる特定の使用法からも)、これらの列はより可
能性が低いものとして考える(しかしまだ可能性はある)。大語彙システムと異
なり、認識は言語モデルにとって明らかに既知である単語列に限られるものでは
ない。
【0017】 本発明によれば、言語モデル150は、M≧2なるM個の単語の列の確率を与
える統計的言語モデルである。単語列の確率は、キャッシュ内での列の発生頻度
に応じたものとする。キャッシュを用いることによって、システムが特定のユー
ザに適応し、それと同時にユーザのごく直近の挙動に追従することができる。音
声認識器100は認識した単語列をキャッシュに記憶させる。単語列を正しく認
識した場合、例えば認識した電話番号で電話接続が確立された場合には、単語列
をキャッシュに記憶させるのみにすることが好ましい。大部分の小語彙システム
では、コストの観点から、キャッシュの大きさに制約をおかなければならない(
例えば、携帯電話に使用する際)。こうしたシステムは、キャッシュは「先入れ
先出し」(FIFO)方式で動作することが好ましい。一旦キャッシュが一杯に
満たされると、システムが新たに認識した単語列をキャッシュに書き込む毎に、
キャッシュ内で最長の単語列(あるいは新たな単語列がより長い場合にはいくつ
かの単語)を除去する。好都合なことに、キャッシュ内の若干の記憶スロットが
恒久使用のために予約されている。ユーザはこうしたスロットに、頻繁に使用し
ないが重要な単語列を記憶させることができる。例として、ユーザは緊急電話番
号をこうしたスロットに記憶させることができる。また特に電話番号の音声ダイ
ヤルについては、このシステムが、頻繁に用いる単語列(例えば電話番号)を、
覚えやすいかまたはより短い単語(または単語列)でダイヤルするようになって
いることも好ましい。例えば家族及び友人の電話番号を、家族員または友人の名
前のような音声コマンドに関連づけて記憶させる。いくつかの選択的な音声コマ
ンドを1つの電話番号(またはより一般的には、1つの単語列)に関連付けて記
憶することが好ましい。重要であるが頻繁に使用しない単語列については、記憶
している関連音声コマンドを思い出すことは困難でありうる。例えば、緊急電話
番号を音声コマンド「緊急」、「警察」、「消防署」、「救急車」または「病院
」またはさらに異なる名前に関連付けて記憶させているか否かを思い出すことは
困難でありうる。従って、頻繁に使用しない単語列を恒久的にキャッシュに記憶
して、この単語列の全体が発声されるようにし、緊急番号の場合に通常、これら
の単語列を比較的短い、周知の電話番号で発声するようにする方が好都合である
【0018】 本明細書の残りの部分に2つの好適な言語モデルを提示する。当業者がこれら
提示したモデルに変形を施して、これらに代わる言語モデルを設計することがで
きる。提示したこれらのモデルは次の概念を共有するものである。これらに代わ
るモデルが同じ概念を用いる必要がないことは明らかである。 ・単語列の確率は、この単語列がキャッシュ内に発生するか否かに依存する。い
ずれの場合にも0でない確率を用いる。このようにして原則として、語彙中のあ
らゆる単語は、たとえキャッシュ内に存在しない場合でも、これを認識すること
ができる。 ・列がキャッシュ内にある場合と、列がキャッシュ内にない場合との間で、単語
列の確率が滑らかに遷移することを保証するために、単語列の確率を次のように
与える: −単語列がキャッシュ内に発生しない場合には、正規化した0でない値とする
。 −その他の場合には、正規化値と、単語列がキャッシュ内に発生する回数に応
じた頻度関係項との和とする。 頻度関係項は確率に寄与するものであり、発生の回数が0に減少するにつれて
確率が0に収束し、発生の回数が増加するとともに確立が増加する(最大確率で
制限することもできる)ようにすることが好ましい。 ・キャッシュ内の単語列の確率を過大評価しないようにするために、頻度関係項
に割引パラメータDを含め、これはキャッシュ内での単語列の発生回数から、あ
るいは確率から差し引くものである。
【0019】 言語モデル150は単語列W=w1w2w3...wqの確率を与えるものであり、
これは原則として次式で与えられる: P(W)=P(w1)・P(w2|w1)・P(w3|w1w2)...P(wq|w1w2w3...wq)
項P(W)は式(1)の第2項を詳述するものであり、これは2つのモデルによって
近似されるものである。両モデルとも、数字列の認識に指向したものである(即
ち単語が数字を表わす)が、小語彙の単語列の認識の他の形態にも同等に使用す
ることができる。
【0020】 完全列キャッシュモデル このモデルでは、認識した単語列のうち直近のL個を記憶すべくキャッシュを
適応させる。キャッシュ内の単語列は識別が可能なものである。各単語列は所定
の列長MAXまでに制限される。大部分の電話番号については、現実的な制限値
である1列14数字を用いることができる。キャッシュはL個の記憶箇所を有す
るような単純な方法で構成することができ、各々が(MAX個の単語/数字まで
の)完全な列を保持することができる。また多くの状況において、列が最大許容
長より短いので、他のキャッシュ配列を用いることもできる。例えばL個のエン
トリを有する表を用いることができ、これはより大きな表へのインデックス(ポ
インタ)の役をするものあり、この表に実際の列を記憶する。平均の列長をMA
Xよりずっと短いものと仮定し、このようにして同じ記憶空間により多くのエン
トリを記憶させることができる(Lをより大きくすることができる)。
【0021】 この言語モデルは長さMAXまでの単語列sの条件確率を、次式のように特定
するものである:
【数3】 この式でn(s)はキャッシュ内に単語列sが発生する回数である。Dは割引パラ
メータである。γは正規化値であり、これは通常の方法で、単語列の確率を、全
累積確率1に正規化して得ることができるものである。
【0022】 言語モデルは、列全体の認識を助長するために用いることができる。あるいは
また、列の一部のみを音響モデルを用いて処理している際には、それまでに識別
した可能性のある列を同じモデルを用いて処理することができ、ここでsはそれ
までに識別された副列を表わすものである。
【0023】 Mグラムキャッシュモデル このモデルでは、列の確率は列の最後のM単語にもとづくものである。この言
語モデルは単語wiの条件確率を規定するものであり、この条件確率は先行する
単語の列wi-1...wi-M+1で次式のように与えられる:
【数4】 ここでn(wi...wi-M+1)はキャッシュ内に単語列wi...wi-M+1が発生する回数
であり、γ(wi-1...wi-M+1)・P(wi|wi-1...wi-M+2)は正規化値であり、D
Mは割引パラメータである。
【0024】 電話番号を認識するためには、500の数字を記憶するキャッシュが適切であ
ることがわかっている。値Mに応じて、最良の結果が達成されるように割引パラ
メータDMを選定することができる。D2=0.96、D3=0.97で最良の結果が得ら
れている。
【0025】 原則として、直近に認識した単語列を単にキャッシュに追加することができる
。M単語の列のみを用いるので、音響モデルによって生成される列全体どうしを
比較することがなく、キャッシュに記憶されている列があればよい。このためキ
ャッシュが、列の先頭(及び/または終端)の識別が容易にできるような特定の
構造を有する必要がない。単に列をキャッシュに追加することによって、短い列
が頻繁に用いられる場合に、多くの列を記憶することができる。M単語の副列が
、記憶されている列の原則としてどこにでも発生するようにすることによって、
特にコマンド及び制御のアプリケーションについては、単語のある副列がいくつ
かのより長い列内で発生して、これらの副列がより良好に認識される。
【0026】 好適な実施例では、独立した一意の単語区分記号を用いることによって、単語
列の終端または先頭を表現し、かつこの単語区分記号を含む単語列を記憶するよ
うにキャッシュを構成することができる。このようにして、なおも列を追加しな
がら、単純なやり方でキャッシュ内の単語列を識別することができる(このため
単語区分記号を除いて、空間を大幅に無駄使いすることがない)。またこの技法
は完全列キャッシュモデル用にも用いることができる。単語区分記号は単語列の
先頭を識別するものであることが好ましい。特にM−グラムキャッシュモデルと
の組合わせで、単語区分記号は列の一部と見なすことができる。このようにして
、入力列全体の中の入力副列の位置が、記憶されている列の中の副列の位置に対
応する場合に、M個の副列のみがキャッシュ内にあるものとして識別される。こ
のことは特に電話番号を認識するために有用であり、ここで通常、実際のM個の
数字が同じ位置に発生するということが重要である。
【0027】 M−グラムキャッシュモデルについて、3名の人によって使用される電話番号
を認識する試験を行った。ユーザLDC及びLDC1は、長距離の呼出しを頻繁
に行う。WCCは主に社内の3桁番号の呼出しを行う。電話番号の長さ(1桁の
番号区分記号を含む)は次の表に示す通りである:
【表1】
【0028】 図3に、トリグラム(M=3)キャッシュ、3人の人について、種々のキャッ
シュの大きさ(数字の数)に対して得られた結果を示す。キャッシュの大きさ1
00数字ないし200数字については、既に複雑度の大幅な低下が生じているこ
とが明らかである。キャッシュのないシステムについては、10個の数字及び1
個の区分記号を用いる場合には、複雑度(何個の数字が後に続きそうであるかを
表現する値)が11である。3人について平均すれば、複雑度は200数字のキ
ャッシュについてはおよそ5.8にまで低減され、500数字のキャッシュを用い
ればおよそ5.7にまで低減されている。
【0029】 図4に、フォアグラム(M=4)キャッシュについて得られた結果を示す。図
3及び図4から3人の人のすべてにとって、キャッシュを用いる効果があること
が明らかである。しかし、効果の程度は様々である。M=3及びM=4について
は、特に、短い番号を主に使用する人物WCCにとって最も効果がある。WCC
が使用するほとんどの番号が非常に短いので、WCCにとっては、フォアグラム
によってもトライグラムを上回る改善がほとんど得られないが、LDC及びLD
C1にとってはまだ改善が認められる。
【0030】 図5に、3人の人すべてを合計した結果を、種々のMの値及び種々のキャッシ
ュの値について示す。これより一般的に、フォアグラムを用いればトライグラム
を用いるのに比べて、大幅な改善がもたらされるということがわかる。しかし、
ファイブグラムを試行した結果、フォアグラムと同様の結果しか得られなかった
。また図5に、完全列キャッシュモデルを用いた結果も示し、これは図中にCN
Cで示すものである。このモデルは、複雑度がむしろ低くなる結果をもたらして
いる。しかし、あるアプリケーションについては、列の長さに十分な自由度があ
るので、M−グラムモデルを用いる方が、より簡単である。
【図面の簡単な説明】
【図1】 本発明によるパターン認識システムのブロック図である。
【図2】 音声認識に使用する言語モデルを示す図である。
【図3】 トリグラムキャッシュモデルを使用した結果を示す図である。
【図4】 フォアグラムキャッシュモデルを使用した結果を示す図である。
【図5】 M−グラムキャッシュモデルを使用した結果と完全列キャッシュモデ
ルを使用した結果とを比較して示す図である。
───────────────────────────────────────────────────── フロントページの続き (71)出願人 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands Fターム(参考) 5D015 HH23 KK02

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 一連の単語を認識する小語彙パターン認識システムにおいて、前
    記語彙が複数の参照単語の表現を蓄積したものであり、このシステムが、 発話または筆記された単語列を表現する時系列的入力パターンを受信する入力
    手段と; 前記入力パターンと前記語彙の参照単語の表現とを統計的に比較することによ
    って、複数の単語の列を生成する単語レベル整合ユニットを具えるパターン認識
    器とを具え、 前記システムがさらに、直近に認識した複数の単語を記憶するキャッシュを含
    み; 前記音声認識器がさらに、M≧2なるM個の単語の列の確率を与える統計的言
    語モデルに依存して、複数の単語列から単語列を選択する列レベルの整合ユニッ
    トを具え; 前記確率を、前記キャッシュ内での前記列の発生の頻度に応じたものとする ことを特徴とする小語彙パターン認識システム。
  2. 【請求項2】 前記確率がさらに、前記単語列が前記キャッシュ内に発生するか
    否かに依存するものであり;かついずれの場合にも、前記確率を0にしないこと
    を特徴とする請求項1に記載のシステム。
  3. 【請求項3】 単語列の前記確率が −該単語列が前記キャッシュ内に発生しない場合には、正規化された0でない値
    ; −その他の場合には、前記正規化値と、該単語列がキャッシュ内で発生する回数
    に応じた頻度関係項との和; として与えられることを特徴とする請求項2に記載のシステム。
  4. 【請求項4】 前記頻度関係項が、前記キャッシュ内での前記単語列の発生回数
    から差し引く割引パラメータDを含むことを特徴とする請求項3に記載のシステ
    ム。
  5. 【請求項5】 前記キャッシュが、直近に認識したL個の単語列を識別可能な単
    語列として記憶すべく適応され; 各単語列が所定の列長に制限され; 前記言語モデルが、前記所定の列長までの単語の列sの条件確率を次式のよう
    に特定し: 【数1】 ここにn(s)が前記キャッシュ内での前記単語列の発生回数であり、γが前記正
    規化値であることを特徴とする請求項3に記載のシステム。
  6. 【請求項6】 前記言語モデルが、単語wiの前記条件確率を、所定の先行単語
    列wi-1...wi-M+1に対して次式のように特定し: 【数2】 ここにn(wi...wi-M+1)は前記キャッシュ内で前記単語列wi...wi-M+1が発生
    する回数であり、γ(wi...wi-M+1)P(wi|wi...wi-M+2)は前記正規化値であ
    ることを特徴とする請求項3に記載のシステム。
  7. 【請求項7】 単語列の終端または先頭が、区分された一意の単語区分記号とし
    て表現され;前記キャッシュが、前記単語区分記号を含む直近に認識した単語列
    を記憶すべく適応されていることを特徴とする請求項6に記載のシステム。
  8. 【請求項8】 前記Mが少なくとも3であることを特徴とする請求項1に記載の
    システム。
  9. 【請求項9】 前記Mが4または5であることを特徴とする請求項1に記載のシ
    ステム。
  10. 【請求項10】 単語が数字またはコマンドを表現することを特徴とする請求項
    1に記載のシステム。
JP2000590160A 1998-12-21 1999-12-16 音声認識履歴にもとづく言語モデル Abandoned JP2002533771A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98204354.9 1998-12-21
EP98204354 1998-12-21
PCT/EP1999/010181 WO2000038175A1 (en) 1998-12-21 1999-12-16 Language model based on the speech recognition history

Publications (1)

Publication Number Publication Date
JP2002533771A true JP2002533771A (ja) 2002-10-08

Family

ID=8234505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000590160A Abandoned JP2002533771A (ja) 1998-12-21 1999-12-16 音声認識履歴にもとづく言語モデル

Country Status (5)

Country Link
US (1) US6823307B1 (ja)
EP (1) EP1055227B1 (ja)
JP (1) JP2002533771A (ja)
DE (1) DE69919842T2 (ja)
WO (1) WO2000038175A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
JP2006085179A (ja) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd 放送受信方法、放送受信システム、記録媒体、及びプログラム
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
CN110004027A (zh) * 2019-04-16 2019-07-12 北京龙基高科生物科技有限公司 一种基因测序仪自动调平载物台

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741963B1 (en) 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US7506046B2 (en) * 2001-07-31 2009-03-17 Hewlett-Packard Development Company, L.P. Network usage analysis system and method for updating statistical models
US7966177B2 (en) * 2001-08-13 2011-06-21 Hans Geiger Method and device for recognising a phonetic sound sequence or character sequence
US20090106251A1 (en) * 2001-10-24 2009-04-23 Harris Scott C Web based communication of information with reconfigurable format
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
US8234115B2 (en) * 2002-03-29 2012-07-31 At&T Intellectual Property Ii, L.P. Systems and methods for determining the N-best strings
TWI225640B (en) * 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
ATE508455T1 (de) * 2002-09-27 2011-05-15 Callminer Inc Verfahren zur statistischen analyse von sprache
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US7460652B2 (en) 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US7356475B2 (en) 2004-01-05 2008-04-08 Sbc Knowledge Ventures, L.P. System and method for providing access to an interactive service offering
US7136459B2 (en) * 2004-02-05 2006-11-14 Avaya Technology Corp. Methods and apparatus for data caching to improve name recognition in large namespaces
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
CN1957397A (zh) * 2004-03-30 2007-05-02 先锋株式会社 声音识别装置和声音识别方法
US7936861B2 (en) 2004-07-23 2011-05-03 At&T Intellectual Property I, L.P. Announcement system and method of use
US8165281B2 (en) 2004-07-28 2012-04-24 At&T Intellectual Property I, L.P. Method and system for mapping caller information to call center agent transactions
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7602898B2 (en) 2004-08-18 2009-10-13 At&T Intellectual Property I, L.P. System and method for providing computer assisted user support
US7197130B2 (en) 2004-10-05 2007-03-27 Sbc Knowledge Ventures, L.P. Dynamic load balancing between multiple locations with different telephony system
US7668889B2 (en) 2004-10-27 2010-02-23 At&T Intellectual Property I, Lp Method and system to combine keyword and natural language search results
US7657005B2 (en) * 2004-11-02 2010-02-02 At&T Intellectual Property I, L.P. System and method for identifying telephone callers
US7724889B2 (en) 2004-11-29 2010-05-25 At&T Intellectual Property I, L.P. System and method for utilizing confidence levels in automated call routing
US7864942B2 (en) 2004-12-06 2011-01-04 At&T Intellectual Property I, L.P. System and method for routing calls
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7627096B2 (en) 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
US8160884B2 (en) * 2005-02-03 2012-04-17 Voice Signal Technologies, Inc. Methods and apparatus for automatically extending the voice vocabulary of mobile communications devices
US7627109B2 (en) 2005-02-04 2009-12-01 At&T Intellectual Property I, Lp Call center system for multiple transaction selections
US8223954B2 (en) 2005-03-22 2012-07-17 At&T Intellectual Property I, L.P. System and method for automating customer relations in a communications environment
US7636432B2 (en) 2005-05-13 2009-12-22 At&T Intellectual Property I, L.P. System and method of determining call treatment of repeat calls
US8005204B2 (en) 2005-06-03 2011-08-23 At&T Intellectual Property I, L.P. Call routing system and method of using the same
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8503641B2 (en) 2005-07-01 2013-08-06 At&T Intellectual Property I, L.P. System and method of automated order status retrieval
US8526577B2 (en) 2005-08-25 2013-09-03 At&T Intellectual Property I, L.P. System and method to access content from a speech-enabled automated system
US8548157B2 (en) 2005-08-29 2013-10-01 At&T Intellectual Property I, L.P. System and method of managing incoming telephone calls at a call center
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20080221902A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile browser environment speech processing facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US7983919B2 (en) 2007-08-09 2011-07-19 At&T Intellectual Property Ii, L.P. System and method for performing speech synthesis with a cache of phoneme sequences
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8972260B2 (en) * 2011-04-20 2015-03-03 Robert Bosch Gmbh Speech recognition using multiple language models
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
JP5932869B2 (ja) 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US9251141B1 (en) * 2014-05-12 2016-02-02 Google Inc. Entity identification model training
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN113066489A (zh) * 2021-03-16 2021-07-02 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937383A (en) * 1996-02-02 1999-08-10 International Business Machines Corporation Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
CA2226233C (en) * 1997-01-21 2006-05-09 At&T Corp. Systems and methods for determinizing and minimizing a finite state transducer for speech recognition
US6070229A (en) * 1997-12-02 2000-05-30 Sandcraft, Inc. Cache memory cell with a pre-programmed state
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085179A (ja) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd 放送受信方法、放送受信システム、記録媒体、及びプログラム
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8831943B2 (en) 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
CN110004027A (zh) * 2019-04-16 2019-07-12 北京龙基高科生物科技有限公司 一种基因测序仪自动调平载物台

Also Published As

Publication number Publication date
EP1055227A1 (en) 2000-11-29
US6823307B1 (en) 2004-11-23
DE69919842T2 (de) 2005-09-01
DE69919842D1 (de) 2004-10-07
EP1055227B1 (en) 2004-09-01
WO2000038175A1 (en) 2000-06-29

Similar Documents

Publication Publication Date Title
JP2002533771A (ja) 音声認識履歴にもとづく言語モデル
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US9754586B2 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP4105841B2 (ja) 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US20150058006A1 (en) Phonetic alignment for user-agent dialogue recognition
EP1575030A1 (en) New-word pronunciation learning using a pronunciation graph
JPH0372998B2 (ja)
JPH09509509A (ja) 複合語を有する言語における音声認識の方法及びシステム
US20050114131A1 (en) Apparatus and method for voice-tagging lexicon
US8219386B2 (en) Arabic poetry meter identification system and method
JP4089861B2 (ja) 音声認識文章入力装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JPH11202895A (ja) 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP4790956B2 (ja) 音声認識器における綴りモード
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005534968A (ja) 漢字語の読みの決定
Sarukkai et al. Phonetic set hashing: A novel scheme for transforming phone sequences to words
GB2292235A (en) Word syllabification.
Ballard et al. Phonetic Set Hashing: A Novel Scheme for Transforming Phone Sequences to Words
Gauvain et al. Continuous Speech Dictation at LIMSIy

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061213

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070711