JP3126985B2 - 音声認識システムの言語モデルのサイズを適応させるための方法および装置 - Google Patents

音声認識システムの言語モデルのサイズを適応させるための方法および装置

Info

Publication number
JP3126985B2
JP3126985B2 JP09517770A JP51777097A JP3126985B2 JP 3126985 B2 JP3126985 B2 JP 3126985B2 JP 09517770 A JP09517770 A JP 09517770A JP 51777097 A JP51777097 A JP 51777097A JP 3126985 B2 JP3126985 B2 JP 3126985B2
Authority
JP
Japan
Prior art keywords
acoustic
word
language model
words
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09517770A
Other languages
English (en)
Other versions
JPH10501078A (ja
Inventor
クンソマン、ジークリフド
モール、カールハインツ
バンダラ、ウパリ
ルイス、バーン、エル.
Original Assignee
インターナシヨナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナシヨナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナシヨナル・ビジネス・マシーンズ・コーポレーション
Publication of JPH10501078A publication Critical patent/JPH10501078A/ja
Application granted granted Critical
Publication of JP3126985B2 publication Critical patent/JP3126985B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 本発明は、ディジタル・コンピュータで実施される音
声認識システムまたは速記用口述録音機や電話設備の翻
訳装置などの音声認識装置に関する。具体的に言うと、
本発明は、記憶要件など、音声認識システムの処理に必
要な資源を減らすため、そのようなシステムの統計的言
語モデルのサイズを減らすための機構に関する。言語モ
デルのサイズも、システム環境条件またはユーザ固有の
音声特性に適合させることができる。
知識ベースではなく統計的言語モデル手法に基づく音
声認識システム、たとえば、米国ヨークタウン・ハイツ
(Yorktown Heights)のIBM Thomas J.Watson Research
CenterでF.ジェリネック(Jelinek)他によって開発さ
れ、「The development of an experimental discrete
dictation recognizer」Proceedings of IEEE 73(198
5)11、1616〜1624ページで公表された英語音声認識シ
ステムTANGORAでは、認識処理を複数のステップに分割
することができる。第1図(K.ウォシュケ(Wothke)、
U.バンダラ(Bandara)、J.ケンプ(Kempf)、E.ケッペ
ル(Keppel)、K.モーア(Mohr)、G.ワルチ(Walch)
(IBM Scientific Center Heidelberg)著「The SPRING
Speech Recognition System for German」、Proceedin
gs of Eurospeech 89,Paris 26.−28.IX.1989の論文か
ら引用)に示されたこれらのステップの作業は、次のと
おりである。
・信号プロセッサによる、音声信号からのいわゆる音響
ラベルのシーケンスの抽出と、 ・観察されたラベル・シーケンスを生じる確度が最も高
い単語群を見つけるための高速で詳細な音響突合せと、 ・単語のシーケンスに関する、統計的言語モデルによる
その言語にその単語のシーケンスが出現する確率の計
算。
このシステム全体は、たとえばパーソナル・コンピュ
ータ(PC)などのディジタル・コンピュータ上で実施す
るか、可搬型速記用口述録音機または電話装置上で実施
することができる。音声信号は、増幅され、ディジタル
化され、その後、ディジタル化されたデータが、たとえ
ば信号プロセッサ内に含まれる緩衝記憶に読み取られ
る。結果の振動数スペクトルから、複数の要素のベクト
ルが取られ、スペクトルは、耳モデルを考慮に入れて調
節される。
各ベクトルは、多数の(たとえば200人)話者依存原
型ベクトルと比較される。最も類似している原型ベクト
ルの、音響ラベルと称する識別番号が、採用され、後続
の処理段階に送られる。話者依存原型ベクトルは、その
システムの、音声サンプルを用いるトレーニング段階中
に、言語固有原型ベクトルから生成される。話者独立シ
ステムでの1例として、ラベルは、話者依存原型なし
で、長い固有の方法を用いて生成される。
高速音響突合せによって、基準語彙のすべての単語に
ついて、音声信号から観察された音響ラベルのシーケン
スを生じる確率が判定される。単語の確率は、単語の終
りに達するか、確率があらかじめ指定されたレベル未満
に低下するかのいずれかになるまで計算される。高速突
合せでは、この確率の判定の基準単位として、関連発音
変形を含む基準語彙内の各単語のいわゆる音声学的音声
表記と、音声学的音声表記に使用される異音のそれぞれ
に隠れマルコフ(hidden Markov)モデルを使用する。
音声学的音声表記は、1組の表音式綴りの規則(l.c.)
を使用することによって生成される。
異音の隠れマルコフ・モデルとは、音響ラベルのシー
ケンスの部分列が異音に対応する確率を表すモデルであ
る。マルコフ・モデルは、言語固有であり、出力確率と
遷移確率は、個々の話者に合わせてトレーニングされ
る。ある単語の音声学的音声表記のマルコフ・モデル
は、その異音のマルコフ・モデルの連鎖である。
統計学的言語モデルは、音声認識装置または音声認識
システム(以下では、この両者をまとめて音声認識機構
と呼称する)の最も本質的な部分の1つである。これ
は、音響モデル側によって提案された単語仮説に関連す
る不確実性を解決するために、システムに追加の言語ベ
ース情報を供給するという点で、音響モデルに対して相
補的である。実際には、音響モデル側は、可能な単語候
補の組を提案し、各候補には確率が付加される。その一
方で、言語モデルは、対応する確率を用いて可能な候補
を予測する。システムは、最尤技法を適用して、これら
2組の候補から最も確率の高い候補を見つける。
この言語ベース情報を供給する目的のため、言語モデ
ルでは、単語シーケンスの先験的に計算された相対頻度
を使用するが、実用上の理由から、この単語シーケンス
は通常は長さ3すなわち、3つ組みの単語「w1 w2
w3」というトライグラムである。この結果、「w3」が発
生する確率は、所与のテキスト・コーパス内での「w3
(ユニグラム)、「w2 w3」(バイグラム)および「w1
w2 w3」(トライグラム)の相対頻度に依存すると仮
定される。これらの頻度の計算のため、たとえば実際の
放射線医学のレポートや商業通信など、応用領域からの
非常に大量の典拠のあるテキスト・コーパスが引用され
る。
言語モデルは、高速音響突合せから、1組の単語候補
を受け取る。これらの候補のそれぞれについて、言語モ
デルでは、その候補がすでに認識されている単語に続く
確率を判定する。この目的のために、言語モデルでは、
単一の単語の確率、単語対の確率および3つ組み単語の
確率を使用する。これらの確率は、大量のテキスト・コ
ーパスを使用して、語彙内のすべての単語について推定
される。高速突合せと言語モデルによって供給される、
最も高い組合せ確率を有する単語候補が選択され、詳細
突合せに渡される。
詳細音響突合せでは、言語モデルから受け取った単語
のそれぞれについて、その単語が観察された音響ラベル
・シーケンスをもたらす確率を計算する。高速音響突合
せとは異なり、詳細突合せでは、この処理を、基準語彙
の全単語について実行するのではなく、言語モデルから
受け取った単語だけについて実行し、音声学的音声表記
や基準単位としての異音の隠れマルコフ・モデルは使用
しない。その代わりに、詳細突合せでは、通常は1つの
音響ラベルに対応する人工的な音響単位である、いわゆ
るフェネミック音の隠れマルコフ・モデルを使用する。
ここで、フェネミックとは、人工的音響ラベルである
フェネム(feneme)に関連するものであり、このフェネ
ムは単音(phone)と対照される。IBM社の音声認識シス
テムにおいては、その特別の機能として、音声入力信号
をコード化された表現に変換する機能をもつものがあ
る。このようなプロシージャは、A.Nadas他による「Con
tinuous Speech Recognition with Automatically Sele
cted Acoustic Prototypes...」、Proceedings ICASSP
1981,pp.1153−55において説明されている。ここでは、
音声入力はセンチ秒(100分の1秒)の間隔に分割され
て各間隔についてスペクトル分析がなされる。ここでフ
ェネムは、予定のパターンの多くが音声入力に最も適合
するようなスペクトル・パターンを指す。各フェネム
は、順に別個のラベルや複数のラベルからなるストリン
グとして表され、このことによって、(順に単語を形成
することになる)音声の連続したセンチ秒を表す。フェ
ネムは、アルファベットの母音や子音を表す一般の単語
(phoneme)よりは短い。
その後、高速突合せ、言語モデルおよび詳細突合せの
3つの確率を組み合わせて、最尤シーケンスを求める。
各仮説の最後に、高速突合せ、言語モデルおよび詳細突
合せを、もう一度開始する。
現場では、前述の手法で約20000語を使用して、発生
される単語の少なくとも95%をカバーする。領域からの
大きいテキスト・コーパスを分析して、発生するユニグ
ラム、バイグラムおよびトライグラムのすべての相対頻
度を得る。20000語の語彙について理論的に可能なトラ
イグラムの数は、200003=9×1012(統計的計算による
結果)である。実際には、このうちのごく一部だけが観
察される。その場合であっても、すべてのトライグラム
および対応する頻度を含む言語モデル・ファイルを記憶
するために、音声認識機構は、約170MBのディスク容量
を必要とする。このファイルは、実行中に使用される。
言語モデル・ファイルのサイズが大きいことから生じ
る悪影響が3つある。
1.必要なディスク容量が大きく、したがって、認識装置
のハードウェア・コストが高価になる。
2.大きいファイルでの検索には長い検索遅延が伴うの
で、認識機構の速度性能がますます低くなる。
3.比較的低速のプロセッサを有する小型で安価な、ラッ
プトップなどのコンピュータに音声認識ソフトウェアを
移植することが困難になる。
上記の理由から、これら従来技術の音声認識技術に使
用された言語モデルのサイズが、検索遅延と認識精度の
間のトレードオフになる。この種の手法によれば、言語
モデル・ファイルは、所与の閾値末端の頻度、たとえば
3回未満しか発生しないトライグラムを破棄することに
よって、圧縮される。これによって、特定のトライグラ
ムがコーパス内でほとんど発生しない場合に、このトラ
イグラムは話者によって発話される確度が非常に低いと
仮定される。この手法は、高い処理速度を達成するため
の言語モデルのサイズの圧縮をもたらすが、認識精度が
失われる可能性がある。
実際の現場での応用の間には、上の仮定が現実的でな
いことが観察される。多くの場合に、滅多にないのでは
なく、評価されたテキスト・コーパスのサイズが非常に
限られていたので1回しか観察されないトライグラムが
ある。しかし、話者は、これらのいわゆるシングルトン
・トライグラムを実際に発話する。
このほかにも従来技術の技法があり、たとえば、IBM
Technical Disclosure Bulletin(TDB)、No.1、1991年
6月、第427ページないし429ページに記載のニシムラ
(M.Nishimura)著、表題「Method for Compressing a
Fast Match Table」に記載されている、記憶空間を節約
するために高速突合せテーブルを圧縮する方法がある。
さらに、IBM TDB、No.2、1988年2月、第388ページない
し389ページでクレピィ(H.Crepy)によって公表され
た、音声認識システムの大量のモデル発話を含むライブ
ラリを圧縮する方法に関連する手法がある。第1の論文
では、2進木符号化アルゴリズムを使用することによる
解決が開示され、第2の論文には、共通データ圧縮技法
を使用することによる解決が開示されている。具体的に
言うと、両者の手法は、音声認識機構の音響部分の圧縮
に関し、言語モデルのサイズの圧縮に関するものではな
い。
言語モデル・ファイルの圧縮に関する上記の手法は、
過去においてはコンパクトなモデルをもたらしたが、ユ
ーザが、破棄され、言語モデルによってサポートされな
いトライグラムを発話したので、結果の誤認識率はかな
り高かった。これらのシステムでは、音響モデル側だけ
に頼る必要があった。そのことから、たとえば英語の
「right」と「write」やドイツ語の「daβ(βはドイツ
語のエス・ツェット)」と「das」など、音響的に同一
または類似の単語の誤認識が生じた。
したがって、本発明の基礎となる問題は、言語モデル
のサイズの大幅な減少を可能にしながら、前に述べた短
所を回避する、上記の特性を有する音声認識機構のため
の機構を提供することである。
本発明の基礎となる問題および長所は、システムの音
響部分がそれを正しく認識するために言語モデルからの
支援をあまり必要としないトライグラムを破棄する機構
によって達成される。提案される方法は、システムの作
成中または実行中に破棄する目的で、言語モデル内のト
ライグラムを識別するのに適する。また、精度を維持し
ながら言語モデルの圧縮を可能にする、もう1つの単語
自動分類方式も提供する。
単語間の意図的に定義された音響距離が、非効率的な
トライグラムを破棄するための判断基準として使用され
る。提案される方法を用いると、認識精度のかなりの損
失なしに、言語モデルのサイズを圧縮することができ
る。さらに、この方法によれば、役に立つ時にはシング
ルトン・トライグラムであっても使用されるので、数少
ない使用可能なテキスト・コーパスの効率的な使用が可
能になる。主要なツールである高速突合せスコアリング
は、既知の認識機構自体で簡単に使用可能なモジュール
であるから、追加のソフトウェア・ツールを開発する必
要はない。
提案される方法の効率は、音響的に単語が互いに区別
される限り、単語が発生する共通テキストに従う単語の
分類によって、さらに改善することができる。
縮小のほかに、言語モデルのサイズを、記憶域サイズ
やプロセッサ速度などのシステム環境条件または、発話
される単語の音響距離に直接に影響するユーザ固有の発
音に適合させることができる。
これらすべての理由のために、提案される方法によっ
て、低コスト・パーソナル・コンピュータ(PC)でも、
ラップトップなどの可搬型コンピュータであっても、音
声認識を使用可能にする可能性が開かれる。
本発明の上記および他の目的、特徴および長所は、添
付図面を参照すればより完全に諒解される。
第1図は、音響部分と統計的認識部分が、互いに独立
に実行される、技術的現状の音声認識システムを表すブ
ロック図である。
第2図は、システムの作成中に言語モデル・サイズが
適合される、本発明による音声認識システムの第1の実
施例のブロック図である。
第3図は、認識システムの実行中に言語モデル・サイ
ズの適合が達成される、本発明の第2の実施例を示す図
である。
第4図は、言語モデル・サイズの適合のための、提案
される方式を示す流れ図である。
第1図は、技術的現状による音声認識システムを示す
図である。このようなシステムは、導入部ですでに説明
した。
発話された音声信号は、マイクロフォン1によって記
録され、結果のアナログ信号は、音響信号プロセッサ2
に供給される。その代わりに、発話された音声信号を、
まず速記用口述録音機によって記録し、その後、速記用
口述録音機からコンピュータへオフラインで転送するこ
とができる。
メモリ3に記憶された原型ベクトルを使用することに
よって、音響信号プロセッサ2は、音響ラベルのシーケ
ンスを生成する。アナログ・ディジタル変換器4によっ
てアナログ・データ・フォーマットからディジタル・デ
ータ・フォーマットに変換されたこのシーケンスは、デ
コーダ5によって達成されるより完全な分析の開始点と
なる。デコーダ5には、認識の3段階すなわち、高速音
響突合せ段6、言語モデル段7および詳細音響突合せ段
8が含まれる。アナログ・ディジタル変換器4および言
語モデル段7のそれぞれが、単語候補を供給する。
3つの認識段すなわち高速音響突合せ段6、言語モデ
ル段7および詳細音響突合せ段8のそれぞれが、記憶装
置9、10および11から入力を得る。高速音響突合せ段6
には記憶装置9から供給され、記憶装置9には、基準単
位としてマルコフ・モデルに従う異音のシーケンスとし
て表された語彙が含まれる。語彙の供給源は、音響辞書
12である。
ところが、詳細音響突合せ段8では、いわゆるフェネ
ミック音のマルコフ・モデルとしての異音の(人工的
な)副次単位が使用され、これらのフェネミック音のシ
ーケンスとして表される語彙が供給される。基礎となる
音は、複数の基準話者14によって提供される。
記憶装置10には、上で述べた文書に広範囲に記載され
ている、従来技術の認識システムによるテキスト・コー
パス13の使用によって作成される単語シーケンスのnグ
ラム統計が含まれる。
デコーダ5によって実行される認識段階の間に、高速
音響突合せ段6、言語モデル段7および詳細音響突合せ
段8は協働することに留意されたい。
デコーダ5の出力15には、ディジタル・フォーマット
の単語のシーケンスが供給され、そのフォーマットは、
関係するアプリケーションに依存する。たとえば、単語
のシーケンスは、テキスト処理システムによって読取り
可能な正字法テキストとすることができ、また、機械可
読フォーマットで供給することができる。
第2図は、第1図と同様の音声認識システム20を示す
図であるが、この音声認識システム20には、本発明の第
1実施例によるもう1つの機能ユニット21が含まれる。
機能ユニット21は、本明細書に開示される方法によって
音響距離を計算し、記憶装置9および11に記憶されたデ
ータを与えられる。その代わりに、機能ユニット21をデ
コーダ5内で実施することができる。後者の場合、高速
音響突合せ段6および詳細音響突合せ段8によって計算
される頻度は、基礎として直接に採用される。
本明細書に開示され、機能ユニット21内で実施される
方法の結果は、単語シーケンスのnグラム統計を含む記
憶装置10の内容を減らすのに使用される。これに関し
て、上の結果は、経路22を介して記憶装置10に供給され
る。言語モデルのサイズは、音響距離に関して、すなわ
ち、たとえば言語パターンなどを共用するが、音響距離
によって簡単に分離可能な単語の新しいクラスを構成す
ることなどによって削減される。
第3図には、本発明のもう1つの実施例が示されてお
り、この実施例では、言語モデル・サイズの適合が、音
声認識システム20の実行中に動的に達成される。この結
果、機能ユニット30は、記憶装置9に記憶された語彙に
基づいて、ユーザ固有の音響距離を計算する。この情報
を使用することによって、装置31に記憶されるユーザ固
有言語モデルが作成される。その言語モデルのサイズ
は、類似した音色の単語の弁別性であり、ユーザの特徴
を表す発話品質に依存して縮小または拡大されるという
点で、記憶装置10に記憶されたモデルのサイズとは異な
る。
以下で、本発明による言語モデルのサイズを変更する
方法を、好ましい実施例に関してより詳細に説明する。
トライグラムの音響距離係数をaと定義するものとす
る。これを決定する方法の例を、以下に示す。さらに、
トライグラムの予測パワーfを、そのトライグラムの相
対頻度であるものとして定義する。aとfに関する各ト
ライグラムの重みづけ関数gを、次式のように定義す
る。
g=ka/f (1) ここで、kは重みづけ係数であり、試行錯誤によって
決定される。この方法によれば、重みづけ関数gは、ト
ライグラムごとに計算される。gの閾値は、やはり試行
錯誤によって決定される。所与のトライグラムのgが閾
値を超える場合、そのトライグラムは破棄される。
この手順には、第4図に示された下記のステップが含
まれる。
・トライグラムを取り出す ・w1とw2が同一であるすべてのw3を取り出す ・w1とw3が同一であるすべてのw2を取り出す ・w2とw3が同一であるすべてのw1を取り出す ・式2に示されたaの正規化された値を計算する ・ステップ1のトライグラムの正規化された頻度を使用
して、式1のgを計算する ・計算値が閾値gtを超える場合には、言語モデルからそ
のトライグラムを破棄する ・ステップ1に進んで次のトライグラムを処理する もう1つの実施例では、前もって定義された単語の組
Wの単語は、対応する単語が所与の閾値を超えるg(式
1)の値をもたらす限り、単一のクラスに置かれる。こ
の場合、1つの単語は、文脈クラスで発生することが許
容され、また、それが発生する文脈に依存する個々の単
語であることが許容される。このような分類によって、
たとえばクラスのすべてのメンバのために必要な記憶容
量がさらに削減され、文脈情報のためには同一の記憶域
が使用される。したがって、平均すると、節約は次のよ
うになる。
1単語あたりk、1クラス内にN単語で、(N−1)
×kの記憶域が節約される 所与のトライグラムw1w2w3の音響距離係数aは、以下
の方法によって計算できる。Wは、単語w3が所与の文脈
w1 w2に関して観察される、単語の組w1w2w3であるもの
とする。これによって、単語を、たとえば音節やダイフ
ォンなど、形態素または字句単位と同様の単語要素とす
ることができる。その場合、音響距離aは、組Wに関す
る単語wkについて、次のように定義される。
ここで、P(u(wk)|p(wi))は、単語wkの音響と
共に提示された時に単語wiの高速突合せ音響モデルによ
って作られるスコアとみなすことができる。したがっ
て、a(wk,W)は、組Wを用いて構築された高速突合せ
木内で観察される最小スコアである。この項は、組Wを
用いて高速突合せ木を作成し、単語wkの音響信号をと
り、高速突合せ木に対してその音響信号を評価すること
によって評価される。これによって観察される最小スコ
アを、a(wk,W)として採用する。
値a(wk,W)の計算は、次の3ステップによって達成
できる。
1.トライグラムw1w2w3を取り出す 2.一定のw1w2について、すべてのw3の組を決定する 3.このw3の組をWとみなし、特定のw3をwkとみなして、
上で述べたようにa(wk,W)を評価する このaの値で式1を置換して、重みづけ関数gを計算
する。
上の手順では、一定のw1w2を用いてw3が予測される場
合だけを検討した。これと同様に、一定のw2w3を用いて
w1を予測する場合について、次のように考えることがで
きる。
一般化された項a(wk,W)は、すべての特定の場合に
ついて、a(w3k,W3w1w2)、a(w2k,W2w1w3)およびa
(w1k,W1w2w3)と記述することができる。実際の距離係
数aは、上の3つの項の最小項すなわち次式である。
a=min{a(w3k,W3w1w2), a(w2k,W2w1w3), a(w1k,W1w2w3) (3) 本発明による音響距離係数aは、言語モデル内のトラ
イグラムw1w2w3を削除するためにこれを検査し、したが
って、言語モデル・ファイルを圧縮するのに使用でき
る。音響距離と言語モデル内のトライグラムの相対頻度
の提案された組合せによって、どのトライグラムを破棄
するかを決定するための判断基準を、自動的に、すなわ
ち、ユーザによる介入を全く必要とせずに、計算するこ
とができる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 バンダラ、ウパリ ドイツ国ライマン、リードヴィービンヴ ェーク 2エー (72)発明者 ルイス、バーン、エル. アメリカ合衆国ニューヨーク州オシニン グ、シャデイーン・ロード 275 (56)参考文献 欧州特許245595(EP,B1) 欧州特許801786(EP,B1) 米国特許5899973(US,A) Proceedings of th e European Confere nce on Speech Comm unication and Tech nology,Eurospeech’ 89,Vol.2,M.Ferretti et al,”Measures o f Language Model a nd Acoustic Model Information in Pro babilistic Speech Recognition”,p.473− 476,26−28 September 1989,Paris Speech Communicat ion,Vol.9,No.5/6,D ecember 1990,M.Ferre tti et al,”Measuri ng Information Pro vided by Language Model and Acoustic Model in Probabil istic Speech Recog nition:Theory and Experimental Resul ts”,p.531−539 (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG) IEEE/IEE Electroni c Library Online

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】・音響音声信号を分析し、それぞれの単語
    候補を供給するための第1認識手段と、 ・単語候補のそれぞれについて、その単語がすでに認識
    された単語に続く可能性の、言語モデルに基づく確率を
    判定するための第2認識手段と を含む音声認識装置または音声認識システムにおいて、 ・言語モデルに含まれる単語の音響距離値を判定するス
    テップと、 ・音響距離値の閾値を定義するステップと、 ・言語モデル内で、音響距離が閾値を超える単語を識別
    するステップと、 ・言語モデル内のこれらの単語を破棄するステップと を特徴とする、言語モデルのサイズを変更するための方
    法。
  2. 【請求項2】音響距離値が、第1認識手段の音響認識結
    果からとられることを特徴とする、請求項1に記載の方
    法。
  3. 【請求項3】音響距離値が閾値を超える単語の破棄が、
    装置またはシステムの作成中に行われることを特徴とす
    る、請求項1または2に記載の方法。
  4. 【請求項4】音響距離値が閾値を超える単語の破棄が、
    装置またはシステムの実行中に動的に行われることを特
    徴とする、請求項1または2に記載の方法。
  5. 【請求項5】音響距離値が閾値を超える単語のクラスを
    設けることを特徴とする、請求項1ないし4のいずれか
    一項に記載の方法。
  6. 【請求項6】・音響音声信号を記録するための手段と、 ・音響音声信号をディジタル化するための手段と、 ・ディジタル化された音声信号の音響ラベルを生成する
    ための手段と、 ・基準語彙の単語について、それが音響ラベルのシーケ
    ンスをもたらす確率を判定し、それぞれの単語候補を供
    給するための、少なくとも1つの音響突合せ手段と、 ・単語候補のそれぞれについて、大きいテキスト・コー
    パスを使用することによる語彙内の単語のnグラム統計
    に基づいて、その単語候補がすでに認識された単語に続
    く確率を判定するための言語モデル手段と を含む音声認識装置または音声認識システムにおいて、 ・言語モデルに含まれる単語の音響距離を判定するステ
    ップと、 ・環境条件に関して音響距離の閾値を定義するステップ
    と、 ・音響距離が閾値を超えるnグラムのタイプを判定する
    ステップと、 ・言語モデル内のこれらのnグラムを破棄するステップ
    と を特徴とする、それぞれの装置環境条件またはシステム
    環境条件に合わせて言語モデルのサイズを調節するため
    の方法。
  7. 【請求項7】音響距離が、音響突合せ手段の音響認識結
    果からとられることを特徴とする、請求項6に記載の方
    法。
  8. 【請求項8】音響距離が、それぞれのユーザの特定の音
    声特性によって決定されることを特徴とする、請求項6
    または7に記載の方法。
  9. 【請求項9】nグラムの調節が、装置またはシステムの
    導入段階中に達成されることを特徴とする、請求項6な
    いし8のいずれか一項に記載の方法。
  10. 【請求項10】nグラムの調節が、装置またはシステム
    の実行中に動的に達成されることを特徴とする、請求項
    6ないし8のいずれか一項に記載の方法。
  11. 【請求項11】音響距離値が閾値を越える単語の文脈ク
    ラスを設けることを特徴とする、請求項6ないし10のい
    ずれか一項に記載の方法。
  12. 【請求項12】所与の文脈について観察されるすべての
    単語である単語の組Wに関する単語wkの音響距離が、単
    語wkの音響と共に提示された時の単語wiの音響モデルの
    高速突合せ木で観察される最小スコアによって決定され
    ることを特徴とする、請求項6ないし11のいずれか一項
    に記載の方法。
  13. 【請求項13】トライグラムw1w2w3をとり、一定のw1w2
    についてすべてのw3の組を見つけ、w3の組をWとみな
    し、特定のw3をwkとみなし、具体的な事例のすべてにつ
    いてa(w3k,w3w1w2)、a(w2k,w2w1w3)およびa(w1
    k,w1w2w3)として音響距離係数aを評価することを特徴
    とする、請求項12に記載の方法。
  14. 【請求項14】重みづけ係数の使用によって、各トライ
    グラムw1w2w3の重みづけ関数を、そのトライグラムの音
    響距離係数をそのトライグラムの相対頻度の予測パワー
    で割った商として定義し、装置環境またはシステム環境
    に依存する閾値を決定することを特徴とする、請求項6
    ないし13のいずれか一項に記載の方法。
  15. 【請求項15】どのnグラムを破棄するかを決定する判
    断基準を計算するための基礎として、音響距離と単語n
    グラムの相対頻度の組合せを採用することを特徴とす
    る、請求項6ないし14のいずれか一項に記載の方法。
  16. 【請求項16】・音響音声信号を分析し、それぞれの単
    語候補を供給するための第1認識手段と、 ・単語候補のそれぞれについて、その単語候補がすでに
    認識された単語に続く可能性の、言語モデルに基づく確
    率を判定するための第2認識手段と、 ・言語モデルに含まれる単語の間の音響距離を判定する
    ための手段と、 ・音響距離値の閾値を定義するための手段と、 ・言語モデル内で、音響距離が閾値を超える単語を識別
    するための手段と、 ・言語モデル内のこれらの単語を破棄するための手段と を含む、音声認識装置または音声認識システム。
JP09517770A 1995-11-04 1995-11-04 音声認識システムの言語モデルのサイズを適応させるための方法および装置 Expired - Fee Related JP3126985B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP1995/004337 WO1997017694A1 (en) 1995-11-04 1995-11-04 Method and apparatus for adapting the language model's size in a speech recognition system

Publications (2)

Publication Number Publication Date
JPH10501078A JPH10501078A (ja) 1998-01-27
JP3126985B2 true JP3126985B2 (ja) 2001-01-22

Family

ID=8166119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09517770A Expired - Fee Related JP3126985B2 (ja) 1995-11-04 1995-11-04 音声認識システムの言語モデルのサイズを適応させるための方法および装置

Country Status (6)

Country Link
US (1) US5899973A (ja)
EP (1) EP0801786B1 (ja)
JP (1) JP3126985B2 (ja)
CA (1) CA2203132C (ja)
DE (1) DE69517705T2 (ja)
WO (1) WO1997017694A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049291A (ja) * 1998-04-15 2010-03-04 Microsoft Corp 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4339931B2 (ja) * 1996-09-27 2009-10-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 発話を認識する方法及びシステム
US20020186858A1 (en) * 2001-06-07 2002-12-12 Masahisa Masuda Loopdown and looparound headsets
US7072476B2 (en) * 1997-02-18 2006-07-04 Matech, Inc. Audio headset
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE59801715D1 (de) * 1997-11-21 2001-11-15 Siemens Ag Verfahren und vorrichtung zur spracherkennung
DE19754957A1 (de) * 1997-12-11 1999-06-17 Daimler Chrysler Ag Verfahren zur Spracherkennung
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6253175B1 (en) * 1998-11-30 2001-06-26 International Business Machines Corporation Wavelet-based energy binning cepstal features for automatic speech recognition
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
DE10014337A1 (de) * 2000-03-24 2001-09-27 Philips Corp Intellectual Pty Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7292678B2 (en) * 2000-08-31 2007-11-06 Lamson Holdings Llc Voice activated, voice responsive product locator system, including product location method utilizing product bar code and aisle-situated, aisle-identifying bar code
US6813341B1 (en) 2000-08-31 2004-11-02 Ivoice, Inc. Voice activated/voice responsive item locator
AU2000276397A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Method and system to scale down a decision tree-based hidden markov model (hmm) for speech recognition
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
WO2003019320A2 (en) * 2001-08-27 2003-03-06 E-Base, Ltd. Method for defining and optimizing criteria used to detect a contextualy specific concept within a paragraph
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7181392B2 (en) * 2002-07-16 2007-02-20 International Business Machines Corporation Determining speech recognition accuracy
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
WO2005048574A1 (en) * 2003-11-11 2005-05-26 Matech, Inc. Automatic-switching wireless communication device
RU2370890C2 (ru) * 2003-11-11 2009-10-20 Матек, Инк. Устройство двухсторонней связи, содержащее один трансдюсер
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
JP4631076B2 (ja) * 2004-11-01 2011-02-16 株式会社国際電気通信基礎技術研究所 音素単位セットを最適化する方法及びシステム
US8315379B2 (en) * 2004-11-10 2012-11-20 Matech, Inc. Single transducer full duplex talking circuit
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
US20070078653A1 (en) * 2005-10-03 2007-04-05 Nokia Corporation Language model compression
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
WO2007129316A2 (en) 2006-05-07 2007-11-15 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US20080091427A1 (en) * 2006-10-11 2008-04-17 Nokia Corporation Hierarchical word indexes used for efficient N-gram storage
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
CN101622660A (zh) * 2007-02-28 2010-01-06 日本电气株式会社 语音识别装置、语音识别方法及语音识别程序
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
CA2694327A1 (en) 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
WO2009063464A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
WO2011092691A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
EP2700071B1 (en) * 2011-04-20 2014-12-24 Robert Bosch GmbH Speech recognition using multiple language models
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
WO2014189399A1 (en) 2013-05-22 2014-11-27 Axon Doo A mixed-structure n-gram language model
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
CN103915092B (zh) * 2014-04-01 2019-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
WO2017006326A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US9865254B1 (en) * 2016-02-29 2018-01-09 Amazon Technologies, Inc. Compressed finite state transducers for automatic speech recognition
KR20180070970A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Proceedings of the European Conference on Speech Communication and Technology,Eurospeech’89,Vol.2,M.Ferretti et al,"Measures of Language Model and Acoustic Model Information in Probabilistic Speech Recognition",p.473−476,26−28 September 1989,Paris
Speech Communication,Vol.9,No.5/6,December 1990,M.Ferretti et al,"Measuring Information Provided by Language Model and Acoustic Model in Probabilistic Speech Recognition:Theory and Experimental Results",p.531−539

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049291A (ja) * 1998-04-15 2010-03-04 Microsoft Corp 音声認識システムのための動的にコンフィギュレーション可能な音響モデル

Also Published As

Publication number Publication date
EP0801786B1 (en) 2000-06-28
CA2203132A1 (en) 1997-05-05
DE69517705T2 (de) 2000-11-23
CA2203132C (en) 2004-11-16
US5899973A (en) 1999-05-04
JPH10501078A (ja) 1998-01-27
DE69517705D1 (de) 2000-08-03
EP0801786A1 (en) 1997-10-22
WO1997017694A1 (en) 1997-05-15

Similar Documents

Publication Publication Date Title
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
Zissman et al. Automatic language identification
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US5865626A (en) Multi-dialect speech recognition method and apparatus
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US7181398B2 (en) Vocabulary independent speech recognition system and method using subword units
US10176809B1 (en) Customized compression and decompression of audio data
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP1575030A1 (en) New-word pronunciation learning using a pronunciation graph
US20070219797A1 (en) Subword unit posterior probability for measuring confidence
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
Hwang et al. Investigation on Mandarin broadcast news speech recognition.
Franco et al. Dynaspeak: SRI’s scalable speech recognizer for embedded and mobile systems
Hieronymus et al. Robust spoken language identification using large vocabulary speech recognition
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
Mabokela et al. An integrated language identification for code-switched speech using decoded-phonemes and support vector machine
WO2007129802A1 (en) Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
JP4962962B2 (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
JP4790956B2 (ja) 音声認識器における綴りモード
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees