JP2003526117A - 大語彙自動音声認識装置の教師なし適応方法 - Google Patents

大語彙自動音声認識装置の教師なし適応方法

Info

Publication number
JP2003526117A
JP2003526117A JP2000618971A JP2000618971A JP2003526117A JP 2003526117 A JP2003526117 A JP 2003526117A JP 2000618971 A JP2000618971 A JP 2000618971A JP 2000618971 A JP2000618971 A JP 2000618971A JP 2003526117 A JP2003526117 A JP 2003526117A
Authority
JP
Japan
Prior art keywords
recognition
input data
raw input
algorithm
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000618971A
Other languages
English (en)
Inventor
エス ジンマーマン ロジャー
エヌ タイヒマン ゲイリー
エス ボートマン イアン
ウェー ラーメル ハイコ
ベー スハルク トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23206426&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2003526117(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003526117A publication Critical patent/JP2003526117A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 生入力データを受け取る環境に設置された音声認識装置の認識精度を改善する方法である。生入力データ及び関連する認識応答を集積して、所定の不特定話者適応アルゴリズムの入力として使用する。そしてこのアルゴリズムを使用して、人間による教導なしに音声認識装置の認識精度を向上させる。この技法は大語彙ASRエンジンの適応に有効である。

Description

【発明の詳細な説明】
【0001】 発明の背景 本発明は概して自動音声認識(ASR)に関するものであり、特に音声認識エ
ンジンを調整して認識精度を改善するプロセスに関するものである。
【0002】 音声認識は不完全な技法である。例えばマイクロホンの相違、発生アクセント
の相違、及び話者能力の相違を含む多数の変量が通常存在するので、高認識精度
を達成することは困難である。自動音声認識を電話ネットワーク上で実行する際
には、音声信号に加わるノイズ及び帯域制限のために、認識作業がより困難にな
る。
【0003】 音声認識エンジンを調整して、このエンジンの認識精度のレベルを向上させる
ことは従来法で既知である。最も単純な例である話者適応においては、完全な教
師付きの方法でこうした調整を行い、システムのユーザは所定のテキストを時間
区間中に読むように促される。このプロセス中に、音声認識装置がユーザの声に
適応させられる。この方法の例が"Dragon Dictate"のような多くの市販製品に見
られる。これらの技法では一般に、ユーザとシステムの間に数分間のセッション
(協働時間)が必要であり、従ってこれらの技法は、大部分のやり取りが少しの
発声のみであり、将来のセッションのためにユーザの個人性を保存することが通
常不可能である電話ベースのASRには不適切である。
【0004】 より大規模な不特定話者システムにとっては、個々の話者に対して認識装置を
調整することは、非実用的または不所望なことである。こうしたシステムを調整
する目的は、一般に適用可能なモデルまたはアルゴリズムに到達することである
。またこれらのシステムでは、ユーザ母集団を相手とする教師付き期間を導入す
ることも不可能である。こうした場合には、ASRの提供者は、人手を介在させ
て自分たちのアルゴリズムを調整している。特に認識装置を設置した後には、大
量のデータを収集している。ここでは人間の聴取者がこの音声データを表記して
いる。表記には、データベース中の各発声の慎重かつ熟達した聴取、並びに優秀
なタイプの能力を必要とする。音声データ及び人手による表記を利用して、AS
Rの提供者は必要により認識エンジンを調整して、アプリケーションを再設定す
る。この種の調整は不経済であり、かつ大語彙ASRシステムの再設置に役立つ
ためには、十分迅速でないことが多い。実際に、語彙のサイズが増大すると共に
、こうした「教師付き」の調整技法はより非効率になり、実用的な開発時間及び
費用で、システムを所望レベルの認識精度までもって行き損なう。本発明はこの
問題に応えるものである。
【0005】 発明の概要 本発明の主要目的は、ASR設備における総合的な認識精度を、自動化された
方法で改善することにある。 本発明の他の主要目的は、現場において、直接の教師付きでなく、ASRアル
ゴリズムを許容できる認識精度レベルまでもっていくことにある。 本発明の他の重要な目的は、経済的かつ信頼性のあるやり方で大語彙音声認識
エンジンを調整する新規の方法を提供することにある。 本発明のこれらの目的及び他の目的は、完全に自動化された方法でASRエン
ジンを調整することによって達成される。特に認識装置からの音声認識結果は、
装置が最初に設置された際には通常不完全なものであり、これらの結果は、AS
Rモデル及びアルゴリズムの1つ以上の要点に学習をさせ、あるいはこれらの要
点を調整するために使用される。この現場適応は人間の聴取者とは対照的に、デ
ータベースを表記するための認識装置に依存する。従ってこの適応は、アルゴリ
ズムの専門開発者とは対照的に、実際にアルゴリズムを変更する自動調整技法に
依存する。
【0006】 従って本発明によれば、認識装置そのものの不完全な出力は、生入力音声デー
タの表記を教導するために使用する唯一の情報であることが好ましい。従ってこ
のデータを1つ以上の適応アルゴリズムによって分析して、認識精度を向上させ
る必要により認識装置を再調整することができる。
【0007】 本発明は、不特定話者ASRアルゴリズムを、現場における教師なしの方法で
、所定のアプリケーションまたは環境に適応させる一意的な方法を提供するもの
である。ASRを調整するために、1つ以上のサイト適応アルゴリズムを、単独
または組合わせのいずれかで使用する。これらのアルゴリズムは、チャネル特性
、方言、発音の個人性、及び発話スタイルのような特定用途向けの特徴を学習す
ることを意図した不特定話者アルゴリズムであることが好ましい。この適応は、
自動化モデル(例えば隠れマルコフモデル)上、言語モデル(例えば単語バイグ
ラム統計)上、発音モデル(例えば音声辞書)上、あるいはこれらの組合わせ上
で実行することができる。
【0008】 前述したことは、本発明に比較的当てはまる目的及び特徴の一部を概説したも
のである。これらの目的は、単に本発明の比較的顕著な特徴及び応用の一部を表
わすものと考えるべきである。開示した本発明を異なる方法で適用するか、ある
いは以下に述べるように変更することによって、幾多の有益な結果を得ることが
できる。従って、以下の好適な実施例の詳細な説明を参照すれば、他の目的も含
めて本発明をより完全に理解することができる。
【0009】 好適な実施例の詳細な説明 以下、本発明の実施例について詳細に説明する。 図1に、本発明の現場適応方法論的なフローチャートを示す。本発明は、AS
Rエンジンがユーザ設備に設置されたものであり、かつ提供者が、好ましくは人
手を介在させずに、このエンジンの認識精度の向上を望んでいることを前提とす
る。好適な一実施例では、大語彙を有するASRエンジンと共に本発明を使用し
ているが、これは必要条件ではない。従って、例えば、ASRアプリケーション
は多数(例えば数千)の語彙要素から成るディレクトリ支援データベースとなる
【0010】 このルーチンはステップ20で、例えば現場の顧客設備に、ASRエンジンを
設置することから始まる。最初に設置されたASRエンジンは不完全なものであ
り、認識精度レベルを向上させるために調整しなければならないことを前提とす
る。ステップ22では、ASRエンジンが本発明による自動適応用に設定されて
いるか否かを決定するためのテストを実行する。これは、例えばエンジンのアプ
リケーションプログラムインタフェース(API)を、適応プロセスを開始すべ
く(アプリケーション開発者またはユーザが)設定することができるフラグを含
むように拡張することによって行うことができる。このフラグは、エンジンを設
置した後に遠隔的に設定することができる。エンジンが自動適応用に設定されて
いる場合には、ルーチンはステップ24に進む。このステップでは、所定のデー
タ収集期間(例えば24時間の期間)が経過したか否かを決定するテストを実行
する。エンジンが自動適応用に設定されていない場合には、ルーチンはステップ
26に進み、認識結果を関連する音声波形サンプルと共に記録する。特にこのス
テップ中では、生入力を処理することによって得られた認識結果をディスクファ
イルに保存する。認識結果は、ASRエンジンによって生成された実際の結果(
即ち仮定した発声音声)を、信頼度レベル、n−ベスト仮定、及びステップ30
での適応アルゴリズムの入力として使用することができる他のデータのような情
報と共に含むことができることは明らかである。
【0011】 ステップ26の変形法では、「生」のディジタル音声波形サンプルの代わりに
音声データの「下流」バージョン(例えばケプストラム係数)を保存すべく、シ
ステムを構成することができる。このことは本発明の他の利点である。特に、人
間が音声データを聴取する必要がないので、適応アルゴリズムを実行するために
必要な形態の音声データのみを記憶することによって、データの大幅な低減を行
うことができる。この利点により、CPU、ICメモリ、及びハードディスクを
含むコンピュータ装置のコストを低減することができる。
【0012】 ステップ24でのテストの結果がYESになるまで、ステップ26を循環する
。この時点でルーチンはステップ28に進み、前記期間中に保存された情報を検
索する。ステップ30では、前記情報に対して適応アルゴリズム(または複数の
適応アルゴリズム)を実行して、エンジンの認識精度を向上させる。このアルゴ
リズムは音響モデル(例えば隠れマルコフモデル)、言語モデル(例えば単語バ
イグラム統計)、発音モデル(例えば音声表記)、あるいはこれらの異なるモデ
ル型のいくつかの組合わせにもとづくものとすることができることは明らかであ
る。そしてステップ32では、以上のように調整した認識エンジンをアプリケー
ション内に再設置し、これは恐らくは元のエンジンより認識精度が良好であり、
かつ計算資源をより効率的に使用するものである。
【0013】 これにより、基本処理を完結する。もちろん、この基本プロセス全体を繰り返
して、これにより認識を絶えず改善し、また前記モデルが、認識性能に影響しう
るアプリケーション条件の変化に適応できるようにする。
【0014】 これにより、本発明によれば、認識エンジンそのものが生入力データの表記を
行って、こうした情報を、元の音声信号のある形態と共に、適応アルゴリズムの
入力として利用することができる。このように教師なしの方法で、かつ人手を介
在させずに、ASRエンジンを所定のアプリケーションまたは現場での運用環境
向きに調整することができる。
【0015】 収集した認識結果をバッチ処理することが好ましいが、十分な計算資源及びメ
モリ資源が存在する場合には、認識データに対して適応ルーチンをオン・ザ・フ
ライ(随時実行)で、即ち生入力データを認識することとして実行できることは
、通常の当業者が認知している。
【0016】 前記適応アルゴリズムは不特定話者用であり、かつASRエンジンが、とりわ
けチャネル特性、方言、発音、発音の個人性、発話スタイルのような特定用途向
けの特徴を学習できるように、これらのアルゴリズムを選択することが好ましい
。アルゴリズムの一形式は隠れマルコフモデル適応であり、ここでは認識装置が
未調整であることを仮定して、音響入力、及び認識装置が仮定した対応する音声
状態に従って、音響モデルの平均ベクトル及び共分散行列を更新する。アルゴリ
ズムの他の形式は単語バイグラム統計適応であり、これは推定した単語列に従っ
てラティス(格子)確率を更新する言語モデルである。他の代表的なアルゴリズ
ム形式は音声表記適応であり、これは例えばテキスト−音素エンジンから生成さ
れ、新たなデータに従って余分なものを切り捨てた選択的な表記を有するレキシ
コン(語彙集)を更新する発音モデルである。
【0017】 最後に、現在の多くのASR探索アルゴリズムがパラメータ的であることは周
知である。こうしたアルゴリズムの例がビタビビーム探索、スタックデコーダ、
及びA−スター探索である。こうしたアルゴリズムでは、上述した方法に従って
潜在的に調整可能な多くのパラメータが存在する。例えば、ビタビビーム探索ア
ルゴリズムではビーム幅及び切り捨てしきい値が調整可能であり、このため所定
の環境では、探索がより最適に行われる。また各発声の通過の得点を組合わせて
最終得点を出す多重通過探索アルゴリズムでは、こうした得点を組合わせる方法
は通常パラメータ的であり、この方法に従って調整することができる。本発明は
、こうしたASR探索アルゴリズムにおいてパラメータを適応させる一般的な技
法に関するものである。
【0018】 上述した複数の方法(これらは例示的なものに過ぎない)は、潜在的に互いに
直交するものであることは、当業者が認識している。このため、これらの方法の
2つ以上を単一のアルゴリズムに組合わせることによって、本発明の追加的な効
果を実現することができる。もちろん、これらの方法は本発明による現場適応の
方法を尽くしたリストとして受け取られることを意図したものではない。
【0019】 実験 次の実験データは、認識アルゴリズムの現場性能を改善するために、現場適応
が有用であることを示すものである。 HMモデル適応 HMM適応では、新たに獲得したデータを、慣例のバウムウエルチ埋め込み再
推定アルゴリズムによって処理する。(代替実現方法は、恐らくはより多くの適
応データを必要とし、また各状態毎に共分散ベクトルを更新する。)本明細書に
開示した教師なしの適応方法の中心事項として、各発声に対する最良の認識仮定
を、推定した正しい表記として使用していた。そこで、通常のバウムウエルチ再
推定アルゴリズムを適用して、各ガウスモデルの平均ベクトルのみが更新される
ようにしていた。以下に記述する他の適応方法のように、この基本的な方法に対
するいくつかの変形法を探求した。第1には、適応データの量を、約40分間の
音声から4時間の音声にまで変化させた。第2には、2つの信頼度レベル内にあ
る発声のみを適応プロセスに含める信頼度ギャップを含む、いくつかの信頼度の
しきい値を適用した。
【0020】 図2に、この実験の結果を示す。 図に示すように、HMM適応は極めて良好な挙動をしている。より多くの学習
データを適応に用いるほど、相対的なエラーがより低減されている。開発テスト
と評価テストの組では、改善度は実質的に同程度であり、これは過剰な学習が行
われていないことを示している。また、未調整の認識装置を開発するのに用いた
元の学習データとほぼ同様の特性のデータベース上で、ベースライン(基本線の
)テストも実行した。このテストは認識精度の微小な低下を示したに過ぎず、前
記方法がかなり強固なものであり、かつアプリケーションの特性が突発的に変化
しても、認識性能に打撃を与えるものではないことを示唆している。また基本H
MMテストと適応HMMテストで、CPU動作に大幅な相違はない。
【0021】 単語バイグラム統計適応 これらの実験については、ASRエンジンが最初に通過するビタビ探索グラフ
を、所定の開発入力データの認識結果の部分集合から抽出した単語バイグラムデ
ータでバイアスさせた。この結果の表記(即ち認識仮定)をランダム化して、最
初に選択したものから順に、単語対の頻度を集積するための種々のサイズの部分
を取った。この実験に与えた種々の変化により、得点のしきい値が副設定メカニ
ズムとして認識結果にもたらされた。これらのカウント数を確率に変換して、こ
れらの確率を、最尤単語列のためのビタビ探索をバイアスさせるために使用した
。これらの実験の主な結果をまとめて、図3A〜図3Bの表に示す。
【0022】 これらの実験から得られた主な結論は、単に結果を集積し、かつ認識装置によ
ってロードされたビタビ探索グラフを再編集することによって、現場で得られた
認識結果を認識精度を改善するために用いることができるということである。ま
たHMM適応によるのと同様に、バイグラム重み付け探索グラフを使用すること
により、CPUの使用量が増加しないこともわかる。
【0023】 単語バイグラム統計の適応に対する拡張は、単語トリグラム統計を適応させる
ことである。実際に、十分な適応データにより、この技法は、言語をモデル化す
るいずれの周知の統計的方法にも拡張することができる。さらに同じ基本的な技
法を、BNF駆動文脈自由文法のような決定論的な言語モデルに適用することが
できる。
【0024】 音声表記適応 他の実験には、ASR辞書内の音声表記の適応を含めた。この実験は、次の一
般的な手順を用いて行った。 1)統計的なテキスト−音素アルゴリズムを用いて、米国英語学習大語彙集か
ら派生する文字−音素決定木を開発した。この決定木は、正書された綴りから代
替音声表記への1対多のマッピングを生成して、これにより所定の語彙要素に対
する音声表記を過剰生成するものである。 2)次にこの決定木をテスト辞書に適用して、語彙中の各語彙要素毎に、代替
音声表記の確率でランク付けしたリストを生成した。 3)まずこれらの代替表記の余分なものを除去して、例えば20のような適度
な数の語彙要素にした。 4)次に、音声方策的に改善可能なエントリを除去することによって、これら
のランク付けしたリストを再び選別した。 5)次に、キーの適応ステップを実行した。適応データ上の強制的な音声整列
において、新たに拡張した語彙集を使用した。他の技法と同様に、認識仮定を、
各発声に対する正しい表記であるものと仮定した。従ってこのステップでは、適
応データを使用して、前記拡張した語彙集から最も適切な表記を選択した。前記
強制的な音声整列において、あまり使用されなかったか、あるいは全く使用され
なかった表記を前記拡張した語彙集からふるい落として、表記の平均数を約18
から、大語彙のASR辞書では通常の、約2まで低減させた。 6)次に、この強制的な音声整列の手続きによって選択した表記を使用して、
標準的な音声表記語彙集を補足した。 7)そしてこの拡張(即ち適応)語彙集で、新たなテストを実行した。氏名の
タスク(処理作業)に対する結果を、図4A〜図4Bの表に示す。 開発テストについては、拡張語彙集により、標準語彙集に対して16.1%の相対
的な改善度が得られた。この結果のパターンは、評価テストの組についても同様
に見られるが、改善度はそれほど大きくなかった。
【0025】 また他の現場適応実験で行ったように、認識の信頼度にもとづいて適応データ
の選別を開始することが望ましい。さらに、決定木を特定の語彙集型に当てはめ
ることを含むテキスト−音素の決定木の生成に変化を与えること、及びここでの
氏名のタスクでは、異なる言語グループ分け毎に異なる決定木を使用することが
望ましい。あるいは音声学にもとづく方法を含む代替音声表記を生成するために
、他の方法を採用することができる。
【0026】 組合わせた方法 前述したように、上記方法の各々は、互いにかなり直交するものである。この
ため、これらの適応のうち2つ以上を組合わせて、付加的な効果を生み出すこと
ができる。I−IMMとバイグラム適応との単純な組合わせにより、図5に示す
結果が生成された。これらの適応アルゴリズムを組合わせることにより、開発テ
ストデータ上では、各々の効果の加算よりも幾分小さい効果が得られ、評価テス
トデータ上では、各々の効果の加算よりも幾分大きい効果が得られた。両データ
の場合において、組合わせによる改善度は18%に達した。
【0027】 結論 前記実験データは、3つの適応方法の妥当性を示すものである。まとめて言え
ば、これらの方法は、実用のテストデータベース上で、これらの方法のうち2つ
の組合わせを用いて、20%近いエラー率の低減を示している。
【0028】 本発明の、教師なしの適応パラダイム(規範)は、従来法よりも多数の利点を
有している。その最たるものは、生入力データの表記を教導するために、人手の
介在を必要としないことである。さらに、限定的なデータ上でも適応を行えるこ
とである。上述した結果は、限定的な量のデータでも、改善が現われるのに十分
であることを示している。さらに、信頼度しきい値を伴う認識仮定の選別が、適
応性能の改善に有効となりうる。これらの適応方法を直ちに実施して、特定の設
置におけるASRエンジンの実用認識精度を改善することができる。
【0029】 本発明の範疇内で幾多の変更を行いうる。これにより、例えばのASRアルゴ
リズムの代表モジュール(即ち基本信号処理及び特徴抽出)を適応させて、認識
性能を向上させることができる。これに加えて、適応データを選別するより巧妙
な方法を実施することができる。さらに、個々の認識単位(例えば単語または音
素)に信頼度を付けた局所的な信頼度の尺度を開発して、より多くのデータを、
モデルを適応させるために使用することができる。この方法では、ある発声の信
頼度が低いために、発声全体を適応プロセスから排除する必要はない。その代わ
りに、発声からのデータの一部を引き上げて、モデル調整の入力として使用する
ことができる。
【0030】 既知の認識エンジンの中で、あるいはこれと隣合わせて、創造的な技法を用い
ることができる。周知のように、認識エンジンは発話入力を受け取って、多数の
認識仮定を生成することができる。これは、次のものに限定されないが、Vpr
o TM 音声認識エンジン、VR音声認識エンジン、及び音声認識製品のSp
eech Wave TM 系列を含むいくつかの従来システム(即ち認識シ
ステム、アプリケーション等)から入手可能な既知の機能であり、これらのすべ
てがVCSIによって最近開発され市販されている。一般に、音響モデル、言語
モデル、発音モデル、及び/またはパラメータ型探索アルゴリズムを採用するい
ずれの音声認識エンジンも、本明細書に記述した方法を使用すべく構成すること
ができる。
【0031】 本発明によるアルゴリズムはソフトウエアから成ることが好ましく、このため
本発明の好適な一実施例は、汎用コンピュータのランダムアクセスメモリに存在
するコード化したモジュール内の一組の命令(プログラムコード)である。コン
ピュータが要求するまで、これら一組の命令を、例えば光ディスク(実用上では
CD ROM)またはフロッピー(登録商標)ディスク(実用上ではフロッピー
ディスクドライブ)のような他のコンピュータメモリに記憶するか、あるいはイ
ンターネットまたは他のコンピュータネットワーク経由でダウンロードすること
ができる。またこれに加えて、記述した種々の方法は、ソフトウエアによって選
択的に作動させるか、あるいは再構成されたコンピュータにおいて好適に実施す
ることができるが、こうした方法をハードウエア、ファームウエア、あるいは要
求される方法のステップを実行するために構築した、より特化された機器または
装置で実現できることは、当業者が認識している。
【0032】 本発明の動作を実行する代表的なコンピュータは、(例えばインテル(R)ベー
ス、パワーPC(R)ベース、RISC(R)ベースの)プロセッサ、ランダムアクセ
スメモリあるいは他の揮発性メモリ、ディスク記憶装置、適切な表示インタフェ
ースを有するディスプレイ、入力装置(マウス、キーボード、等)、及びコンピ
ュータをコンピュータネットワークにインタフェースさせる適切な通信装置を有
するものである。ランダムアクセスメモリは、本発明の機能を提供するコンピュ
ータプログラムをサポートする。
【図面の簡単な説明】
【図1】 本発明による現場適応技法を示すフローチャートである。
【図2】 相対エラー低減率を、隠れマルコフモデル化(HMM)適応アルゴリ
ズムによる学習データ量の関数として示したグラフである。
【図3】 図3A及び図3Bは、単語バイグラム統計適応アルゴリズムをテスト
した結果を示す表である。
【図4】 図4A及び図4Bは、音声辞書適応をテストした結果を示す表である
【図5】 HMM適応及び単語バイグラム統計適応の、2つの適応アルゴリズム
を組合わせた結果を示すグラフである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ゲイリー エヌ タイヒマン オランダ国 5656 アーアー アインドー フェン プロフ ホルストラーン 6 (72)発明者 イアン エス ボートマン オランダ国 5656 アーアー アインドー フェン プロフ ホルストラーン 6 (72)発明者 ハイコ ウェー ラーメル オランダ国 5656 アーアー アインドー フェン プロフ ホルストラーン 6 (72)発明者 トーマス ベー スハルク オランダ国 5656 アーアー アインドー フェン プロフ ホルストラーン 6 Fターム(参考) 5D015 GG01 GG06 HH22 HH23

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 生入力データを受け取る環境に、音声認識装置を設置するステッ
    プと; 生入力データ及び関連する認識応答を収集するステップと; 教師なしで、所定の適応アルゴリズムを前記収集した情報に適用して、前記音
    声認識装置の認識精度を改善するステップと; 前記適応させた音声認識装置を、目標の環境に再設置するステップと を具えていることを特徴とする音声認識装置の認識精度の改善方法。
  2. 【請求項2】 前記生入力データが、ディジタル符号化した音声波形サンプルを
    含むことを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記生入力データが、所定の音声波形サンプルを処理したバージ
    ョンを含み、該処理したバージョンは人間の聴取者には認識不可能であるが、前
    記所定の適応アルゴリズムの入力として使用するのに十分なものであることを特
    徴とする請求項1に記載の方法。
  4. 【請求項4】 前記生入力データ及び関連する認識応答を、所定の時間区間にわ
    たって収集することを特徴とする請求項1に記載の方法。
  5. 【請求項5】 前記適応アルゴリズムが音響モデルにもとづくものであることを
    特徴とする請求項1に記載の方法。
  6. 【請求項6】 前記音響モデルが隠れマルコフモデルであることを特徴とする請
    求項5に記載の方法。
  7. 【請求項7】 前記適応アルゴリズムが言語モデルにもとづくものであることを
    特徴とする請求項1に記載の方法。
  8. 【請求項8】 前記言語モデルが、単語バイグラム統計であることを特徴とする
    請求項7に記載の方法。
  9. 【請求項9】 前記適応アルゴリズムが発音モデルにもとづくものであることを
    特徴とする請求項1に記載の方法。
  10. 【請求項10】 前記発音モデルが音声表記語彙集で符号化されていることを特
    徴とする請求項9に記載の方法。
  11. 【請求項11】 前記適応アルゴリズムが、前記認識装置の認識アルゴリズムの
    探索パラメータにもとづくものであることを特徴とする請求項1に記載の方法。
  12. 【請求項12】 前記適応アルゴリズムが、音響モデル、言語モデル、発音モデ
    ル、及び前記音声認識装置の認識アルゴリズムの探索パラメータから本質的に成
    る群から選択したモデルの組合わせにもとづくものであることを特徴とする請求
    項1に記載の方法。
  13. 【請求項13】 生入力データが収集されるに伴い前記適応を適用して、該生入
    力データに対する認識応答を生成することを特徴とする請求項1に記載の方法。
  14. 【請求項14】 生入力データを受け取る環境に設置された音声認識装置の認識
    精度を改善する方法において、この方法が、 生入力データ及び関連する認識応答を収集するステップと; 教師なしで、所定の不特定話者適応アルゴリズムを、前記収集した情報に適用
    して、前記音声認識装置の認識精度を改善するステップと を具えていることを特徴とする認識精度の改善方法。
  15. 【請求項15】 前記不特定話者適応アルゴリズムを、音響モデル、言語モデル
    、発音モデル、探索パラメータ、及びこれらの組合わせから本質的に成るモデル
    の群から選択することを特徴とする請求項11に記載の方法。
JP2000618971A 1999-05-13 2000-05-10 大語彙自動音声認識装置の教師なし適応方法 Pending JP2003526117A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/311,333 US7505905B1 (en) 1999-05-13 1999-05-13 In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
US09/311,333 1999-05-13
PCT/EP2000/004246 WO2000070603A1 (en) 1999-05-13 2000-05-10 Unsupervised adaptation of a large vocabulary automatic speech recognizer

Publications (1)

Publication Number Publication Date
JP2003526117A true JP2003526117A (ja) 2003-09-02

Family

ID=23206426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000618971A Pending JP2003526117A (ja) 1999-05-13 2000-05-10 大語彙自動音声認識装置の教師なし適応方法

Country Status (6)

Country Link
US (1) US7505905B1 (ja)
EP (1) EP1097446B1 (ja)
JP (1) JP2003526117A (ja)
KR (1) KR20010053521A (ja)
DE (1) DE60022291T2 (ja)
WO (1) WO2000070603A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10127559A1 (de) * 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Benutzergruppenspezifisches Musterverarbeitungssystem
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
US8583415B2 (en) 2007-06-29 2013-11-12 Microsoft Corporation Phonetic search using normalized string
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
KR102073102B1 (ko) * 2013-03-21 2020-02-04 삼성전자 주식회사 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
WO2015057907A2 (en) * 2013-10-16 2015-04-23 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
EP3193328B1 (en) 2015-01-16 2022-11-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6461799A (en) * 1987-09-01 1989-03-08 Nec Corp Fast voice recognition equipment
JPH1097273A (ja) * 1996-08-02 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH1185184A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5835890A (en) 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6461799A (en) * 1987-09-01 1989-03-08 Nec Corp Fast voice recognition equipment
JPH1097273A (ja) * 1996-08-02 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH1185184A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Also Published As

Publication number Publication date
KR20010053521A (ko) 2001-06-25
DE60022291T2 (de) 2006-06-29
DE60022291D1 (de) 2005-10-06
EP1097446B1 (en) 2005-08-31
EP1097446A1 (en) 2001-05-09
WO2000070603A1 (en) 2000-11-23
US7505905B1 (en) 2009-03-17

Similar Documents

Publication Publication Date Title
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US6163768A (en) Non-interactive enrollment in speech recognition
US7778830B2 (en) Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
EP0867857B1 (en) Enrolment in speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP0867859A2 (en) Speech recognition language models
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US7877256B2 (en) Time synchronous decoding for long-span hidden trajectory model
US20020116190A1 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
JP2003526117A (ja) 大語彙自動音声認識装置の教師なし適応方法
Hain Implicit pronunciation modelling in ASR
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
AU2004256561A1 (en) Voice recognition for large dynamic vocabularies
Robert et al. Automatic speech recognition and its application to media monitoring
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
Zweig et al. Advances in Large Vocabulary Continuous Speech Recognition.
Elshafei et al. Speaker-independent natural Arabic speech recognition system
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Khalifa et al. Statistical modeling for speech recognition
Jamrozy et al. ARM-1: Automatic Speech Recognition Engine
Kim et al. Non-native pronunciation variation modeling for automatic speech recognition
Rosillo Gil Automatic speech recognition with Kaldi toolkit
Stokes-Rees A study of the automatic speech recognition process and speaker adaptation

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070507

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110125