JP2001517816A - 連続および分離音声を認識するための音声認識システム - Google Patents

連続および分離音声を認識するための音声認識システム

Info

Publication number
JP2001517816A
JP2001517816A JP2000513270A JP2000513270A JP2001517816A JP 2001517816 A JP2001517816 A JP 2001517816A JP 2000513270 A JP2000513270 A JP 2000513270A JP 2000513270 A JP2000513270 A JP 2000513270A JP 2001517816 A JP2001517816 A JP 2001517816A
Authority
JP
Japan
Prior art keywords
word
training
speech
words
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000513270A
Other languages
English (en)
Other versions
JP2001517816A5 (ja
JP4351385B2 (ja
Inventor
ファン,シュードン
アルレヴァ,フィレノ・エイ
ジャン,リ
ファン,メイ−ユー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2001517816A publication Critical patent/JP2001517816A/ja
Publication of JP2001517816A5 publication Critical patent/JP2001517816A5/ja
Application granted granted Critical
Publication of JP4351385B2 publication Critical patent/JP4351385B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Navigation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 音声認識を実行する際に、複数の離散的に発話した訓練ワードを示す分離音声訓練データを受け取り(ステップ98)、複数の連続的に発話した訓練ワードを示す連続音声訓練データを受け取る(ステップ86)。分離音声訓練データおよび連続音声訓練データに基づいて、複数の音声単位モデルを訓練する。訓練した音声単位モデルに基づいて、音声を認識する。

Description

【発明の詳細な説明】
【0001】 (発明の背景) 本発明は、コンピュータ音声認識に関する。更に特定すれば、本発明は、連続
音声および分離音声双方を認識する方法に関するものである。
【0002】 現在最も成功している音声認識システムは、隠れマルコフ・モデル(HMM:
hidden Markov model)として知られる確率モデルを採用するものである。隠れ マルコフ・モデルは、複数の状態を含み、同一状態への遷移を含む、各遷移から
他のあらゆる遷移への遷移毎に、遷移確率を定義する。各一意の状態には、確率
的に観察(observation)が関連付けられる。状態間の遷移確率(観察が1つの 状態から次の状態に遷移する確率)は、全てが同一ではない。したがって、状態
および観察確率間の遷移確率が与えられた際に、ビタビ・アルゴリズムのような
探索技法を用いて、確率全体が最大となる最尤状態シーケンス(most likely st
ate sequence)を判定する。
【0003】 現行の音声認識システムでは、音声は、隠れマルコフ・プロセスによって発生
されるものと見られている。その結果、音声スペクトルの観察シーケンスをモデ
ル化するためにHMMが採用され、特定のスペクトルにHMMにおける1つの状
態を確率的に関連付けてきた。言い換えると、所与の音声スペクトルの観察シー
ケンスについて、対応するHMMには最尤状態シーケンスがある。
【0004】 この対応するHMMは、したがって、観察シーケンスに関連付けられる。この
技法は、HMMにおける別個の各状態シーケンスを音素のようなサブワード単位
に関連付ければ、最尤サブワード単位シーケンスを求めることができるように、
拡張することができる。更に、サブワード単位をどのように組み合わせてワード
を形成するかというモデルを用い、次いでワードをどのように組み合わせて文章
を形成するかという言語モデルを用いることによって、完全な音声認識を達成す
ることができる。
【0005】 実際に音響信号を処理する場合、信号は、通常、フレームと呼ばれる連続時間
間隔でサンプリングする。フレームは、通常、複数のサンプルを含み、重複した
り、あるいは連続する場合もある。各フレームには、音声信号の一意の部分が関
連付けられている。各フレームによって表わされる音声信号の部分を分析し、対
応する音響ベクトルを得る。音声認識の間、音声単位モデルの探索を行い、音響
ベクトル・シーケンスに関連する可能性が最も高い状態シーケンスを判定する。
【0006】 音響ベクトル・シーケンスに対応する可能性が最も高い状態シーケンスを見出
すために、ビタビ・アルゴリズムを用いることができる。ビタビ・アルゴリズム
は、最初のフレームから開始し、一度に1フレームずつ時間に同期して進める計
算を実行する。考慮する対象の状態シーケンスにおける(即ち、HMMにおける
)状態毎に、確率スコアを計算する。したがって、ビタビ・アルゴリズムが音響
信号をフレーム毎に分析するに連れて、可能な状態シーケンスの各々について、
蓄積確率スコア(cumulative probability score)を連続的に計算する。発声の
終了時までに、ビタビ・アルゴリズムが計算した最も高い確率スコアを有する状
態シーケンス(またはHMMあるいは一連のHMM)が、発声全体に対する最尤
状態シーケンスを与える。次に、この最尤状態シーケンスを、対応する発話サブ
ワード単位(spoken subword unit)、ワード、またはワード・シーケンスに変 換する。
【0007】 ビタビ・アルゴリズムは、指数計算を、モデルにおける状態および遷移の数、
ならびに発声の長さに比例する計算に減少させる。しかしながら、大きな語彙で
は、状態および遷移の数が大きくなり、全ての可能な状態シーケンスに対し各フ
レーム内の各状態における確率スコアを更新するために必要な計算は、通常10
ミリ秒の持続時間である、1フレームの持続時間よりも何倍も長くなる。
【0008】 したがって、最尤状態シーケンスを判定するために必要な計算を大幅に削減す
るために、プルーニング(pruning)またはビーム探索(beam searching)と呼 ばれる技法が開発された。この種の技法は、非常に可能性が低い状態シーケンス
に対する確率スコアの計算を不要にする。これは、通常、各フレームにおいて、
考慮対象の各残留状態シーケンス(または潜在的シーケンス)に対する確率スコ
アを、当該フレームに関連する最高スコアと比較することによって行われる。特
定の潜在的シーケンスに対する状態の確率スコアが十分に低い場合(当該時点に
おいて他の前栽駅シーケンスに対して計算した最大空く率と比較して)、プルー
ニング・アルゴリズムは、このようにスコアが低い状態シーケンスは、完全な最
尤状態シーケンスの一部である可能性は低いと見なす。通常、この比較を行うに
は、最小スレシホルド値を用いる。最小スレシホルド値未満のスコアを有する潜
在的状態シーケンスは、探索プロセスから除外する。スレシホルド値は、いずれ
の所望のレベルにも設定することができ、主に所望のメモリおよび計算削減、な
らびにメモリおよび計算削減によって得られる所望の誤り率上昇に基づいて設定
する。保持する状態シーケンスを能動的仮説(active-hypothesis)と呼ぶ。
【0009】 音声認識に求められる計算量(magnitude)を更に削減するための別の従来か らの技法に、プレフィクス・ツリー(prefix tree)の使用を含むものがある。 プレフィクス・ツリーは、音声認識システムの辞書(lexicon)を、ツリー構造 として表わし、システムが遭遇する可能性のあるワード全てを、このツリー構造
で表わす。
【0010】 このようなプレフィクス・ツリーでは、(音素のような)各サブワード単位は
、通常、特定の(HMMのような)音響モデルに関連付けられたブランチによっ
て表わされる。音素ブランチを、ノードにおいて、後続の音素ブランチに接続す
る。同じ最初の音素を共有する辞書における全てのワードは、同じ最初のブラン
チを共有する。同じ最初の音素および二番目の音素を有する全てのワードは、同
じ最初のブランチおよび2番目のブランチを共有する。対象的に、共通の第1音
素を有するが、異なる第2音素を有するワードは、プレフィクス・ツリーにおい
て同じ第1ブランチを共有するが、プレフィクス・ツリーの最初のノードにおい
て分岐(diverge)する等となる。ツリー構造はこのように続き、システムが遭 遇する可能性のあるワード全てを、ツリーの終端ノード(即ち、ツリー上のリー
フ(leaf))によって表わすようにしている。
【0011】 プレフィクス・ツリー構造を採用することによって、初期ブランチ数は、シス
テムの辞書または語彙における典型的なワード数よりは遥かに少なくなることは
明白である。実際、初期ブランチ数は、探索する語彙または辞書のサイズには無
関係に、音素の総数(約40ないし50)を超過する可能性はない。しかしなが
ら、異音変動(allophonic variation)を用いた場合、用いる異音によっては、
ブランチの初期数は大きくなる可能性はある。
【0012】 前述の技法を採用する音声認識システムは、通常、2つの種類に分類すること
ができる。第1の種類は、流暢音声(fluent speech)を認識可能な連続音声認 識(CSR)システムである。CSRシステムは、連続音声データに基づいて訓
練され(即ち、音響モデルを生成する)、一人以上の読み手が訓練データを連続
的に即ち流暢にシステムに読み込んでいく。訓練中に生成した音響モデルを用い
て音声を認識する。
【0013】 第2の種類のシステムは、分離音声認識(ISR)システムであり、通常、分
離した音声(即ち、離散音声)のみを認識するために採用する。ISRシステム
は、離散即ち分離音声データに基づいて訓練され(即ち、音響モデルを生成し)
、この場合一人以上の読み手には、各ワードの間にポーズを入れて、離散的即ち
分離して訓練データをシステムに読み込むように要求する。また、ISRシステ
ムは、通常、連続音声認識システムよりも精度が高くかつ効率的である。何故な
ら、ワードの境界が一層明確であり、したがって探索空間が一層厳しい制約を受
けるからである。また、分離音声認識システムは、連続音声認識の特殊な場合と
考えられてきた。何故なら、連続音声認識システムは、一般に、分離音声も同様
に受け入れることができるからである。これらは、単に、分離音声を認識しよう
とするときに、同様に動作しないだけである。
【0014】 CSRシステムのユーザは、通常、システムが誤りを犯し始めるまで、または
、ユーザが文書の組み立てを思案するまで、流暢に発話しがちであることが観察
されている。その時点で、ユーザは、ワード間にポーズを入れると言ってもよい
程に、速度を落とすことが多い。双方の場合において、ユーザは、ワード間にポ
ーズを入れて、よりゆっくりと区別して発話することにより、ユーザは認識シス
テムを助けていると信じているが、実際には、ユーザは、システムの能力を超え
てシステムにストレスを与えているのである。
【0015】 しかしながら、単に分離音声認識システムを用いて連続音声を認識しようとす
るのは、適当ではない。ISRシステムは、通常、連続音声を認識しようとする
場合には、CSRシステムよりも遥かに性能が劣る。その理由は、ISR訓練デ
ータには、交差ワード同時調音(crossword coarticulation)がないからである
。 (発明の概要) 音声認識は、複数の離散的に発話した訓練ワードを示す分離音声訓練データを
受け取り、複数の連続的に発話した訓練ワードを示す連続音声訓練データを受け
取ることによって行われる。分離音声訓練データおよび連続音声訓練データに基
づいて、複数の音声単位モデルを訓練する。訓練した音声単位モデルに基づいて
、音声を認識する。
【0016】 好適な実施形態の1つでは、認識対象音声におけるポーズを識別し、フレーズ
の持続時間を判定する。ポーズの間の入力データによって表わされる、フレーズ
候補を示す複数のフレーズ仮説(phrase hypothesis)を生成する。各フレーズ 仮説における各ワードに関連するワード持続時間を、フレーズ仮説内のワード数
に等しいワード数を有するフレーズに対する予想ワード持続時間と比較する。ワ
ード持続時間の予測ワード持続時間との比較に基づいて、各フレーズ仮説にスコ
アを割り当てる。 (好適な実施形態の詳細な説明) 図1および関連する論述は、本発明を実現可能な、適切な計算機環境の端的で
概略的な説明を行うことを意図するものである。必須ではないが、本発明は、少
なくとも部分的に、パーソナル・コンピュータによって実行するプログラム・モ
デルのような、コンピュータ実行可能命令に全体的に関連して説明する。一般的
に、プログラム・モジュールとは、ルーチン・プログラム、オブジェクト、コン
ポーネント、データ構造等を含み、特定のタスクを実行したり、あるいは特定の
抽象データ型を実装するものである。更に、本発明は、ハンド・ヘルド機器、マ
ルチプロセッサ・システム、マイクロプロセッサを用いた、即ち、プログラム可
能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・
コンピュータ等を含む、その他のコンピュータ・システム構成を用いても実施可
能であることを当業者は認めよう。また、本発明は、分散型計算機環境において
も実施可能であり、その場合、通信ネットワークを通じてリンクしてあるリモー
ト処理用機器によってタスクを実行する。分散型計算機環境では、プログラム・
モジュールは、ローカル記憶装置およびリモート・メモリ記憶装置双方に配置す
ることもできる。
【0017】 図1を参照すると、本発明を実現するためのシステム例は、従来のパーソナル
・コンピュータ20の形態の汎用計算機を含み、演算装置21、システム・メモ
リ22、およびシステム・メモリを含む種々のシステム・コンポーネントを演算
装置21に結合するシステム・バス23を含む。システム・バス23は、メモリ
・バスまたはメモリ・コントローラ、周辺バス、および種々のバス・アーキテク
チャのいずれかを用いたローカル・バスを含む数種類のバス構造のいずれかとす
ればよい。システム・メモリは、リード・オンリ・メモリ(ROM)24および
ランダム・アクセス・メモリ(RAM)25を含む。起動中におけるように、パ
ーソナル・コンピュータ20内部の要素間で情報を転送する際に役立つ基本ルー
チンを含む基本入出力システム26(BIOS)をROM24に格納してある。
更に、パーソナル・コンピュータ20は、図示しないハード・ディスクに対して
読み出しおよび書き込みを行うハード・ディスク・ドライブ27、ならびにCD
ROMまたはその他の光媒体のようなリムーバブル光ディスク31に対して読
み出しおよび書き込みを行う光ディスク・ドライブ30を含む。ハード・ディス
ク・ドライブ27、磁気ディスク・ドライブ28、および光ディスク・ドライブ
30は、それぞれ、ハード・ディスク・ドライブ・インターフェース32、磁気
ディスク・ドライブ・インターフェース33、および光ドライブ・インターフェ
ース34を介してシステム・バス23に接続してある。これらのドライブおよび
それらと関連するコンピュータ読取可能媒体は、コンピュータ読取可能命令、デ
ータ構造、プログラム・モジュール、およびパーソナル・コンピュータ20のた
めのその他のデータの不揮発性格納を行う。
【0018】 ここに記載する環境の一例では、ハード・ディスク、リムーバブル磁気ディス
ク29およびリムーバル光ディスク31を採用するが、磁気カセット、フラッシ
ュ・メモリ・カード、ディジタル・ビデオ・ディスク、ベルヌーイ・カートリッ
ジ、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM
)等のような、コンピュータによるアクセスが可能なデータを格納することがで
きる、その他の種類のコンピュータ読取可能媒体も、動作環境の一例では使用可
能であることは、当業者には認められよう。
【0019】 オペレーティング・システム35、1つ以上のアプリケーション・プログラム
36、その他のプログラム・モジュール37、およびプログラム・データ38を
含む、多数のプログラム・モジュールは、ハード・ディスク、磁気ディスク29
、光ディスク31、ROM24またはRAM25に格納することができる。ユー
ザは、キーボード40およびポインティング・デバイス42のような入力デバイ
スを介して、コマンドおよび情報をパーソナル・コンピュータ20に入力するこ
とができる。その他の入力デバイス(図示せず)には、マイクロフォン、ジョイ
スティック、ゲーム・パッド、衛星ディッシュ、スキャナ等が含まれる場合もあ
る。これらおよびその他の入力デバイスは、多くの場合システム・バスに結合し
てあるシリアル・ポート・インターフェース46を介して演算装置21に接続す
るが、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス
(USB)のような他のインターフェースを介して接続することも可能である。
モニタ47またはその他の種類の表示装置も、ビデオ・アダプタ48のようなイ
ンターフェースを介して、システム・バス23に接続してある。モニタ47に加
えて、パーソナル・コンピュータは、通常、スピーカおよびプリンタのような、
その他の周辺出力装置(図示せず)も含む。
【0020】 パーソナル・コンピュータ20は、リモート・コンピュータ49のような、1
つ以上のリモート・コンピュータへの論理接続を用いて、ネットワーク化環境に
おいても動作することができる。リモート・コンピュータ49は、別のパーソナ
ル・コンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイス、また
はその他の共通ネットワーク・ノードとすることができ、通常、パーソナル・コ
ンピュータ20に関して先に述べた要素の多くまたは全てを含むが、図1にはメ
モリ記憶装置50のみを示してある。図1に示す論理接続は、ローカル・エリア
・ネットワーク(LAN)51およびワイド・エリア・ネットワーク(WAN)
52を含む。このようなネットワーク化環境は、オフィスの企業規模のコンピュ
ータ・ネットワーク、イントラネットおよびインターネットでは一般的である。
【0021】 LANネットワーク化環境において用いる場合、パーソナル・コンピュータ2
0はネットワーク・インターフェース即ちアダプタ53を経由してローカル・エ
リア・ネットワーク51に接続する。WANネットワーク化環境において用いる
場合、パーソナル・コンピュータ20は通常モデム54、またはインターネット
のような広域ネットワーク52を通じて通信を確立するその他の手段を含む。モ
デム54は、内蔵型でも外付けでもよく、シリアル・ポート・インターフェース
46を介してシステム・バス23に接続してある。ネットワーク化環境では、パ
ーソナル・コンピュータ20に関して図示したプログラム・モジュール、または
その部分をリモート・メモリ記憶装置に格納することも可能である。図示のネッ
トワーク接続は一例であり、コンピュータ間に通信リンクを確立するその他の手
段も使用可能であることは認められよう。
【0022】 更に、図1における環境を音声認識システムとして実現する場合、他のコンポ
ーネントも望ましいこともある。このようなコンポーネントは、マイクロフォン
、サウンド・カードおよびスピーカを含み、その一部については以下で更に詳し
く説明する。
【0023】 図2は、本発明の一形態による、音声認識システム60のブロック図を示す。
音声認識システム60は、マイクロフォン62、アナログ/ディジタル(A/D
)変換器64、訓練モジュール65、特徴抽出モジュール66、無声(silence )検出モジュール68、セノン・ツリー(senone tree)記憶モジュール70、 単音モデル記憶モジュール72、三音マッピング記憶モジュール74、プレフィ
クス・ツリー記憶モジュール76、ワード持続時間モデル記憶モデル78、サー
チ・エンジン80、および出力装置82を含む。システム60全体またはシステ
ム60の一部は、図1に示す環境において実現可能であることを注記しておく。
例えば、マイクロフォン62は、好ましくは、適切なインターフェースを介して
、更にA/D変換器64を介して、パーソナル・コンピュータ20への入力デバ
イスとして設けるとよい。訓練モジュール65、特徴抽出モジュール66および
無声検出モジュール68は、コンピュータ20内のハードウエア・モジュール(
CPUとは別個のプロセッサまたはCPU21内に実装したプロセッサ)、また
は図1に開示した情報記憶装置のいずれかに格納し、CPU21またはその他の
適切なプロセッサによるアクセスが可能なソフトウエア・モジュールのいずれと
してもよい。加えて、セノン・ツリー(senone tree)記憶モジュール70、単 音モデル記憶モジュール72、三音マッピング記憶モジュール74、プレフィク
ス・ツリー記憶モジュール76、およびワード持続時間モデル記憶モジュール7
8も、図1に示すいずれかの適切なメモリ素子に格納することが好ましい。更に
、サーチ・エンジン80は、CPU21(1つ以上のプロセッサを含むことがで
きる)内に実装することが好ましく、またはパーソナル・コンピュータ20が採
用する専用音声認識プロセッサによって実行することも可能である。加えて、出
力装置82は、好適な実施形態の1つでは、モニタ47として、またはプリンタ
として、あるいはその他のいずれかの適切な出力装置として実現することができ
る。
【0024】 多くの場合、システム60は、最初に訓練データを用いて訓練を受ける。図3
および図4は、本発明の好適な実施形態の1つにしたがって利用する、訓練デー
タ収集およびシステム訓練手順を示すフロー図である。システム60を訓練する
ためには、最初に、図3に関して説明するように訓練データを収集する。好適な
実施形態では、訓練データは、訓練ワードを話者が連続的に即ち流暢にシステム
60に読み込む連続(即ち、流暢)訓練データ、および話者がワード間にポーズ
を入れながら離散的即ち分離状に訓練ワードをシステム60に読み込む分離(即
ち、離散)訓練データを含む。
【0025】 このため、第1の話者を選択する。これをブロック84で示す。次いで、話者
に、システム60のマイクロフォン62に向かって流暢に訓練文章を読むように
要求する。これをブロック86で示す。ブロック88で示すように、訓練文章を
記録する。システム60が受け取った各訓練ワードの音素的転写を、キーボード
40のようなユーザ入力デバイスによって、訓練器65およびシステム60に入
力する。これをブロック90で示す。次に、訓練文章を同様に読むように追加の
話者に要求するか否かについて判定を行う。話者独立システムでは、多数の話者
を用いることが好ましい。しかしながら、話者依存システムでは、多数の話者は
任意であり、訓練文章は単一の話者によってのみ発話すればよい。
【0026】 いずれの場合でも、別の話者が流暢に訓練文章をシステム60に読み込む場合
、新たな話者を選択し、ブロック86、88および90を通るプロセスを繰り返
す。これをブロック92および94で示す。
【0027】 一旦連続訓練データをシステム60内に読み込んだならば、ブロック96で示
すように、再度第1の話者を選択する。次いで、選択した話者は訓練ワードの一
群をシステム60に読み込む。これらは、各ワード間にポーズを入れて、離散的
即ち分離して読み込む。これをブロック98で示す。分離訓練データは、好適な
実施形態の1つでは、連続訓練データにおいて見られるものと同一ワードを構成
する。しかしながら、分離訓練データは、連続訓練データと同一である必要はな
く、全て異なるワードの集合で形成することも可能である。いずれの場合でも、
各ワードをシステムに読み込みながら、これをシステム60によって記録する。
これをブロック100で示す。
【0028】 再び、システム60は、システム60に読み込まれた各訓練ワードの音素的転
記を、キーボード40のようなユーザ入力デバイスから受け取る。これをブロッ
ク102で示す。
【0029】 次に、追加の話者が分離音声訓練データをシステム60に供給するか否かにつ
いて判定を行う。そうする場合、新たな話者を選択し、その話者が最初の話者と
同様に、分離音声訓練データを入力する。追加の話者が分離訓練データをシステ
ム60に入力しないと判定した場合、データ収集プロセスは完了したことになる
。これを図3のブロック104および106で示す。
【0030】 また、訓練データは、話者によってマイクロフォンを通じて入力する代わりに
、出力分布の形態で、フロッピ・ディスク・ドライブのような入力デバイスを通
じて、システム60に直接ロード可能であることも注記しておく。
【0031】 訓練ワードをマイクロフォン62を介してシステム60に入力しながら、A/
D変換器64によってディジタル・サンプルに変換し、次いで特徴抽出モジュー
ル66によって特徴ベクトルに変換する(または、ベクトル量子化および訓練デ
ータから得られるコードブックを用いて、コードワードに量子化する)。特徴ベ
クトル(またはコードワード)は、訓練モジュール65に供給する。また、訓練
モジュール65は、ユーザ入力デバイスから音素的転写も受け取る。次に、訓練
モジュール65は、訓練データにおける特徴ベクトル(またはコードワード)お
よび音素的転写を用いて、1組の単音モデル、セノン・ツリー、三音マッピング
・メモリ、プレフィクス・ツリー、およびワード持続時間モデルを、訓練データ
に基づいて構築する。これらの品目は、全て、認識を実行する際にサーチ・エン
ジン80が使用する。
【0032】 図4は、訓練モジュール65が、単音モデル、セノン・ツリーおよび三音マッ
ピング・メモリを計算する際のプロセス全体を示すフロー図である。最初に、訓
練モジュール65は、共同(pooled)訓練データを受け取る。共同とは、連続お
よび分離音声訓練データ両方を意味するものとする。これを、図4のブロック1
08で示す。訓練データは、特徴抽出モジュール66によって、前述のように出
力分布に変換される。したがって、訓練モジュール65は、特徴ベクトル(また
はコードワード)およびそれに与えられた音素的転写を用いて、共同訓練データ
における各ワードについて、1つ以上の隠れマルコフ・モデルを算出する。隠れ
マルコフ・モデルは、共同訓練データにおいて見出される音素に関連付けられ、
各音素について算出する出力および発生頻度に基づいて算出する。
【0033】 本発明の好適な実施形態の1つでは、訓練モジュール65は、訓練データ・セ
ットにおいて見出される各音素を、単音モデルとしてモデル化する。単音モデル
は、モデル内の各状態に対する出力確率分布を含む。これを図4のブロック11
0および112で示す。単音モデルは、認識方式において用い、音素のセノン評
価が始まる前に、入力音声の発声に対する最尤一致音素を判定する。次いで、ブ
ロック113で示すように、単音モデルをメモリ72に格納する。
【0034】 次に、各音素における各状態について、訓練モジュール65はセノン・ツリー
を作成する。セノン・ツリーを作成する技法については、図5に関して更に詳細
に説明する。セノン・ツリーの作成は、図4ではブロック114で表わす。次に
、ブロック116で示すように、セノン・ツリーをメモリ70に格納する。
【0035】 一旦セノン・ツリーを作成したなら、次に訓練器65は、所望の三音全て(訓
練データ内で見られるものおよび見られないもの双方)を、メモリ70に格納し
てあるセノン・ツリーによって表わされるセノン・シーケンスにマッピングする
。これを行うために、訓練器65は所望の三音(対応する右および左の関係を有
する音素)を選択し、メモリ70に格納してあるセノン・ツリーを通り抜ける(
traverse)。セノン・ツリーを通り抜けた結果として、訓練モジュール65は、
モデル化した三音における各状態に対応するセノンを獲得し、したがって各三音
を表わすセノンのシーケンスを獲得する。このセノンのシーケンスを、三音マッ
ピング・メモリ74における対応する三音にマッピングする。これをブロック1
18によって示す。三音マッピング・シーケンスについても、図6に関して、更
に詳しく説明する。
【0036】 次に、訓練モジュール65は、プレフィクス・ツリーを組み立て、このプレフ
ィクス・ツリーをメモリ76に格納する。これをブロック120で示す。最後に
、訓練モジュール65は、ワード持続時間モデルを算出し、このワード持続時間
モデルをメモリ78に格納する。これを図4のブロック122で示す。ワード持
続時間モデルの算出については、図7および図8に関して更に詳しく説明する。
【0037】 単音モデル、セノン・ツリー、三音マッピング、プレフィクス・ツリーおよび
ワード持続時間モデルを算出した後、音声認識を実行するようにシステム60を
構成する。音声認識タスクについては、図9および図10において更に詳しく説
明する。
【0038】 図5は、訓練モジュール65が、共同訓練データに含まれる各音素における各
状態についてセノン・ツリーを作成する際のプロセスを、更に詳細に示すフロー
図である。英語には約50の音素があることが、一般的に認められている。好適
な実施形態では、各音素に3つの状態を関連付ける。したがって、訓練モジュー
ル65は150のセノン・ツリーを作成しなければならない。また、好適な実施
形態では、50個の音素の各々は、数個の異なる前後関係において、共同訓練デ
ータ(即ち、連続訓練データおよび分離訓練データ)内に現れる。したがって、
三状態隠れマルコフ・モデルに基づいて音素をモデル化する場合、隠れマルコフ
・モデルの各々における各状態に関連する出力分布は、訓練データに現れる際の
音素の前後関係によっては異なる場合がある。この情報に基づいて、図5に関し
て説明するようにセノン・ツリーを構築する。
【0039】 最初に、訓練データに表わされている50個の音素から1つを選択する。これ
をブロック124で示す。次に、ブロック126で示すように、選択した音素の
最初の状態を選択する。
【0040】 選択した音素において選択した状態に関連する出力分布は、共同訓練データ内
の音素の全ての発生に対して、検索し、共に集合化する。これをブロック28で
示す。次いで、選択した状態に対して集合化した出力分布を、言語学的な前後関
係に関する質問に基づいて互いに分離する。この質問は、セノン・ツリーを生成
しようとしている特定の音素の前後関係に関する言語学的情報を求める質問であ
る。個々の出力分散の各々に対する質問の回答に基づいて、これらの出力分布を
第1(親)グループから2つの(子)グループに分離する。
【0041】 適正な言語学的質問を選択する方法についてこれより説明する。端的に言えば
、言語学的質問は、専門の言語学者が作り、前後関係的効果(contextual effec
t)の言語学的部類を捕獲するように設計することが望ましい。例えば、Hon (ホン)およびLee(リー)のCMU ROBUST BOCABULARY-INDEPENDENT SPEECH R
ECOGNITION SYSTEM(CMUロバストな語彙独立音声認識システム)と題する論 文(IEEE Int'l Conf. On Acoustics, Speech and Signal Processing, Toronto
, Canada, 1991, pps889-892)に見ることができる。親グループを子グループに
分割するために、訓練モジュール65は、多数の言語学的質問の内どれが、親グ
ループにとって最良の質問であるかについて判定を行う。好適な実施形態では、
最良の質問は、親グループおよび子グループ間で最大のエントロピ減少をもたら
す質問であると決定する。言語学的質問は全て「はい」または「いいえ」で答え
る質問であるので、親ノードの分割から2つの子ノードが得られる。
【0042】 グループの分割は、所定の分岐スレシホルドにしたがって停止する。このよう
なスレシホルドは、例えば、グループ内の出力分布数が所定値未満となった場合
、またはグループ分割によって生じたエントロピ減少が他のスレシホルド未満と
なった場合を含むことがでできる。所定の分岐スレシホルドに達した場合、得ら
れる最終グループは、全て、クラスタ化した出力分布即ちセノンを表わすリーフ
・グループとなる。クラスタ化出力分布に基づいて、セノンを表わす単一の出力
分布を選択する。これをブロック130および132で示す。また、セノン・ツ
リーにおける質問を組み合わせたりあるいは結合して、複合質問の形成も可能で
あることを注記しておく。更に、複合質問は、親グループから子グループへのエ
ントロピ減少に基づいて、より良い複合質問に分離することも可能である。
【0043】 選択した音素の選択した状態に対してセノン・ツリーを作成した後、このセノ
ン・ツリーをメモリ70に格納する。これをブロック134で示す。このプロセ
スは、語彙における各音素の状態毎に繰り返し、各音素の状態毎にセノン・ツリ
ーを作成する。これを図5のブロック136および138で示す。
【0044】 語彙における各音素の状態毎にセノン・ツリーを作成した後、システム60に
よって認識すべき各三音を、特定のセノン・シーケンスにマッピングしなければ
ならない。言い換えると、認識すべき三音毎に、当該三音における各状態につい
て、メモリ70内に格納してある適切なセノン・ツリーを注意深く考察すること
によって、適切なセノンを特定しなければならない。
【0045】 最初に、システム60は、認識すべき各三音の音素的転写を、キーボード40
のような転写入力デバイスを介して、ユーザから受け取る。次いで、この三音素
の中央の音素の各状態に対応するセノン・ツリーを通り抜ける。単にセノン・ツ
リーのノードに関連する言語学的質問に答えることによって、セノン・ツリーを
通り抜ける。三音の各連続状態に適切なセノン・ツリーを特定した後、特定した
セノンを組み合わせてセノン・シーケンスを形成し、メモリ74内の当該三音に
マッピングする。
【0046】 図6は、どのようにしてセノン・ツリーを作成し、通り抜けるかを理解するの
に役立つ一例を示す。図6は、ワード「welcome」の一部として、文字「
c」の発話音に対する音素/k/に対するセノン・ツリーを示す。図6は、/k
/音素の最初の状態に対するセノン・ツリーを示す。図6に示すセノン・ツリー
における質問の多くは、前述の技法にしたがって形成した複合質問であることは
認められよう。
【0047】 ワード「welcome」の文字「lco」によって形成される三音/L,K
,UH/に対して適切なセノン・シーケンスを決定するために、/k/音素の各
セノン・ツリーを通り抜けなければならない。図6に示すセノン・ツリーは、/
K/音素の最初の状態に関連する。ルート・ノード140に関連する言語学的質
問は、三音の左側の音が自鳴音かまたは鼻音かである。/L/は自鳴音であるの
で、ツリーの通り抜けは子ノード142に移動する。
【0048】 子ノード142は、ノード140において出された質問に対する肯定の回答に
対応する。ノード142において出される質問は、左側の音素(/L/)は後音
素(back phoneme)(即ち、左側の音素は、舌の位置を口の後方に向けて発話す
る音素である)であるか否かについて尋ねる。/L/は後音素であるので、通り
抜けはノード144に進む。これは、ノード142において出された質問に対す
る肯定の回答に対応する。右側の音(三音の/UH/音素)がLまたはWでない
とすると、/L/音素は、ノード142によって出される質問において指定され
る音素のいずれでもないので、ノード142における質問に対する回答は否定と
なる。これによって、セノン2として示すセノンに至る。これを、/L,K,U
H/三音の最初の状態に対する適切なセノンとして特定する。同様のツリー通り
抜けは、/K/音素の他の状態の各々についても進められる。システム60に入
力した三音モデルの全てのマルコフ・モデル全てについて、リーフ(即ち、セノ
ン)に到達するまで、対応するセノン・ツリーを通り抜ける。各三音について定
義したセノン・シーケンスをメモリ70に格納する。
【0049】 認識装置が発音プレフィクス・ツリー・デコーダに基づく好適な実施形態では
、次に、システム60が認識する語彙または辞書を表わすために、プレフィクス
・ツリーを組み立てる。プレフィクス・ツリーの組み立ては、好ましくは、ルー
ト・ノードからリーフに進み、入力データを示す可能性が最も高いワードに到達
することができるようにする。好適な実施形態では、プレフィクス・ツリーは、
複数の文脈依存無声音(silence phone)を含み、辞書内のワードの一部として 無声が埋め込まれるようにモデル化する(メモリ72に格納した単音モデルと同
様)。プレフィクス・ツリー60を通り抜けた後、システム60は、認識対象の
いずれかの所与のフレーズに対して認識した最尤ワードまたはワード・シーケン
スを構成する、能動的仮説を維持することが好ましい。
【0050】 次に、システム60は、好適な実施形態の1つでは、複数のワード持続時間モ
デルを組み立てる。これは、プレフィクス・ツリー・デコーダから現れる能動的
仮説間で選択を行うために用いることができる。ワード持続時間モデルをメモリ
78に格納する。図7は、ワード持続時間モデルの組み立てを更に詳細に示すフ
ロー図である。
【0051】 システム60に入力した訓練データは、好ましくは、異なる持続時間の分離ワ
ード、およびポーズによって分離したワード・シーケンス(即ち、フレーズ)を
含むことが好ましく、ワード・シーケンスは、シーケンス毎に種々の異なるワー
ド・カウントを有する。訓練モジュール65は、ワード・カウントnを有する各
離散フレーズにおけるワードの平均持続時間をモデル化する。したがって、訓練
モジュール65は、最初に、共同訓練データにおける異なる長さのフレーズ(こ
れは、1ワードの長さを有するフレーズを含む)について、ワード毎の平均持続
時間を算出する。これを図7のブロック144で示す。次に、訓練モジュール6
5は、フレーズ当たりのワード数によってパラメータ化した、ワード持続時間の
分布族(distribution family)を生成する。これをブロック146で示す。次 に、訓練モジュール65は、分布族をワード持続時間モデル・メモリ78に格納
する。これをブロック148で示す。
【0052】 図8は、訓練モジュール65が算出する分布族をより明確に示すグラフである
。図8は、x軸上にワード持続時間を有し、y軸上にn-ワード・フレーズの発 生回数を有するグラフ上にプロットした3つの分布150、152および154
を示す。分布150、152および154は、概略的にガンマ分布の形態となっ
ており、分布150は一ワード・フレーズの平均持続時間に関連し、分布152
は二ワード・フレーズにおける各ワードの平均持続時間に関連し、分布154は
nワード・フレーズ(nは2よりも大きい整数である)における各ワードの平均
持続時間に関連する。このように、図8は、一ワード・フレーズにおける各ワー
ドの平均持続時間は、二ワード・フレーズにおける各ワードの平均持続時間より
も多少長いことをグラフで示す。また、フレーズ内のワード数が2を超過する場
合、このようなフレーズにおける各ワードの平均持続時間は、一ワード・フレー
ズまたは二ワード・フレーズのいずれかにおけるワードの平均持続時間よりも多
少短くなる。
【0053】 認識の間、プレフィクス・ツリーを通り抜けた後に保持してある能動的仮説に
おける平均ワード持続時間を、訓練モデル65によって計算したワード持続時間
モデルと比較する。次に、当該特定の仮説におけるワード毎の平均持続時間が、
適切なワード持続時間モデルと密接に一致するか(または密接に一致しないか)
否かに基づいて、各仮説にスコアを割り当てる(または、減点を適用する)。こ
れについては、本明細書の後ろの方で更に詳しく説明する。
【0054】 一旦訓練モジュール65が単音モデル、セノン・ツリー、三音マッピング、プ
レフィクス・ツリー、およびワード持続時間モデルを生成したなら、音声を認識
するためにシステム60を適切に構成する。
【0055】 図9は、システム60を用いて音声を認識する好適な技法の1つを示すフロー
図である。最初に、ユーザがマイクロフォン62に供給した可聴ボイス信号の形
態で、音声をシステム60に入力する。マイクロフォン62は、可聴音声信号を
アナログ電子信号に変換し、A/D変換器64に供給する。A/D変換器64は
、アナログ信号をディジタル信号シーケンスに変換し、特徴抽出モジュール66
に供給する。好適な実施形態では、特徴抽出モジュール66は、従来からのアレ
イ・プロセッサであり、ディジタル信号に対してスペクトル分析を行い、周波数
スペクトルの各周波数帯域毎に絶対値(magnitude value)を計算する。好適な 実施形態の1つでは、約16キロヘルツのサンプル・レートで、A/D変換器6
4によって特徴抽出モジュール66に供給する。A/D変換器64は、商業的に
入手可能な周知のA/D変換器として実施する。
【0056】 特徴抽出モジュール66は、A/D変換器64から受け取ったディジタル信号
を、複数のディジタル・サンプルを含むフレームに分割する。各フレームの持続
時間は、約10ミリ秒である。次に、特徴抽出モジュール66によって、各フレ
ームを、複数の周波数帯域についてスペクトル特性を反映する特徴ベクトルに符
号化することが好ましい。特徴抽出モジュール66は、更に、ベクトル量子化技
法および訓練データから得られるコードブック(個々には示さない)に基づいて
、特徴ベクトルをコードワードに符号化することも可能である。分析した特定の
フレームの特徴ベクトル(またはコードワード)を用いて、出力分布を隠れマル
コフ・モデルと比較することができる。特徴抽出モジュール66は、約10ミリ
秒毎に1つの割合で、特徴ベクトルを供給することが好ましい。
【0057】 特徴抽出モジュール66がA/D変換器64からのディジタル・サンプルを処
理している際、無声(または境界)検出モジュール68もサンプルを処理してい
る。無声検出モジュール68は、特徴抽出モジュール66を実現するために用い
たプロセッサと同一または異なるプロセッサ上で実現することができる。無声検
出モジュール68は、周知の方法で動作する。端的に言うと、無声検出モジュー
ル68は、A/D変換器が供給するディジタル・サンプルを処理して無声(即ち
、ポーズ)を検出し、ユーザが発声したワードまたはフレーズ間の境界を判定す
る。次に、無声検出モジュール68は、ワードまたはフレーズの境界検出を示す
境界検出信号をサーチ・エンジン80に供給する。このように、サーチ・エンジ
ン80は、認識すべき目標ワードに関連する出力分布の形態で、音声データを受
け取る。これを図9のブロック156で示す。
【0058】 次に、サーチ・エンジン80は、受け取った出力分布を、単音メモリ72に格
納してある単音モデルと比較する。発話した目標ワードの連続する目標音素毎に
、そして目標音素の連続する目標状態毎に、サーチ・エンジン80は、目標状態
に対する出力分布を、メモリ72に格納してある各音素の単音モデルの対応する
状態と比較する。次に、サーチ・エンジン80は、目標状態の出力分布に最も密
接に一致する状態を有する、所定数の音素単音モデルを選択し、目標音素が表わ
す音素候補(likely phoneme)を得る。これを図9にブロック158で示す。
【0059】 次に、サーチ・エンジン80は、音素候補の1つを選択し、当該音素における
最初の状態を選択する。これをブロック160および162で示す。次に、サー
チ・エンジン80は、選択した状態に対してセノン・ツリーによって生成したセ
ノンを検索する。
【0060】 次に、サーチ・エンジン80は、最初の目標状態の目標出力分布を、選択した
音素モデルの最初の状態に対応するセノン・ツリーの各セノンと比較する。次に
、サーチ・エンジン80は、目標状態の出力分布と最も密接に一致するセノンで
あればどれであっても、最良の一致セノンとして選択し、この最良の一致セノン
について、一致確率スコアを計算し格納する。これをブロック164および16
6で示す。
【0061】 選択した音素が1つよりも多い状態を有する場合、サーチ・エンジン80は、
選択した音素に残っている状態毎に同じステップを実行する。こうして、サーチ
・エンジン80は、選択した音素における状態毎に、最も密接に一致するセノン
を選択し、最良の一致セノンに対する一致確率スコアを計算し格納する。これを
ブロック168で示す。選択した音素における全ての状態を比較し終わった後、
サーチ・エンジン80は、判定した確率スコアに基づいて、選択した音素に対し
て、セノン・シーケンス候補を特定したことになる。これをブロック170で示
す。次に、サーチ・エンジン80は、メモリ74に格納してある情報にアクセス
し、判定したセノン・シーケンス候補にマッピングされている、三音候補を検索
する。これをブロック172で示す。
【0062】 次に、サーチ・エンジン80は、音素候補を全て処理し終えたか否かについて
判定を行う。し終えていない場合、サーチ・エンジン80は前述の処理を繰り返
し、音素候補毎に、比較の間に判定した確率スコアに基づいて、セノン・シーケ
ンス候補に到達する(したがって、目標音素に関連するN個の三音候補に到達す
る)。これをブロック174および176で示す。
【0063】 一旦N個の三音候補を特定したなら、サーチ・エンジン80はメモリ76内の
プレフィクス・ツリーにアクセスする。プレフィクス・ツリーを通り抜けた後、
サーチ・エンジン80は能動的仮説を特定する。好適な実施形態の1つでは、サ
ーチ・エンジン80は次に、North American Business News Corpus(北アメリ カビジネス・ニュース・コーパス)から導出し、CSR-III Text Language Model (CSR-III テキスト言語モデル)(1994年University of Penn.)と題し、Lingu
istic Data Consortiumが発行した刊行物に詳細に明記されている、60,00 0ワード三重字言語モデル(trigram language model)のような、辞書および言
語モデルに単純にアクセスする。この言語モデルを用いて、入力データが表わす
最尤ワードまたはワード・シーケンスを特定し、サーチ・エンジン80によって
これを出力装置82に供給する。
【0064】 しかしながら、本発明の別の形態および別の好適な実施形態によれば、サーチ
・エンジン80は、メモリ78内のワード持続時間モデルも利用して、入力デー
タによって表わされる最尤ワードまたはワード・シーケンスを、更に精度高く特
定する。図10は、マルチワード・フレーズおよび単一ワード・フレーズ間の判
別を行うために、持続時間モデルをどのように用いるのかを示すフロー・チャー
トである。この説明の目的のため、ワード・カウントXの離散フレーズが、無声
で開始しかつ終了するY個の流暢に発話されたワードのシーケンスであるとする
【0065】 持続時間モデルの適用は、好ましくは、離散フレーズの境界において行う。入
力データにおいてポーズを検出することによって、フレーズを検出する。最初に
、入力データ内のポーズを、無声検出モジュール68によって検出する。これを
ブロック180で示す。次に、サーチ・エンジン80は、検出したポーズが、ス
レシホルド持続時間d(p)よりも短い持続時間d(P)を有するか否かについ
て判定を行う。スレシホルド持続時間d(p)は、偽りのポーズ、またはフレー
ズ間の境界を正確に反映しないポーズの検出を回避するように、訓練データに基
づいて経験的に決定する。これをブロック182で示す。d(P)がd(p)未
満である場合、処理はブロック80に戻り、別のポーズの検出を待つ。
【0066】 しかしながら、d(P)がd(p)未満でない場合、サーチ・エンジン80は
、現在のポーズと、スレシホルド持続時間d(p)を超過した最後のポーズとの
間の期間を示す、フレーズの持続時間(セグメント持続時間)d(S)を計算す
る。これをブロック184で示す。次に、サーチ・エンジン80は、セグメント
持続時間d(S)がスレシホルド・セグメント持続時間d(s)よりも長いか否
かについて判定を行う。d(p)の場合と同様、d(s)の決定も、セグメント
持続時間が、発見的方法を適用すべきでないような長さには決してならないよう
に、訓練データに基づいて経験的に行う。言い換えると、ワード持続時間モデル
は、持続時間が短いフレーズに適用する方が、持続時間が非常に長いフレーズに
適用するよりも、高い効果が得られると考えられている。セグメント持続時間d
(S)がセグメント・スレシホルドd(s)よりも長い場合、処理はブロック1
80に戻り、別のポーズの検出を待つ。
【0067】 しかしながら、d(S)がスレシホルド・セグメント持続時間d(s)未満で
ある場合、サーチ・エンジン80は、入力データによって表わされるn個の最尤
ワードまたはワード・フレーズの1つを示す、現フレーズ仮説Hを選択する。こ
れをブロック188で示す。次に、サーチ・エンジン80は、Hのワード・カウ
ント(wc(H))を判定し、Hの各ワードの平均持続時間を、wc(H)およ
びd(S)に基づいて計算し、wc(H)に等しいワード・カウントを有するフ
レーズに対応する、メモリ78内に格納してあるワード持続時間分布とこれを比
較する。これをブロック190で示す。
【0068】 この比較に基づいて、サーチ・エンジン80は次に関数ip(wc(H)、d
(S))に応じて、この仮説Hにスコア(または減点)を割り当てる。関数ip
(wc(H)、d(S))は、Hの平均ワード持続時間が、対応するワード持続
時間モデルとどの程度緊密に一致するかを示す。好適な実施形態では、ip(w
c(H)、d(S))は、システム60に入力した訓練データに基づいて経験的
に求めた傾斜減少関数である。これをブロック192で示す。サーチ・エンジン
80は、ブロック194で示すように、能動的仮説の各々についてこのプロセス
を繰り返し、最尤仮説を選択する際にこの情報を用いる。次に、サーチ・エンジ
ン80は、最尤仮説を出力装置82に、入力データが表わす最尤フレーズとして
、供給する。これをブロック194および196で示す。
【0069】 したがって、本発明は、従来のシステムに対して大きな利点をもたらすことが
わかる。本発明は、分離音声データおよび連続音声データを訓練データ・セット
として収集するデータ収集方法を用いる。通常のデータ収集方法を強化し、読み
手にワード間にポーズを入れたり、流暢に発話するように要求することによって
、連続音声に関連する有音(non-silence)前後関係だけでなく、離散音声に関 連する無声前後関係(silence context)も、システムにおける音響モデルを訓 練する際に用いられる。連続音声訓練データおよび分離音声訓練データに対する
訓練データは、同じワードまたは異なるワードのいずれを含むことも可能である
ことを注記しておく。この共同訓練データ・セットは、音素モデルの訓練、セノ
ン・ツリーの生成およびセノンの訓練、ならびに三音の適切なセノン・シーケン
スへのマッピングに用いられる。
【0070】 また、異なる種類の訓練データ(連続および分離)の効果は、認識の間に予想
される音声の種類に応じて別々に重み付けが可能であることも注記しておく。重
み付けは、重み係数を割り当てることによって、または単に訓練データ・セット
における各種類のデータのシステムに供給した量によって行うことができる。好
適な実施形態の1つでは、双方の種類の訓練データに等しく重み付けする。
【0071】 更に、好適な実施形態の1つでは、本発明はワード持続時間モデルを採用する
。ワード持続時間モデルは、訓練中に生成し、フレーズの境界に適用し、認識シ
ステムの精度を更に高めるようにすることが好ましい。
【0072】 また、本発明の技法は、他の種類の訓練データをシステムに導入するためにも
、同様に使用可能である。例えば、ユーザに分離または連続音声として訓練デー
タを入力するように指図するだけでなく、ユーザに、大声で、優しく、もっとゆ
っくりと、またはもっと素早く、あるいは別の言い方で訓練データを入力するよ
うに指図することも可能である。この訓練データの全ては、前述と同様に使用し
、システムにおいて用いる音響モデルを訓練し、更に一層ロバストな認識システ
ムを得ることが可能となる。
【0073】 以上好適な実施形態を参照しながら本発明について説明してきたが、本発明の
精神および範囲から逸脱することなく、形態および詳細において変更も可能であ
ることを、当業者は認めよう。
【図面の簡単な説明】
【図1】 本発明による音声認識システムを実現する環境例のブロック図である。
【図2】 図1に示すシステムの一部の更に詳細なブロック図である。
【図3】 本発明の一形態によるデータ収集手順を示すフロー図である。
【図4】 本発明の一形態による、共同訓練データを用いた音響モデルの訓練およびセノ
ンのマッピングを示すフロー図である。
【図5】 本発明によるセノン・ツリーの作成を示すフロー図である。
【図6】 本発明によるセノン・ツリーの図である。
【図7】 本発明によるワード持続時間モデルの作成を示すフロー図である。
【図8】 図7に示す手順にしたがって作成した、複数のワード持続時間モデルのグラフ
である。
【図9】 本発明の一形態による音声認識手順の一部を示すフロー図である。
【図10】 本発明の一形態によるワード持続時間モデルの適用を示すフロー図である。
【手続補正書】
【提出日】平成12年4月13日(2000.4.13)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【手続補正書】
【提出日】平成12年12月7日(2000.12.7)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アルレヴァ,フィレノ・エイ アメリカ合衆国ワシントン州98052,レッ ドモンド,ノースイースト・フォーティエ イス・ストリート 16516 (72)発明者 ジャン,リ アメリカ合衆国ワシントン州98052,レッ ドモンド,ノースイースト・シックスティ シックスス・コート 15360 (72)発明者 ファン,メイ−ユー アメリカ合衆国ワシントン州98052,レッ ドモンド,ノースイースト・シックスティ エイス・ストリート 14802 Fターム(参考) 5D015 AA01 BB02 GG00 GG03 GG06 LL09

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 音声認識システムを実現する方法であって、 複数の離散的に発話した訓練ワードを示す分離音声訓練データを受け取るステ
    ップと、 複数の連続的に発話した訓練ワードを示す連続音声訓練データを受け取るステ
    ップと、 前記分離音声訓練データおよび前記連続音声訓練データに基づいて訓練した、
    複数の音声単位モデルを与えるステップと、 前記訓練した音声単位モデルに基づいて音声を認識する認識装置を設けるステ
    ップと、 から成ることを特徴とする方法。
  2. 【請求項2】 請求項1記載の方法において、前記分離音声訓練データを受
    け取るステップが、第1複数の音響信号を受け取るステップから成り、連続音声
    訓練データを受け取るステップが、第2複数の音響信号を受け取るステップから
    成り、複数の音声単位モデルを与えるステップが、 前記第1および第2複数の音響信号に基づいて、複数の音響モデルを生成する
    ステップを含むことを特徴とする方法。
  3. 【請求項3】 請求項2記載の方法において、複数の音響モデルを生成する
    ステップが、 前記第1および第2複数の音響信号に基づいて、前記連続および分離音声訓練
    データを表わす複数の出力確率分布を生成するステップを含むことを特徴とする
    方法。
  4. 【請求項4】 請求項1記載の方法において、分離音声訓練データを受け取
    るステップが、 複数の離散的に発話した訓練ワードに関連する無声前後関係情報を含む分離音
    声データを受け取るステップから成ることを特徴とする方法。
  5. 【請求項5】 請求項4記載の方法において、離散音声データを受け取るス
    テップが、 ユーザが、前記複数の訓練データの各々の間にポーズを入れて前記複数の訓練
    データを発話したことを示す、前記離散音声データを受け取るステップから成る
    ことを特徴とする方法。
  6. 【請求項6】 請求項1記載の方法において、連続音声訓練データを受け取
    るステップが、 ユーザが複数の訓練ワードを流暢に発話したことを示す連続音声データを受け
    取るステップから成ることを特徴とする方法。
  7. 【請求項7】 請求項1記載の方法であって、更に、 前記音声単位モデルを訓練する前に、認識する予想音声に基づいて、前記連続
    音声訓練データおよび前記分離音声訓練データに重み付けするステップを含むこ
    とを特徴とする方法。
  8. 【請求項8】 請求項1記載の方法であって、更に、 ユーザが複数の訓練ワードを異なる様式で発話したことを示す追加音声訓練デ
    ータを受け取るステップを含むことを特徴とする方法。
  9. 【請求項9】 請求項8記載の方法において、追加音声訓練データを受け取
    るステップが、 前記ユーザが前記複数の訓練ワードを第1振幅および第2振幅で発話したこと
    を示す、前記追加音声訓練データを受け取るステップから成り、前記第2振幅が
    前記第1振幅よりも大きいことを特徴とする方法。
  10. 【請求項10】 請求項8記載の方法において、追加音声訓練データを受け
    取るステップが、 前記ユーザが前記複数の訓練ワードを流暢に、第1ペースおよび第2ペースで
    発話したことを示す、前記音声訓練データを受け取るステップから成り、前記第
    2ペースが前記第1ペースよりも速いことを特徴とする方法。
  11. 【請求項11】 請求項3記載の方法において、複数の音声単位モデルを与
    えるステップが、更に、 前記出力分布の各々を、前記訓練ワードの1つの少なくとも一部を形成する音
    素における所定数の状態の1つと関連付けるステップを含むことを特徴とする方
    法。
  12. 【請求項12】 請求項11記載の方法であって、更に、 音素毎に、選択した音素を含む前記訓練ワードの全てからの前記選択した音素
    に関連する出力分布を集合化し、出力分布グループを形成するステップと、 各音素における状態毎に、前記出力分布グループにおいて選択した状態に関連
    する出力分布を、前記選択した音素に関連する言語学的前後関係情報に基づいて
    セノンに分離することによって、前記選択した音素において選択した状態につい
    て、セノン・ツリーを作成するステップと、 を含むことを特徴とする方法。
  13. 【請求項13】 請求項12記載の方法において、音声を認識する認識装置
    を設けるステップが、 目標ワードにおける各連続目標音素の各連続状態に対する出力分布を受け取る
    ステップと、 目標音素毎に、該目標音素を表わす可能性が最も高い、ある数の音素候補を特
    定するステップと、 前記音素候補の状態に関連するセノンを、前記目標音素の対応する状態と関連
    する前記出力分布と比較するステップと、 前記目標音素の前記出力分布と最も密接に一致するセノンを有する最尤音素を
    特定するステップと、 を実行するように、前記音声認識装置を構成するステップから成ることを特徴と
    する方法。
  14. 【請求項14】 請求項13記載の方法において、比較するステップが、 各音素候補における各状態に関連するセノン・ツリーを、前記目標音素の言語
    学的前後関係情報に基づいて通り抜け、前記目標音素における各状態毎にセノン
    を特定するステップと、 前記目標音素における状態に関連する出力分布を、前記音素候補において特定
    したセノンに関連する前記出力分布と比較するステップと、 から成ることを特徴とする方法。
  15. 【請求項15】 請求項13記載の方法において、ある数の音素候補を特定
    するステップが、 前記分離音声訓練データおよび前記連続音声訓練データに基づいて、前記訓練
    ワードにおける音素を示す複数の単音モデルを形成するステップと、 前記目標音素に関連する前記出力分布を、前記単音モデルと比較するステップ
    と、 前記目標音素に関連する前記出力分布に密接に一致する単音モデルを有する、
    ある数の音素候補を特定するステップと、 から成ることを特徴とする方法。
  16. 【請求項16】 請求項1記載の方法であって、更に、 前記分離音声訓練データおよび前記連続音声訓練データに基づいて、可変長の
    ワード・フレーズに含まれるワードの近似ワード持続時間を示す、複数のワード
    持続時間モデルを与えるステップを含むことを特徴とする方法。
  17. 【請求項17】 請求項16記載の方法において、音声を認識する音声認識
    装置を設けるステップが、 認識すべき複数の目標ワードを受け取るステップと、 前記目標ワードにおける目標ワード・フレーズを示すフレーズ境界を検出する
    ステップと、 前記目標ワード・フレーズの近似持続時間を判定するステップと、 前記目標ワード・フレーズによって表わされるワード・フレーズ候補を示す、
    複数のワード・フレーズ仮説を得るステップと、 前記ワード・フレーズ仮説におけるワードの近似ワード・カウントおよび持続
    時間を判定するステップと、 前記ワード・フレーズ仮説における前記ワードのワード持続時間を、前記ワー
    ド・フレーズ仮説におけるワード数に等しいワード・カウントを有するワード持
    続時間モデルと比較し、前記ワード・フレーズ仮説における前記ワード持続時間
    がどれ位緊密に前記ワード持続時間モデルにおけるワード持続時間と一致するか
    に基づいて、最尤ワード・フレーズ仮説を得るステップと、 を実行するように前記認識装置を構成するステップから成ることを特徴とする方
    法。
  18. 【請求項18】 請求項16記載の方法において、複数のワード持続時間モ
    デルを与えるステップが、 前記分離音声訓練データおよび前記連続音声訓練データにおいて訓練ワード・
    フレーズを検出するステップと、 前記訓練ワード・フレーズにおけるワード数を判定するステップと、 複数の前記検出した訓練ワード・フレーズにおける前記ワードの近似ワード持
    続時間を判定するステップと、 前記訓練ワード・フレーズにおけるワード数、および前記訓練ワード・フレー
    ズにおける前記ワードの持続時間についてパラメータ化した、複数のワード持続
    時間分布を判定するステップと、 から成ることを特徴とする方法。
  19. 【請求項19】 音声認識方法であって、 認識すべき音声を示す入力データを受け取るステップと、 前記入力データに基づいて、前記音声においてポーズを検出し、フレーズの持
    続時間を特定するステップと、 前記検出したポーズの間にある前記入力データによって表わされるワード・フ
    レーズ候補を表わす複数のフレーズ仮説を生成するステップと、 各フレーズ仮説における各ワードに関連するワード持続時間を、前記フレーズ
    仮説におけるワード数に基づいておよび前記フレーズ持続時間に基づいて、前記
    フレーズ仮説におけるワード数に等しいワード数を有するフレーズについての予
    想ワード持続時間と比較するステップと、 前記ワード持続時間の前記予想ワード持続時間との比較に基づいて、各フレー
    ズ仮説にスコアを割り当て、前記入力データを表わす最尤フレーズ仮説を得るス
    テップと、 から成ることを特徴とする方法。
  20. 【請求項20】 請求項19記載の方法であって、更に、 認識すべきワードを示す訓練データを受け取るステップと、 前記訓練データにおいてポーズを検出し、複数の訓練ワード・フレーズを識別
    するステップと、 前記訓練ワード・フレーズの各々におけるワード数を判定するステップと、 前記訓練ワード・フレーズの各々におけるワード数に基づいて、前記訓練ワー
    ド・フレーズに対応する複数のワード持続時間の分布を生成するステップと、 含むことを特徴とする方法。
  21. 【請求項21】 請求項20記載の方法において、各フレーズ仮説における
    ワード持続時間を予想フレーズ持続時間と比較するステップが、 仮説毎に当該仮説におけるワード数および前記フレーズの持続時間に基づいて
    、前記仮説におけるワードのワード持続時間を判定するステップと、 前記仮説におけるワード数に等しい、フレーズ毎のワード数に関連する前記複
    数の分布から、1つを選択するステップと、 前記仮説に対して判定した前記ワード持続時間を、前記選択した分布と比較す
    るステップと、 から成ることを特徴とする方法。
  22. 【請求項22】 請求項21記載の方法において、各フレーズ仮説にスコア
    を割り当てるステップが、 前記仮説に対して判定したワード持続時間がどの位緊密に前記選択した分布と
    一致するかを示すスコアを、各ワード仮説に割り当てるステップから成ることを
    特徴とする方法。
  23. 【請求項23】 音声認識を行う方法であって、 複数の離散的に発話した訓練ワードを示す分離音声訓練データを受け取るステ
    ップであって、前記分離音声訓練データが第1複数の出力分布を含み、各出力分
    布が、前記離散的に発話した訓練ワードの1つの少なくとも一部を形成する音素
    における所定数の状態の1つに関連する、ステップと、 複数の連続的に発話した訓練ワードを示す連続音声訓練データを受け取るステ
    ップであって、前記連続音声訓練データが第2複数の出力分布を含み、該第2複
    数の出力分布の各々が、前記連続的に発話した訓練ワードの1つの少なくとも一
    部を形成する音素における所定数の状態の1つと関連する、ステップと、 選択した音素を含む前記訓練ワードの全てから、前記選択した音素に関連する
    出力分布を集合化し、出力分布グループを形成するステップと、 前記選択した音素における選択した状態について、セノン・ツリーを作成する
    ステップであって、前記選択した音素に関連する言語学的前後関係情報に基づい
    て、前記出力分布グループにおける前記選択した状態に関連する前記出力分布を
    分離することによって作成する、ステップと、 から成ることを特徴とする方法。
JP2000513270A 1997-09-19 1998-09-16 連続および分離音声を認識するための音声認識システム Expired - Fee Related JP4351385B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/934,622 US6076056A (en) 1997-09-19 1997-09-19 Speech recognition system for recognizing continuous and isolated speech
US08/934,622 1997-09-19
PCT/US1998/019346 WO1999016052A2 (en) 1997-09-19 1998-09-16 Speech recognition system for recognizing continuous and isolated speech

Publications (3)

Publication Number Publication Date
JP2001517816A true JP2001517816A (ja) 2001-10-09
JP2001517816A5 JP2001517816A5 (ja) 2006-01-05
JP4351385B2 JP4351385B2 (ja) 2009-10-28

Family

ID=25465823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000513270A Expired - Fee Related JP4351385B2 (ja) 1997-09-19 1998-09-16 連続および分離音声を認識するための音声認識システム

Country Status (7)

Country Link
US (1) US6076056A (ja)
EP (2) EP1610301B1 (ja)
JP (1) JP4351385B2 (ja)
CN (1) CN1202512C (ja)
CA (1) CA2303011A1 (ja)
DE (2) DE69832393T2 (ja)
WO (1) WO1999016052A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510933A (ja) * 2002-12-20 2006-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション センサ・ベース音声認識装置の選択、適応、および組合せ
US10510342B2 (en) 2015-09-16 2019-12-17 Samsung Electronics Co., Ltd. Voice recognition server and control method thereof

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
AU2901299A (en) * 1998-03-09 1999-09-27 Lernout & Hauspie Speech Products N.V. Apparatus and method for simultaneous multimode dictation
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
US6728344B1 (en) * 1999-07-16 2004-04-27 Agere Systems Inc. Efficient compression of VROM messages for telephone answering devices
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6789062B1 (en) * 2000-02-25 2004-09-07 Speechworks International, Inc. Automatically retraining a speech recognition system
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
US6931376B2 (en) * 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
US6957184B2 (en) * 2000-07-20 2005-10-18 Microsoft Corporation Context free grammar engine for speech recognition system
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
US6832189B1 (en) 2000-11-15 2004-12-14 International Business Machines Corporation Integration of speech recognition and stenographic services for improved ASR training
US7451075B2 (en) * 2000-12-29 2008-11-11 Microsoft Corporation Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US7366667B2 (en) * 2001-12-21 2008-04-29 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for pause limit values in speech recognition
JP2003208195A (ja) * 2002-01-16 2003-07-25 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US7324944B2 (en) * 2002-12-12 2008-01-29 Brigham Young University, Technology Transfer Office Systems and methods for dynamically analyzing temporality in speech
US20040122672A1 (en) * 2002-12-18 2004-06-24 Jean-Francois Bonastre Gaussian model-based dynamic time warping system and method for speech processing
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US20050049873A1 (en) * 2003-08-28 2005-03-03 Itamar Bartur Dynamic ranges for viterbi calculations
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US8694318B2 (en) 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US20080162128A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a fast speech recognition search process
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
WO2010042631A2 (en) * 2008-10-10 2010-04-15 Fastow Richard M Real-time data pattern analysis system and method of operation thereof
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
CN101819772B (zh) * 2010-02-09 2012-03-28 中国船舶重工集团公司第七○九研究所 一种基于语音分段的孤立词识别方法
SG189182A1 (en) * 2010-10-29 2013-05-31 Anhui Ustc Iflytek Co Ltd Method and system for endpoint automatic detection of audio record
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
KR101905827B1 (ko) * 2013-06-26 2018-10-08 한국전자통신연구원 연속어 음성 인식 장치 및 방법
CN105580004A (zh) 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN105513589B (zh) * 2015-12-18 2020-04-28 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10854192B1 (en) * 2016-03-30 2020-12-01 Amazon Technologies, Inc. Domain specific endpointing
WO2018043138A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109974954B (zh) * 2018-11-22 2021-02-02 长安大学 一种路面自行车骑行振动预测系统及方法
US11138966B2 (en) 2019-02-07 2021-10-05 Tencent America LLC Unsupervised automatic speech recognition
CN112151018A (zh) * 2019-06-10 2020-12-29 阿里巴巴集团控股有限公司 语音评测及语音识别方法、装置、设备及存储介质
IT201900015506A1 (it) 2019-09-03 2021-03-03 St Microelectronics Srl Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti
CN112599129B (zh) * 2021-03-01 2021-05-28 北京世纪好未来教育科技有限公司 语音识别方法、装置、设备和存储介质
US11893983B2 (en) * 2021-06-23 2024-02-06 International Business Machines Corporation Adding words to a prefix tree for improving speech recognition

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3670390D1 (de) * 1985-05-07 1990-05-17 Ncr Co System zur erkennung kontinuierlicher sprache.
US4783808A (en) * 1986-04-25 1988-11-08 Texas Instruments Incorporated Connected word recognition enrollment method
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5280563A (en) * 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
US5379253A (en) * 1992-06-01 1995-01-03 National Semiconductor Corporation High density EEPROM cell array with novel programming scheme and method of manufacture
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510933A (ja) * 2002-12-20 2006-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション センサ・ベース音声認識装置の選択、適応、および組合せ
US10510342B2 (en) 2015-09-16 2019-12-17 Samsung Electronics Co., Ltd. Voice recognition server and control method thereof

Also Published As

Publication number Publication date
EP1610301B1 (en) 2008-10-08
EP1610301A2 (en) 2005-12-28
WO1999016052A2 (en) 1999-04-01
CA2303011A1 (en) 1999-04-01
EP1012827A2 (en) 2000-06-28
WO1999016052A3 (en) 1999-05-20
DE69832393D1 (de) 2005-12-22
DE69832393T2 (de) 2006-08-17
EP1610301A3 (en) 2006-03-15
CN1202512C (zh) 2005-05-18
JP4351385B2 (ja) 2009-10-28
DE69840115D1 (de) 2008-11-20
EP1012827B1 (en) 2005-11-16
CN1279806A (zh) 2001-01-10
US6076056A (en) 2000-06-13

Similar Documents

Publication Publication Date Title
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
JP4221379B2 (ja) 音声特性に基づく電話発信者の自動識別
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US6374219B1 (en) System for using silence in speech recognition
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2731133B2 (ja) 連続音声認識装置
KR19980013825A (ko) 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050913

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090625

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090724

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees