JP4636695B2 - 音声認識 - Google Patents

音声認識 Download PDF

Info

Publication number
JP4636695B2
JP4636695B2 JP2000609991A JP2000609991A JP4636695B2 JP 4636695 B2 JP4636695 B2 JP 4636695B2 JP 2000609991 A JP2000609991 A JP 2000609991A JP 2000609991 A JP2000609991 A JP 2000609991A JP 4636695 B2 JP4636695 B2 JP 4636695B2
Authority
JP
Japan
Prior art keywords
word
word string
final
recognition unit
hypotheses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000609991A
Other languages
English (en)
Other versions
JP2002541521A (ja
Inventor
ランド,マイケル
ライト,カール
ファン,ウェンション
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2002541521A publication Critical patent/JP2002541521A/ja
Application granted granted Critical
Publication of JP4636695B2 publication Critical patent/JP4636695B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

【0001】
[背景技術]
本発明は、話中発声音内に含まれる単語を決定するために複数の処理ステージを利用する自動音声認識に関する。
【0002】
リアルタイム音声認識は、多種のコンピュータにて実現することができる。音声認識の実現は、通常、ディジタル信号処理、汎用処理、又は、両方を使用している。典型的なディジタル信号処理(テキサスインストラメント TMS320C31のようなDSP)は、信号処理のような計算集中型処理、及び、低い待ち時間処理に適している。しかしながら、DSP用の記憶領域は通常、DSPにフルスピードで(つまり、記憶待ち状態なしで)実行させるメモリ装置の費用のため、ある程度、限られている。(Intel Pentiumのような)汎用処理は、通常、DSPメモリよりも低価格であるメモリをサポートしているが、信号処理用の仕組みとなっていない。
【0003】
コンピュータに基づくDSPにおいて実現される音声認識アルゴリズムは、通常、用語サイズ及びDSPに関連するメモリ資源によって制限される言語学的複雑さを有する。1つの最良の仮説より複数の選択仮説を生成するN−bestアルゴリズムが実現されるように、例えばもっと広範囲の用語をサポートする、更に複雑な音声認識アルゴリズムは、汎用処理に基づくコンピュータを利用することによって実現されている。
【0004】
DSP及び汎用処理の両方を利用することによって実現される音声認識アルゴリズムは、例えば、通常時間間隔での計算スペクトル特性を有するような信号処理を実行する際にDSPに依存する。線形先読み係数、ケプストラ、又は、ベクトル量子化特性のような、これらスペクトル特性は、DSPから汎用処理へと、音声認識の次のステージへと通過する。
【0005】
音声認識は、電話入力に適用されてきた。PureSpeech社は、電話通話者によって話される発声音を認識するソフトウェア製品Recite1.2を以前に発売している。この製品が実行されるコンピュータアーキテクチャーは、図1に示される。コンピュータ100は、通話者の声によって多重電話線110を相互通信するために使用される。コンピュータ100は、自動的に通話者が話すことを認識し、即座に通話者とを相互に通信する。コンピュータ100は、データバス120を介して、シングルボードコンピュータのような汎用コンピュータ120に接続される1つ以上の電話インターフェース130を有する。汎用コンピュータ120は、汎用プロセッサ122と、ダイナミックRAMのような作業用メモリ124と、磁気ディスクのような不揮発性プログラムメモリ126とを有する。或いは、プログラムメモリは、他のコンピュータに常駐し、データネットワークを介してアクセスされる。電話インターフェース130は、コンピュータと相互通信する通話者を介する電話線110へのインターフェースを有する。また、1以上のDSPプラットフォーム140が、時間分割多重送信(TDM)バス150の第二のバスを介して電話インターフェース130へ接続される。TDMバス150は、ディジタル音声をDSPプラットフォーム140と電話インターフェース130との間で伝送することができる。各DSPプラットフォーム140は、複数のDSPプロセッサ142と、作業用メモリ144、データバス125へのデータバスインタフェース146と、音声インターヴェース148へのTDMバス150とを有する。Recite1.2製品のあるバージョンにおいて、汎用プロセッサ122はIntel Pentiumであり、データバス125はISAバスであり。DSPプラットフォーム140はDialogic社によって製造されたAntares DSPプラットフォーム(モデル2000/30、2000/50、又は、6000)であり、TDMバス150は、8kHzのサンプリング率でサンプルされた8ビット音声サンプルとしてコード化した電話信号を伝送する。各Antares DSPプラットフォームは、4つのDSPプロセッサ142と、Texas Instruments社によって製造されたTMS320C31プロセッサを有する。作業用メモリ144は、DSP毎に静的RAMの512KBと、4つのDSPプロセッサ142によって共有される動的RAMの4MBとを有する。電話インターフェース130は、Dialogic社によって製造されたモデルD41ESC、D160SC及びD112SCを含む複数のインターフェースである。例えば、各D112SCインターフェースは、12本のアナログ電話回線110をサポートしている。
【0006】
PureSpeech社製品Recite1.2は、参照することにより組み込まれる米国特許5,638,487号(以下、米国特許487号とする)に記載される「自動音声認識」に関する音声認識アプローチを組み込んでいる。その実現において、DSPプラットフォーム上の各DSPプロセッサは、正確に1つの電話チャンネルと連携している。特定の電話チャンネルと連携するDSPは、米国特許487号の図3に示される音声アプローチの初期ステージを制御する。また、エコー消去ステージは、入力発声音に対する出力指示の影響を少なくするため、スペクトル解析の前のDSPに含まれる。DSPは、本来、TDMバスから受信した入力を受け取り、それを処理し、汎用コンピュータへ渡すためのシングルタスク(プロセス)に使用される。音声分類の出力は、文章レベル照合が実現れる汎用コンピュータに送信される。文章レベル照合は、話者の話す発声音に対応するだろう複数の仮説文章を生成する。
【0007】
電話に基づいた多くの音声応用において、通話者は比較的小さな分割電話時間で話をする。時間の残りは、プロンプト又は通話者への他の情報を行なうために費やされるか、又は、例えば、情報が通話者のために検索されている間等の静かな時間間隔として費やされる。Recite1.2ソフトウェア製品において、通話者が話し中であるか、プロンプト又は情報が
処理中であるかに関わらず、1つのDSPが各電話の相互作用に割り当てられる。例えば、通話者は、プロンプトが完了する前に話し出した場合、これが必要となる。しかしながら、同時の電話会話をサポートするために、4つのDSPを有する3つのAntares DSPプラットフォームは、認識アプローチの初期ステージを制御するために必要となる。
【0008】
音声認識アプローチは、1000から10000名の範囲の氏名のリストのような広い用語範囲に適応される。そのような広い用語範囲において相当な正確さを達成するために使用される認識アプローチの1つの形態は、大量のサブワードモデルのパラメータ数、又は、大量のサブワードモデル自身の数が典型的に使用される形態である。発声音分類は、Recite1.2ソフトウェアのDSPにおいて制御される。サブワードモデルに関連する記憶装置として使用される静的RAMとして、各DSPに利用可能な静的RAMの量は限られているため、サブワードモデル及びそれらのパラメータの数は制限される。このメモリ制限は、大量の用語のタスク処理における正確さに影響を及ぼす。
【0009】
[発明の要約]
一形態において本発明は、請求項1に記載されるように、複数の通信チャンネルにて受信される発生音を認識する音声認識装置において、各ディジタル信号処理手段が、複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を提供する予備認識部とを有する複数のディジタル信号処理手段と、各最終認識部は上記複数の信号プロセッサの1つに対応することによって、上記複数の通信チャンネルに対応し、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段と、を有するように構成される。請求項2に記載されるように、上記予備認識部は、複数のスコアが第一の複数のサブワード単位で上記時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を計算して、上記一連の文節を上記最終単語認識手段に送信するように構成してもよい。また、請求項3に記載されるように、上記各最終認識部は、上記ディジタル信号処理手段から上記一連の文節を受信して、上記発声音と連携される複数の単語列仮説を決定して、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算するように構成してもよい。
【0010】
更に、請求項4に記載されるように、上記第一の複数のサブワード単位は音素のセットであって、上記第二の複数のサブワード単位は文脈依存音素のセットであるように構成してもよい。また、請求項5に記載されるように、上記複数の単語列仮説に対するスコア計算は、上記単語列仮説からグラフ表現を形成して、該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するようにし、グラフ表現を介する複数の経路に対して、スコアを計算するように構成してもよい。更に、請求項6に記載されるように、上記複数の単語列仮説の決定は、該各単語列仮説がグラフ表現を介する経路に連携されるように該グラフ表現を決定するように構成してもよい。
【0011】
他形態において、本発明は、請求項7に記載されるように、複数の通信チャンネルにて受信される発生音を認識する音声認識装置における、話中発声音における単語を認識する音声認識方法において、上記音声認識装置は、各モジュールが複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を提供する予備認識部とを有する複数のディジタル信号処理手段と、各最終認識部は上記複数の信号プロセッサの1つに対応することによって、上記複数の通信チャンネルに対応し、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段と、を有し、上記ディジタル信号処理手段が、上記話中発声音のためのデータを受け付けて、複数のスコアが、第一の複数のサブワード単位で、その時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を形成して、上記最終単語認識手段が、上記一連の文節に基づいて、上記発声音に連携される複数の単語列を決定し、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算するように構成される。
【0012】
また、請求項8に記載されるように、上記複数の単語列仮説に対するスコア計算は、該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するように、上記単語列仮説からグラフ表現を形成し、グラフ表現を介する複数の経路に対してスコアを計算するように構成される。更に、請求項9に記載されるように、上記グラフ表現を介する複数の経路に対するスコア計算は、アルゴリズムに基づいたHidden Markovモデルを用いて経路にスコア付けするように構成される。
【0013】
また、請求項10に記載されるように、上記複数の単語列仮説の決定は、単語列のリストを決定するように構成される。更に、請求項11に記載されるように、上記複数の単語列仮説の決定は、各単語列仮説が上記グラフ表現を介する経路に連携されるように単語グラフ表現を決定するように構成される。
【0014】
本発明の効果は、多重ステージ音声認識がDSPプロセッサの一部及び汎用プロセッサの一部に実現でき、多重チャンネルが、通話者が通話時間の小部分で話しができるという点で、1つのDSPによって処理されることが可能となることである。
【0015】
1つのDSPによって処理される全チャンネルに対して、予備認識ステージを共有することによって、チャンネルごとに個別の予備認識部を備える場合に比べて、そのDSPに必要とされるメモリ容量を削減することができる。更に、発声音による発声音を原則とする予備認識部を共有することによって、文脈交換によって導かれる非能率を削減することができる。
【0016】
本発明のその他の効果は、DSP上の通信は、認識される用語のサイズに依存しない制限されたメモリ容量を使用することができる。DSPプロセッサと汎用プロセッサとの間での分割情報の通信において、単語列仮説が汎用コンピュータにて効果的に計算される。許容可能な単語列の可能な発声音を決定する場合に、音声表現に基づく規則のセットを用いることによって、正しい単語列は、計算された単語列仮説のセットに、高い確率で含められる。そして、例えば、認識アプローチに基づくHidden Markovモデル(HMM)を用いることによって、単語列の上位選択に対する高い正確性が、汎用プロセッサにおいて、これら単語列仮説を再度スコア付けすることによって取得することができる。この多重ステージ認識部において、多数の同時認識チャンネルは、汎用プロセッサに備えられる1つ以上のDSPプロセッサを同時に使用することによって、高い認識精度を達成しつつ処理される。
【0017】
本発明の他特徴及び効果は、以下説明及び請求項より明らかとなる。
【0018】
[発明の実施の形態]
新しい音声認識アプローチは、図1に示されるように、前認識アプローチを実現するために使用されたように、同じコンピュータプラットフォームに実現される。この新しい認識アプローチにおいて、各DSPは、複数の電話チャンネルを同時にサポートする。更に、汎用コンピュータに実現される認識ステージは、各DSPと連携されたメモリに格納される制限されたサブワードモデルのパラメータ数を用いて達成可能な正確さを上げるために使用されるステージを有する。
【0019】
図1を参照して、新しい音声認識アプローチは、DSPプロセッサ142又は汎用プロセッサ122のいずれかにおいて、実行する複数の処理ステージを有する。これら処理ステージは、通話者による発声音を認識し、電話線110を通してコンピュータ100に入力するために使用される。図2を参照して、DSPプラットフォーム140上の各DSPプロセッサ142は、DSPモジュール210のセットを起動する。そのようなDSPプロセッサ142の1つのDSPモジュール210は、3つの信号プロセッサ212と、予備認識部214とを有する。各信号プロセッサ142は、TDMバス150から1回の電話呼び出しに連携してデータを受信する。予備認識部214は、同一DSPモジュール210内の各信号プロセッサ212から入力を受信し、各信号プロセッサ212からの発声音が予備認識部214によって順番に処理されるような共有される方法において、それら入力を処理する。DSPプラットフォーム上の各予備認識部214は、通信インターフェース215を経由して、汎用コンピュータ120で実行する最終モジュール220と通信する。各信号プロセッサ212及びそれら連携される予備認識部214は、DSP上で実行する別の処理スレッドとして実現される。通信インターフェース215は、DSPプラットフォーム140の一部及び汎用コンピュータ120の一部で実行する連携ソフトウェアを有する。最終モジュール220は、各電話チャンネルに1つの最終認識部222を有する。従って、各最終認識部222は、DSPプラットフォーム140において、信号プロセッサ212に対応する。制御アプリケーション230は、また、汎用コンピュータ120上で実行され、最終モジュール220の最終認識部222及びDSPモジュール210を制御する。この実施例において、制御アプリケーション230及び各最終認識部222は、1つのオペレーティングシステム処理内において、別々の処理スレッドとして実行される。又は、各スレッドは、別のオペレーティングシステム処理として実現することができる。
【0020】
図3を参照して、各信号プロセッサ212は、連続したステージを通るパイプライン・データ・フローを実現する。信号プロセッサ212は、入力キュー305から(例えば、反復してサンプルした)2倍に同期させた信号を受信する。入力キュー305は、TDMバス150からデータを通過させる割り込みサービスルーチンによって蓄積される。第一の信号であるプロンプト310は、対応する電話線を通るオーディオ波形、例えば、「電話中の相手の名前を教えてください。」のようなプロンプトの波形のサンプルに対応する。第二の信号である入力312は、電話線から受信した波形のサンプル、例えば、「John Smith」と言っている通話者に対応する。信号プロセッサ212の出力は、周期的に計算されたスペクトル特性362の連続である。信号プロセッサ212は、呼び出し者が話中であることを決定する時間の間のみ出力を提供する。スペクトル特性362は、信号プロセッサ212に連携する発声音が処理される時、予備認識部214がデータをキューから取り出したところから、特性キュー370に格納される。予備認識部214は、また、予備認識部214と連携される信号プロセッサ212の3つのうち他2つに連携される特性キュー372及び374からデータを受信する。
【0021】
また、信号プロセッサ212によって受け取られ生成された制御及び状態信号は、図3に示す。「聞き取り開始」信号314は、呼び出し者との特定な交換用の認識処理を起動するために、汎用コンピュータ上で実行するアプリケーション230を制御することによって提供される。制御アプリケーションは、通常、プロンプトの提供を制御する際、プロンプトが開始した時間頃に、聞き取り開始信号314を提供する。信号プロセッサ212は、また、アプリケーション230を制御するために状態信号を提供する。切り抜き状態336は、入力信号が大きすぎる音量であって、発呼側通話者から信号プロセッサ212への信号経路でのアナログ・ディジタル変換部がその動的範囲を超えてしまった場合に起こる切断状態に対応する。また、音声開始/終了信号356は、通話者が話し始めた又は終わった時間を知らせるため、制御アプリケーションに提供される。制御アプリケーション230は、例えば、音声指示の開始を受信した時プロンプトの実行を停止することができ、また、音声指示の終了を受信した時トーンのようなプロンプト停止を提供できる。
【0022】
信号プロセッサ212の第一の処理ステージのエコー消去部320は、入力312を強める。アナログ電話線の特徴は、出力信号の一部が入力信号においてエコーを起こさせるということである。このエコーの源は、インピーダンスの不一致部分によって、2線又は4線変換ポイントの「ハイブリッド」変換部で電話インターフェース130における入力及び出力信号パスの接続を有する。従って、入力312は、通常、プロンプト310のフィルター(つまり、減衰、フィルター及び遅延)版を有する。エコー消去部320は、強化しされた入力324を生成するため、入力312からプロンプト310の効果を取り除こうとする。エコー消去310は、また、プロンプト310に対応する入力312の部分の予測となるフィルタープロンプト322を出力する。
【0023】
エコー消去部320は、図4の信号フローを実現する。エコー消去部320は、聞き取り開始信号314を用いることによってトリガーとなる以前にどんな出力も行なわない。エコー消去部320は、聞き取り開始信号を受信時、エネルギー検出部410が、プロンプト310がパワー閾値をおえるまで、プロンプト310を監視する。そして、フィルター応答計算部420は、通常0.5秒のオーダーの固定インターバルの間、プロンプト310と入力312とをバッファに格納する。これらバッファ内の信号に基づいて、フィルター応答計算部420は、バッファ内入力に最も合致するように、バッファ内プロンプトの減衰、フィルター及び遅延を特徴とする線形フィルターの応答を計算する。フィルター応答計算部420は、フィルタープロンプト322を生成するため、計算された線形フィルターをプロンプト310に適応する、フィルター応答のパメターをプロンプトフィルター430へ通過させる。加算部440は、強化入力324を生成するため、入力312からフィルタープロンプト322を差し引く。
【0024】
信号プロセッサ212の第二のステージは、信号調節部330である。信号調節部は、次の処理ステージに渡される各信号332及び334の入力の前強調版を生成するため、強調化フィルター(高域フィルター)をフィルタープロンプト322及び強化入力324に適用する。また、信号調整部330は、強調入力324の強調度と固定閾値とを比較することによって、抜き取り状態を検出する。
【0025】
第三のステージは、信号フレーマー340である。信号フレーマー340は、その入力信号を、サンプル値の連続したストリームとして受信する。音声の10ms.に対応する各一連のサンプルのために、信号フレーマー340は、例えば、ハミングウィンドウを用いてウィンドウ化した、サンプルの前の20ms.のウィンドウ版を計算する。そのようなウィンドウ化した各一連のサンプルは、「フレーム」と呼ばれる。信号フレーマーは、連続してウィンドウ化されたフィルタープロンプト及びウィンドウ化された強化信号におけるパワーを含むエネルギーレベル342を提供する。信号フレーマー340は、また、ウィンドウ化された強化入力344を次のステージへ提供する。
【0026】
第四のステージは、音声検出部350である。一連のエネルギーレベル342に基づいて、音声検出部350は、通話者が話し始め又は話し終わりそうな時を決定する。通話者が話し中である時を決定するのは、特にプロンプトのエコーが在る場合に難しいため、図5に示されるように、制限状態装置500が音声検出部350によって実現される。状態遷移は、前ステージで計算されたウィンドウ化フィルタープロンプトでのパワー(デシベル)、及び、同様に前ステージで計算された強化入力パワー(デシベル)であるプロンプトアワーに基づく。音声検出部350は、また、発声音が処理される時に適応する2つの量を維持する。最初は、入力信号のノイズパワーの予測である。このノイズパワー予測は、入力の低電力(静かな)インターバルを見つけ出し、通話者が話し中の間、ゆっくりと増強する。特に、ディジタルワイアレス電話通信を含む電話通信環境において、信号は落とされ(ドロップアウト)、短期間でゼロ又はほとんどゼロのエネルギーになる。ノイズフロア追跡は、これらドロップアウトを検出し、ノイズパワー予測をそのようなゼロ又は低いエネルギー値に調整しない。音声検出部350が適応する第二の量は、入力信号からうまく差し引かれなかったプロンプトの部分のレベル、つまり、フィルタープロンプトの減衰レベルとして示されるレベルの予測である。特に、減衰は、フィルタープロンプトでのパワーに対する強化入力でのパワーとして初期に計算される。この減衰レベルは、例えば、減衰期間のエコー変化の特徴によって、減衰期間にゆっくりと減ぜられる。音声検出部350は、10ms.フレーム毎に1つのパワー量を計算する。もし、強化入力でのパワーがノイズパワーの現在四属より少なければ、パワーは、ゼロ(デシベル)に設定される。そうでなければ、もし、ノイズパワーが減衰されたプロンプトパワー、つまり、フィルタープロンプトパワーからプロンプト減衰を差し引いたパワーより大きければ、パワーは、強化入力からノイズパワーを差し引いたパワーとして計算される。そうでなければ、パワーは、強化入力から減衰したプロンプトパワーを差し引いたパワーに設定される。
【0027】
制限状態マシン500を示す図5を参照して、音声検出部350によって実現される制限状態マシン500の初期状態は、初期静寂510である。音声検出部350は、計算されたパワー(前述)が低開始又は高開始閾値を経過する場合、状態遷移を初期静寂510から低開始512又は高開始514へと遷移する。低開始512から、もし、パワーが高パワー閾値を経過する場合、次の状態は高開始514であり、もし、パワーが低開始閾値以下に落ちる場合、次の状態は、低開始ドロップ516である。低開始ドロップ516での閾値期間後、次の状態は、再び、初期静寂510である。低開始ドロップ516において、もし、パワーが一旦、低開始閾値以上に再び上昇すると、次の状態は、高開始514において、もし、パワーが高開始閾値以下に降下したら、次の状態は、再び低開始512である。高開始514での閾値期間後、音声の開始が検出され、次の状態は話中518となる。音声検出部350が話中518の状態に入ると、音声信号356の開始を、音声信号の開始に応じてプロンプトの実行を停止することができる制御アプリケーション230へ送信する。話中518において、もし、パワーが話中閾値以下に降下したら、次の状態は、終了520となる。終了520での終了閾値時間前に、もし、パワーが話中閾値パワー以上になったら、次の状態は、再び話中518となる。終了閾値時間後、もし、パワーが話中閾値以上になったら、次の状態は、終了スパイク522となる。もし、パワーがスパイク閾値時間より長い間、話中閾値以上でとどまっている場合、次の状態は、話中518となる。さもなければ、次の状態は、再び終了520となる。音声閾値時間の終了後、次の状態は完了524となる。一連の状態に基づいて、話中インターバルは、低開始512又は高開始514へ入る時間から終了520から抜け出す時間までの間隔として予測される。音声検出350は、この話中インターバルに対応する全フレーム用のウィンドウ化された強化入力344を、その出力354へ通過させる(つまり、入力信号をゲートで制御する)。
【0028】
音声検出部350が完了524状態に入ったら、パイプラインの初期ステージからもはやデータを要求せず、信号プロセッサ212は、聞き取り開始信号314によって、再び開始されるまで、アイドルとなる。
【0029】
信号プロセッサ212でのパイプラインの第五ステージは、特性抽出部360である。特性抽出部350は、ウィンドウ化された強化入力354のフレームを受信し、受信した各フレーム用の9つのケプストラ係数を計算する。フレームのケプストラ係数は、そのフレームのログ大きさスペクトルのフーリエ変換の係数である。特性抽出部360は、また、「正規化」された主要係数を計算する。各ケプストラ係数において、特性抽出部350は、処理中の発声音でのその係数の過去の値の降下平均を保持する。対応する正規化されたケプストラ係数は、計算されたケプストラ係数と降下平均との差である。特性抽出部350は、特性362、ケプストラ及び正規化されたケプストラ係数を特性キュー370に提供する。特性キュー370は、通常、予備認識部214が他特性キュー(372又は374)から現在データを受信していたとしても、キューがいっぱいにならないように十分な容量である。もし、出力キュー370が一杯であれば、信号プロセッサ212は、最後にブロックされ、入力キュー305は、処理される波形データでいっぱいになる。予備認識部214は、信号プロセッサ212によって処理された発声音を処理する際に、特性データを特性キュー370から取り外す。
【0030】
予備認識部214は、米国特許487号に記載される境界検出及び分割スコアアルゴリズムを実現する。図6を参照して、予備認識部214は、特性キュー370a―cに蓄積され、信号プロセッサ212a−cによって計算された特性データを受信し処理する。多重部605は、特性キューの一つがデータを提供できるまで、例えば、円形ロビン形式で、特性キューの間を繰り返す。そして、予備認識部214は、対応するチャンネルでの通話者が話しを止め、特性キューがになるまで、対応する信号プロセッサをサービスする。信号プロセッサ212a−cの出力は、通話者が話中の期間中のみ提供されるため、通常、1つ又は2つの信号プロセッサが、予備認識部214のためのその特性キューにて入力が有効となる。信号プロセッサ212は、他チャンネル用の発声音が予備認識部214によって処理されている間、ブロックされる。予備認識部214がブロックされたチャンネルをサービスできるまで、ブロックされたチャンネルの出力信号プロセッサ212は、対応する特性キュー370に蓄積される。予備認識部214は、多重部605によって選択された入力に対応する出力へ、その計算された結果を送信するその出力で非多重部635を有する。
【0031】
予備認識部214は、米国特許487号を組み込んで説明されるデザインの境界分類610と、分圧生成部620と、音声表現分類630とを有する。特に、境界分類610は、入力特性362a−cの選択された一つに対応する特性662を受信し、フレームが音声表現文節間の可能な境界に対応するかを決定するために、人口ニューロネットワーク(ANN)を使用する。境界分類610は、各入力フレームに対して、境界スコア612(フレームが境界となるログ確率)を提供するため、可能な境界フレームの近傍にて入力フレームを使用する。
【0032】
各入力フレームに対して、文節生成部620は、フレームが境界候補であり、前の境界候補フレームでの開始と現在の境界候補フレームでの終了の時間間隔に対応する複数の文節を形成する。各形成された文節に対して、文節生成部620は、文節の3つのサブインターバルでの正規化されたケプストラ特性を平均化することによってその文節の固定長表現に、その文節の時間間隔での入力特性を変形させる。その文節の境界のスコアと同様にその計算された固定長表現を含んでいる各形成された文節622は、文節生成部620から音声表現分類630へ送られる。
【0033】
音声表現分類630は、文節622が音声表現ラベルの固定セット毎に対応する(ログ)確率を決定するため、音声表現パラメータ632を使用する。音声表現パラメータ630は、各可能な音声表現ラベルに対する1つの出力と文節毎の固定長特性表現の各要素に対する1つの入力を有するANNの係数(重み)を含んでいる。ANNの出力は1つに加算され、ログは各出力から取り除かれるように測定される。音声表現パラメータ632及び音声表現分類630は、ANN重み付けと共にDSP命令とを含む効果的に事前にコンパイルされたコードモジュールに組み込まれる。
【0034】
よって、予備認識部214は、出力633として、処理中の発声音の時間間隔に対応した各文節で成る一連の文節を提供する。図7を参照して、各文節に対して、予備認識は、開始及び終了時間t710及びt712、それら時間B(t)720及びB(t)722での境界ログ確率、N個の音声表現単位の所定セットのログ確率S(t,t,1)730からS(t,t,1)740を経過する。予備認識部212は、また、変更されない特性362a−cを介して、提供中の文節に同期させた対応する出力640a−c.これら特性は、認識に続くステージにおいて、最終認識部222によって使用される。この実施例において、N=40の英語音素に対するスコアは、各文節時間間隔で提供される。他実施例において、音素のサブセットのみに対するスコア、例えば、最良スコアサブセットが提供されるであろう。また、必ずしも音声学に基づいていないサブワード単位が、代わりに使用されうる。
【0035】
図2を参照して、各予備認識部213の出力は、通信インターフェース215を介して、対応する最終認識222へと通過する。図8を参照して、最終認識222は、複数の処理ステージを含んでいる。第一パス810は、予備認識部214から送信された文節を受信し、後述される方法において、単語仮説814を決定するために、語彙グラフ812を使用する。そして、Hidden Markovモデル(HMM)認識部820は、単語仮説814を取得し、発声表現辞書824及び発声表現パラメータ822とを用いて、ソートしたNベストリスト826を決定する。ソートしたNベストリスト826は、対応する電話線での通話者との相互作用を担う制御アプリケーション230に構成される。
【0036】
図9a−bを参照して、第一パス810は、連鎖したときに、境界と音素ログ確率との最大総和となる一連の発声表現ラベルを決定するため、動的プログラミングアルゴリズムを実現する。アルゴリズムは、種々の文節が使用されるところを除いて、しばしば音声認識アルゴリズムに使用されるビタビ(Viterbi)アルゴリズムと同様である。
【0037】
語彙グラフ812は、認識可能であって、許容される単語列の仕様から導かれるグラフ表現である。グラフの弧は、音素ラベルと連携する。グラフ内の少なくとも一つのノードは、開始ノードを示し、グラフ内の少なくとも1つの他のノードは、終了ノードを示す。開始ノードから終了ノードへの経路は、許容される単語の列の発声音に対応する音素ラベルの列と連携する。単語間の他の発声音及び共調音効果の説明のため、語彙グラフ812は、オフライン手順でのステージに構成される。第一ステージにおいて、許容単語列に対応する単語グラフが作られる。各単語は、通常、1つの「標準」音声表現発音(音声綴り)に置き換えられる。そして、音声表現ルールは、音素のサブ列を(いくつかのサブ列を除いた)他のサブ列と置き換えるために、また、最初に出現したグラフの他に追加のサブ列を加えるために、結果グラフに適用される。そして、最適化ステージは、終了ノードの手前の結合経路と同様に開始ノードから経路の結合を含む相互最適化アプローチを用いて同等のグラフを作成する。
【0038】
図9aは、動的プログラミングアルゴリズムにて実現され、その一部として第一パス810によって計算されるスコアの動的プログラミング格子900を示す。水平軸は境界時間に対応し、垂直軸は、グラフノードに対応する。格子900での値は、時間の経過(図9aの左から右)で計算される。各文節は、第一パス810によって受信されるため、その文節の終了境界時間に対する格子900のスコアは、更新される。境界時間で終了する全ての文節が受信された後、終了境界時間に対する格子900内の点は、グラフ内の各ノードに対して、その終了時間でのそのノードで終了する、及び、いくぶん前の境界時間で設計された開始ノードの一つで開始する音素及び境界ログ確率との最大総和、を含んでいる。図9bは、語彙グラフ812を表現したグラフの一部を示す。ノードインデックスi920、j922及びk924の3つのノードが示される。弧930は、ノードi920及びk924を結び、音素aとする。
【0039】
一方の弧932は、ノードj922及びノードk924を結び、音素bとする。この例において、弧930及び932は、ノードk924で終了する語彙グラフの弧のみである。図9aを参照して、語彙エントリーL(k、t)902の計算において、境界時間tでのノードkに対するスコアは、時間tで終了する全ての文節を考慮する。この例において、文節期間(t,t)及び(t,t)及びtのみである。L(k、t)902の計算は、t又はtのいずれかで開始する最後の音素文節を伴う音素a又は音素bのいずれかにおける終了経路の最良スコアを検出する。動的プログラミングアルゴリズムを用いて、第一パス810は、格子点904、905、906及び907から延長することによって、この最良経路を選択し、これら延長された経路に連携した最大スコアを伴う格子エントリー902を変更する。
【0040】
発声音に対する全ての文節が第一パス810によって受信され、格子900内の全ての値が前述した方法にて計算された後、第一パス810は、先ず、狩猟ノードに連携される格子900でのノードの最大値を検出することによって、始ノードから終了ノードの経路の最大スコアを決定する。そして、第一パス810は、最良スコアの閾値スコア内の経路スコアを有し、また、開始ノードから終了ノードの語彙グラフ812を介して正当な経路に対応する音素列のセットを決定する。A*検索(最良第一検索)は、終了ノードで開始する及び時間と逆に動作する最良音素列を検出していた。各音素列は、特定の開始時間と終了時間に連携される。そして、A*検索で検出される各音素列に対して、第一パス810は、音素経路が発声音であることに対する単語列を決定する。これら単語列仮説のリストは、それら開始及び終了時間に従って、HMMへの第一パス810によって単語仮説814での認識部820へ提供される。
【0041】
この実施例において、HMM認識部820は、音素パラメータ822及び音素辞書824を用いることによって、単語仮説814での単語列を再度順位付けしていた。認識されたHMMは、全ての仮説の時間間隔を有する同一時間間隔を使用して、各仮説毎にスコアを決定する。
【0042】
図10を参照して、HMM認識部は、複数のステージを有する。HMMグラフ構築1010は、単語仮説814から単語列を受け取り、HMMグラフ1020を作成する。HMMグラフ1020は、辞書824で検出された際に、単語の音声表現に対応するノードの列への単語仮説814内の各単語の拡張を有する。この実施例において、弧の1つの線形列は、その列内の各単語に対する辞書824で検出された音素発音(音声表現綴り)を連結させることによって、単語仮説814内の各単語列仮説に対して形成される。また、最初又は最後の静寂、又は、通話者が話す前又は後の音声でない事象に対応する充填「音素」の選択セットは、列の最初及び最後で挿入される。充填音素は、また、アプリケーションを配置する単語又は文節での用語外音声を作るために使用される。また、選択的静寂又は停止音素が、各単語の間に挿入される。辞書824にて使用される発声表現単位及び発声表現発音は、語彙グラフ812(図8)にて使用され、第一パス810によって処理される音声表現単位及び発音に、必ずしも正確に対応しない。文脈依存音素モデルがHMMグラフ814で使用される。すなわち、音素に対応するパラメータは、その音素の直前及び直後の音素に依存する。内単語共調音効果は、隣接単語への依存を有するため、単語の開始又は終了で音素の文脈依存を含めることによって、解説される。
【0043】
HMM認識部820は、処理中の発声音のフレームに対する(非正規化)ケプストラ特性を受け付ける。特性正規化1040は、ケプストラ特性の全列を取り、発声音内の全フレームにおけるケプストラ係数から各ケプストラ係数の発声音から中間値を差し引くことによって、正規化済特性150を計算する。
【0044】
音声認識に通常使用される技術を用いて、HMMスコア1030は、各音声表現列の見込みが正規化済特性1050及び音声表現パラメータ822に基づく通話者によって発せられていたかを判断する。音声表現パラメータ822は、ケプストラ特性、及び、HMMモデルの各状態で発せられるデルタケプストラ特性(1つのフレームと直前のフレームでのケプストラ特性の差)を作るために対角共分散ガウシアン超関数の混合を使用する文脈依存HMM音素モデルに対するパラメータを有する。HMMスコア部1030は、単語列仮説毎に、HMMスコア1060を計算する。
【0045】
そして、単語仮説ソート部1070は、HMMスコアに従って、仮説を再度発生させるために、HMMスコアを取り、ソート済N最良リスト826を生成する。単語仮説ソート部1070は、また、第一パス810によって仮説毎に提供されたスコアを取り、ソート済N最良リスト826を決定するため、HMMスコアとそれらを組み合わせる。他実施例において、単語列の最良スコア付けのみが全N最良リストの提供よりも保たれる。
【0046】
単語仮説をスコア付けすることに加えて、信頼スコア1072は、通話者が単語を実際に発したと言う確実性に関係付けられる単語列毎にスコアを決定する。スコアは、HMMスコア部からの結果同様、予備認識部によって決定された音声表現分類スコアにも依存する。単語仮説ソート部170によって選択された最良単語列に基づいて、平均音素スコアは、音声表現スコア部630によって計算される際に、その単語列に連携した音声表現列に対して、計算される。そして、HMMスコア部1030によって考えられる単語列毎に、全HMM見込みの総和による単語列に対するHMM見込みの比(ログ見込みスコアの指数関数)が計算される。この比は、その単語列に対する信頼を生じるために、平均音素スコアが掛け算される。
【0047】
最終モジュール220(図2)は、複数の最終認識部222を有する。図8に示される音声表現パラメータ811は、最終認識部間で共有される。それによって、汎用コンピュータで要求されるメモリの全体量が削減される。
【0048】
他実施例において、可能な単語列のリストを計算するよりも、挿入された第一パス810可能な単語列のグラフを提供する。このグラフは、前述した実施例において、最良仮説のリストを計算するために使用された同様の方法で、動的プログラミング格子900を用いることによって計算される。しかしながら、A*検査中の音素列の最良スコア付けを決定するよりも、それら最良の音素列に対応する単語の各開始及び終了時間が記録される。これら単語は、他の単語の終了時間と等しい開始時間の単語が、許容される単語列であれば、その他の単語に続くことができるように、グラフに配列される。したがって、最良音素列に対応する全単語列は、単語グラフを介して経路と連携される。また、グラフを介した経路は、個々に取られる最良の音素列のどれにも対応しない単語列に対応するであろう。この他実施例において、HMMグラフ構築1010は、第一パス810によって作成される単語グラフを取り、前実施例のように、単語列仮説毎の個別のHMMグラフよりも、1つのHMMグラフ1020を作成する。HMMスコア部1030は、HMMを介する経路にスコア付けし、ソート済N最良リスト826へ直接提供する単語列の最良スコア付けを決定する。
【0049】
上記で説明したように、HMM認識部820は、予備認識部810より異なるサブワード単位を使用することができる。上記実施例において、英語音素は、サブワード単位として使用される。その他実施例において、サブワード単位は、単語の部分のような、音素、音素対(2重音)、文脈依存音素(3重音)、音節、及び、単位に基づいた非言語形式を有することができる。
【0050】
他実施例は、上述される認識システムの多種構成要素を実現するために、選択的アプローチを使用する。特に、予備認識部214の選択的実現は、文節間隔及びそれら間隔を測る音素のスコアを計算するために使用することができる。動的プログラミングアルゴリズムは、音素列での制約又は重み付けを導入するために予備認識部214で使用される。また、音素分類に従った2つのステップによる境界分類のアプローチを用いるよりも、HMM又はアルゴリズムに基づいた同様の動的プログラミングを用いることができる。そのアプローチにおいて、予備認識部214によって受信されたフレーム毎に、動的プログラミングアルゴリズムが、スコアの格子を変更するために使用される。動的プログラミングアルゴリズムは、統計学的モデル又はANNを用いることによって決定されるHMM状態スコアによるビタビ音声認識アルゴリズムである。所定時間までに計算された格子スコアに基づいて、その時間又はその前に終了し、音声スコアに連携される文節間隔は、決定され、対応する最終認識部222へ渡される。
【0051】
上記実施例において、3つのチャンネルは、各DSPによってサポートされる。チャンネル数は、ブート時間で決定される。また、入力及び特性キューのサイズは、サポートされるであろうアプリケーションに合うように設定される。例えば、短いプロンプトのみが提供されるアプリケーションにおいて、少ないチャンネル数が、長いプロンプトが提供されるアプリケーションよりも各DSPによって提供される。後者の場合、予備認識部は、通常、特性キュー内に未処理データを保有しておくよりも、通話者が話すのを待っている。
【0052】
本発明は、詳細な説明と関連して記述されると共に、前述の説明は図示され、添付の請求項の範囲によって定義される本発明の範囲を逸脱するものではない。その他形態、効果及び改良は、続く請求項の範囲にある。
【0053】
【図面の簡単な説明】
【図1】 多重電話回線から入力された音声を認識するマルチプロセッサコンピュータを示す図である。
【図2】 多重電話回線から入力された音声を認識するソフトウェア構成を示す図である。
【図3】 DSPプロセッサ上で実行する1つのプロセッサのソフトウェア構成を示す図である。
【図4】 エコー消去モジュールのデータフロー図である。
【図5】 音声検出状態装置を示す図である。
【図6】 DSPプロセッサ上で起動する予備認識部のソフトウェア構成を示す図である。
【図7】 DSP及び汎用プロセッサ間を通過する文節データを示す図である。
【図8】 汎用プロセッサ上で起動する最終認識部のソフトウェア構成を示す図である。
【図9a】 単語列仮説の形成において使用される動的プログラミング格子を示す図である。
【図9b】 単語列仮説の形成において使用される語彙グラフの一部を示す図である。
【図10】 汎用プロセッサ上で起動するHMM認識部のためのソフトウェア構成を示す図である。
【符号の説明】
212 信号プロセッサ
214 予備認識部
220 最終モジュール
222 最終認識部
230 制御アプリケーション
320 エコー消去部
330 信号調整部
340 信号フレーマー
350 音声検出部
360 特性抽出部
605 多重部
610 境界分類
620 文節生成部
630 音声表現分類
635 非多重部
1010 HMMグラフ構築
1030 HMMスコア
1040 特性正規化
1070 単語仮説ソート部
1072 信頼スコア

Claims (9)

  1. 複数の通信チャンネルにて受信される発生音を認識する音声認識装置において、
    各ディジタル信号処理手段が、1つの信号プロセッサが前記複数の通信チャネルのうちの1つに対応する複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を計算する予備認識部とを有する複数のディジタル信号処理手段と、
    1つの最終認識部上記複数の信号プロセッサのうちの前記1つのプロセッサに対応する複数の最終認識部であって、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段と
    上記予備認識部は、複数のスコアが第一の複数のサブワード単位で上記時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を計算して、上記一連の文節を上記最終認識部に送信し
    上記最終認識部は、上記最終認識部と対応するデジタル信号処理手段からの上記一連の文節を受信して、上記発声音と連携される複数の単語列仮説を決定して、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算する
    ことを特徴とする音声認識装置。
  2. 上記第一の複数のサブワード単位は音素のセットであって、上記第二の複数のサブワード単位は文脈依存音素のセットである、
    ことを特徴とする請求項記載の音声認識装置。
  3. 上記複数の単語列仮説に対するスコア計算は、
    上記単語列仮説からグラフ表現を形成して、該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するようにし、グラフ表現を介する複数の経路に対して、スコアを計算する、
    ことを特徴とする請求項載の音声認識装置。
  4. 上記複数の単語列仮説の決定は、
    該各単語列仮説がグラフ表現を介する経路に連携されるように該グラフ表現を決定する、
    ことを特徴とする請求項記載の音声認識装置。
  5. 複数の通信チャンネルにて受信される発生音を認識する音声認識装置における、話中発声音における単語を認識する音声認識方法において、
    上記音声認識装置は、
    各ディジタル信号処理手段が、1つの信号プロセッサが前記複数の通信チャネルのうちの1つに対応する複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を計算する予備認識部とを有する複数のディジタル信号処理手段と、
    1つの最終認識部上記複数の信号プロセッサのうちの前記1つのプロセッサに対応する複数の最終認識部であって、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段と
    上記予備認識部が、上記話中発声音のためのデータを受け付けて、複数のスコアが第一の複数のサブワード単位で上記時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を計算し、
    上記最終認識部が、上記最終認識部と対応するデジタル信号処理手段からの上記一連の文節に基づいて、上記発声音に連携される複数の単語列仮説を決定し、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算する、
    ことを特徴とする音声認識方法。
  6. 上記複数の単語列仮説に対するスコア計算は、
    該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するように、上記単語列仮説からグラフ表現を形成し、
    グラフ表現を介する複数の経路に対してスコアを計算する、
    ことを特徴とする請求項記載の方法。
  7. 上記グラフ表現を介する複数の経路に対するスコア計算は、
    アルゴリズムに基づいたHidden Markovモデルを用いて経路にスコア付けする、
    ことを特徴とする請求項記載の方法。
  8. 上記複数の単語列仮説の決定は、
    単語列のリストを決定する、
    ことを特徴とする請求項記載の方法。
  9. 上記複数の単語列仮説の決定は、
    各単語列仮説が上記グラフ表現を介する経路に連携されるように単語グラフ表現を決定する、
    ことを特徴とする請求項記載の方法。
JP2000609991A 1999-04-01 1999-04-01 音声認識 Expired - Lifetime JP4636695B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US1999/007365 WO2000060577A1 (en) 1999-04-01 1999-04-01 Multiple stage speech recognizer

Publications (2)

Publication Number Publication Date
JP2002541521A JP2002541521A (ja) 2002-12-03
JP4636695B2 true JP4636695B2 (ja) 2011-02-23

Family

ID=22272498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000609991A Expired - Lifetime JP4636695B2 (ja) 1999-04-01 1999-04-01 音声認識

Country Status (4)

Country Link
EP (1) EP1082719B1 (ja)
JP (1) JP4636695B2 (ja)
AU (1) AU3381299A (ja)
WO (1) WO2000060577A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2359544A1 (en) 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
US10089989B2 (en) 2015-12-07 2018-10-02 Semiconductor Components Industries, Llc Method and apparatus for a low power voice trigger device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
CA2226233C (en) * 1997-01-21 2006-05-09 At&T Corp. Systems and methods for determinizing and minimizing a finite state transducer for speech recognition

Also Published As

Publication number Publication date
AU3381299A (en) 2000-10-23
EP1082719A1 (en) 2001-03-14
WO2000060577A1 (en) 2000-10-12
EP1082719B1 (en) 2013-07-03
JP2002541521A (ja) 2002-12-03

Similar Documents

Publication Publication Date Title
US6757652B1 (en) Multiple stage speech recognizer
US7058573B1 (en) Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
CA2202656C (en) Speech recognition
US6292778B1 (en) Task-independent utterance verification with subword-based minimum verification error training
EP1564722B1 (en) Automatic identification of telephone callers based on voice characteristics
US7392188B2 (en) System and method enabling acoustic barge-in
Navratil Spoken language recognition-a step toward multilinguality in speech processing
JPH1195791A (ja) 音声認識方法
JPH07219578A (ja) 音声認識方法
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
JPH09179581A (ja) 音声認識システム
JP4636695B2 (ja) 音声認識
JP2886117B2 (ja) 音声認識装置
JP2871420B2 (ja) 音声対話システム
Fegyó et al. Voxenter^ TM-intelligent voice enabled call center for hungarian.
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
Rose et al. Speech recognition using automatically derived acoustic baseforms
Hauenstein Using syllables in a hybrid HMM-ANN recognition system.
Zeljkovic et al. Improved HMM phone and triphone models for real-time ASR telephony applications
Krasinski et al. Automatic speech recognition for network call routing
EP0770986A2 (en) Modified discrete word recognition
Mohanty et al. Design of an Odia Voice Dialler System
Jeanrenaud et al. A multimodal, multilingual telephone application: the wildfire electronic assistant
JPH07104782A (ja) 音声認識装置
Nakagawa et al. An evaluation of language identification methods based on HMMs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100629

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350