JP4546555B2 - 話し手に暗黙的に順応する技術を用いた音声認識システム - Google Patents

話し手に暗黙的に順応する技術を用いた音声認識システム Download PDF

Info

Publication number
JP4546555B2
JP4546555B2 JP2008101180A JP2008101180A JP4546555B2 JP 4546555 B2 JP4546555 B2 JP 4546555B2 JP 2008101180 A JP2008101180 A JP 2008101180A JP 2008101180 A JP2008101180 A JP 2008101180A JP 4546555 B2 JP4546555 B2 JP 4546555B2
Authority
JP
Japan
Prior art keywords
pattern matching
matching score
acoustic model
speech recognition
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008101180A
Other languages
English (en)
Other versions
JP2008203876A (ja
Inventor
ナレンドラナス・マラヤス
アンドリュー・ピー・デジャコ
チエンチュン・チャン
スハイル・ジャリル
ニン・ビ
ハリナス・ガルダドリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2008203876A publication Critical patent/JP2008203876A/ja
Application granted granted Critical
Publication of JP4546555B2 publication Critical patent/JP4546555B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephone Function (AREA)
  • Complex Calculations (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声信号処理に係り、更に詳しくは、管理されていない学習によって、性能向上を図る新しい音声認識方法および装置に関する。
音声認識は、ユーザの音声命令を認識したり、機械とのヒューマンインタフェースを容易にするシミュレーション知識を機械に与える最も重要な技術の1つである。音声信号からの言語メッセージを再生する技術を適用したシステムは、音声認識(VR)システムと呼ばれている。図1は、基本的なVRシステムを示す図である。VRシステムは、プレ強調フィルタ102、音響特徴抽出(AFE)ユニット104、およびパターンマッチングエンジン110を備えている。AFEユニット104は、一連のデジタル音声サンプルを、音響特徴ベクトルと呼ばれる一組の測定値(例えば、抽出された周波数成分)に変換する。パターンマッチングエンジン110は、一連の音響特徴ベクトルを、VR音響モデル112に格納されたテンプレートと突き合わせる。一般的に、VRパターンマッチングエンジンは、Dynamic Time Warping(DTW)技術、およびHidden Markov Model(HMM)のうちの何れかを用いている。DTW、HMMともに当該技術では良く知られており、非特許文献1にその詳細が記されている。一連の音響特徴が、音響モデル112内のテンプレートと一致した場合には、この認識されたテンプレートは、例えば入力音声に対応して認識された一連の単語といったような所望の型式による出力を生成する。
上述したように、一般的に音響モデル112は、HMMモデルかDTWモデルかの何れかである。DTW音響モデルは、認識される必要のある単語の各々と関連しているテンプレートのデータベースとして考えることができる。一般に、DTWテンプレートは、関連する単語の多くの例に対して平均された一連の特徴ベクトルから構成されている。一般的に、DTWパターンマッチングは、格納されたテンプレートのうち、入力音声を表す入力特徴ベクトルシーケンスに対して最小の距離を有しているテンプレートの位置を突き止めることによってなされる。音響モデルに基づくHMMに用いられているテンプレートは、関連する音声発声の詳細な統計的記述を含んでいる。一般に、HMMテンプレートは、一連の平均ベクトル、変動ベクトルおよび一組の遷移確率を格納している。これらパラメータは、音声ユニットにおける統計的記述に用いられ、音声ユニットの多くの例から推定される。一般に、HMMパターンマッチングは、入力音声に相当する一連の入力特徴に基づくモデルの各テンプレートに対する確率の生成を含んでいる。最も高い確率をもつテンプレートは、最も確からしい入力発声として選択される。
「学習」(Training)とは、音響モデル112内のテンプレートを生成するために、一人以上の話し手から、特定の音声セグメントまたはシラブルの音声サンプルを収集するプロセスに相当する。音響モデル内の各テンプレートは、特定の単語や、発声クラスと呼ばれる音声セグメントに関連付けられている。同じ発声クラスに関連付けられている音響モデルの中に、複数のテンプレートが存在する場合もありうる。「テスト」(Testing)とは、音響モデル内のテンプレートを、入力音声から抽出された一連の特徴ベクトルに合わせるプロセスに相当する。システムの性能は、エンドユーザの入力音声と、データベースの内容とのマッチング度に大きく依存する。すなわち、学習を通じて作成された参照テンプレートと、VRテストに用いられた音声サンプルとの一致性に依存する。
学習における2つの共通した型式は、管理された学習と、管理されていない学習である。管理された学習では、一組の学習特徴ベクトルのおのおのに関連付けられた発声クラスが、予め知られている。入力音声を提供する話し手には、予め定められた発声クラスに対応した単語または音声のセグメントのスクリプトが与えられる。スクリプトの読み取りの結果得られる特徴ベクトルは、その後、正しい発声クラスに関連付けられた音響モデルテンプレートに組み入れられる。
管理されていない学習では、一組の学習特徴ベクトルのおのおのに関連付けられた発声クラスは、予め知らされていない。一組の学習特徴ベクトルが、正しい音響モデルテンプレートに組み入れられる前に、発声クラスを正しく認識する必要がある。管理されていない学習では、一組の学習特徴ベクトルに対する発声クラスを誤って認識すると、誤った音響モデルテンプレート内の変形をもたらしうる。この誤りは、一般に、音声認識性能を向上することはなく、低下させる。この誤りを回避するために、一般に、管理されていない学習に基づく音響モデルのいかなる変形であっても非常に保守的に扱われねばならない。比較的高い信頼性が高く、発声クラスが正しく認識された場合には、1組の学習特徴ベクトルは、音響モデルに組み込まれる。このような必須の保守性によって、管理されていない学習を介したSD音響モデルの構築は、非常に長時間を要している。SD音響モデルがこのように構築されるまで、VR性能は、ほとんどのユーザに対して受け入れられる程度のレベルにはなりえないであろう。
最適には、エンドユーザは、音響モデル112がエンドユーザの音声に良く一致するように、学習中およびテスト中いずれの期間中であっても音声音響特徴を提供する。一人の話し手に合うように調整された個別の音響モデルは、話し手に依存(SD)する音響モデルとも呼ばれている。一般的に、エンドユーザは、SD音響モデルを生成するために、大量の管理された学習サンプルを提供することが必要となる。第一に、ユーザは、多種多様な発声クラスに対する学習サンプルを提供しなければならない。また、エンドユーザは、優れた性能を得るために、各発声クラスに対する多種多様の可能な音響環境を表現する多数のテンプレートを提供しなければならない。ほとんどのユーザは、SD音響モデルを生成するために必要な入力音声を提供することができないか、したがらない。代わりに、多くの現存するVRシステムでは、一般化された音響モデルを用いている。この音響モデルは、多くの「代表的な」話し手の音声を用いて学習されたものである。このような音響モデルは、話し手に依存しない(SI)音響モデルと称され、広範なユーザに対して最良の性能を有するように設計されている。しかしながら、SI音響モデルは、いかなる特定のユーザに最適化されたものではない。SI音響モデルを使うVRシステムは、特定ユーザに合うように調整されたSD音響モデルを使用したVRシステムほど、特定ユーザに対し良好には機能しない。強い外国アクセントを持つユーザにとっては、SI音響モデルを使ったVRシステムは性能が低すぎ、VRサービスは全く効果的ではない。
最適には、SD音響モデルは、各個別ユーザに対して生成される。上述したように、管理された学習を適用してSD音響モデルを構築することは、現実的ではない。一方で、管理されていない学習を適用してSD音響モデルを生成することは、長い時間を要してしまい、この間における部分的なSD音響モデルに基づくVR性能は、極めて乏しいものとなりうる。したがって、管理されていない学習を適用したSD音響モデルの生成前および生成中において、良好に機能するようなVRシステム向けの技術ニーズがある。
Rabiner, L. R. and Juang, B. H., FUNDAMENTALS OF SPEECH RECOGNITION, Prentice Hall, 1993.
発明の概要
ここで開示された方法および装置は、斬新でかつ改良された音声認識(VR)システムに関する。このシステムは、話し手に依存しない(SI)音響モデルと、話し手に依存する(SD)音響モデルとを組み合わせて利用する。純粋なSI音響モデルと少なくとも等しい音声認識レベルを与えるために、少なくとも1つのSI音響モデルと、少なくとも1つのSD音響モデルとを組み合わせて使用している。開示されたハイブリット型のSI/SD VRシステムは、管理されていない学習を連続的に行うことによって、1つ以上の音響モデル内の音響テンプレートを更新する。ハイブリット型のVRシステムは、その後、更新したSD音響モデルを、少なくとも1つのSI音響モデルと組み合わせて使用する。これによって、VRテスト中であっても高いVR性能を実現する。
本明細書では、「典型的」という用語を、実施例、具体例、あるいは例示の説明に使用している。なお、「典型的」と記載された実施例には、必ずしも他の実施例よりも好適であったり有利な点がある訳ではないものと捉えて頂きたい。
詳細説明
図2は、無線遠隔局202内に適用されうるハイブリット型の音声認識(VR)システムの典型的な実施例を示す図である。典型的な実施例において、遠隔局202は無線チャンネル(図示せず)を介して無線通信ネットワーク(図示せず)と通信する。例えば、遠隔局202は、無線電話システムと通話する無線電話でありうる。当業者であれば、ここに記載された技術は、固定型(携帯ではなく)すなわち無線チャンネルを含まないVRシステムにも同様に適用されうることを認識するであろう。
記載された実施例では、ユーザからの音声信号は、マイクロフォン(MIC)210において電気信号に変換され、A/Dコンバータ(ADC)212においてデジタル音声サンプルに変換される。その後、このデジタルサンプルのストリームは、プレ強調(PE)フィルタ214においてフィルタリングされる。フィルタ214は、例えば、低周波数の信号成分を弱めるような限定的なインパルス応答(FIR)フィルタである。
フィルタされたサンプルはその後、音響特徴抽出(AFE)ユニット216において解析される。AFEユニット216は、デジタル音声サンプルを音響特徴ベクトルに変換する。典型的な実施例では、AFEユニット216は連続的なデジタルサンプルのセグメントについてフーリエ変換を行い、異なる周波数ビンに対応する信号強度のベクトルを生成する。典型的な実施例では、周波数ビンは、バークスケール(bark scale)に従って変化するバンド幅を持っている。バークスケールでは、各周波数ビンのバンド幅は、高周波数のビンが、低周波数のビンよりも、より広いバンド幅を持つように、ビンの中心周波数に対する関係に影響を与える。バークスケールは、非特許文献1に記載されており、当該分野では良く知られている。
典型的な実施例では、各音響特徴ベクトルが、固定された時間間隔にわたって取得された一連の音声サンプルから抽出される。典型的な実施例では、この時間間隔は重なり合う。例えば、音響特徴は、10ミリ秒毎に発生する音声データから20ミリ秒間隔で取得される。これによって、各2つの連続した間隔は、10ミリ秒の間隔を共有する。当業者であれば、ここで記載された実施例の範囲から逸脱することなくこの時間間隔を重なり合わないようにしたり、あるいは固定化されていない持続時間を有するようにすることも可能であることを認識するであろう。
AFEユニット216によって生成された音響特徴ベクトルは、VRエンジン220に提供される。VRエンジン220は、パターンマッチングを行い、1つ以上の音響モデル230,232,234の内容に基づいて音響特徴ベクトルを特徴付ける。
図2に示す典型的な実施例では、3つの音響モデルが示されている。すなわち、話し手に依存しない(SI)HMMモデル(SIHMMモデル)230と、話し手に依存しない(SI)DTWモデル(SIDTWモデル)232と、話し手に依存する(SD)音響モデル234である。当業者であれば、SI音響モデルの他の組合せもまた別の実施例で使用されうることを認識するであろう。例えば、遠隔局202は、SIHMM音響モデル230と、SD音響モデル234とを含み、SIDTW音響モデル232を省略することもできる。その代わりに、遠隔局202は、1つのSIHMM音響モデル230と、SD音響モデル234と、2つの異なるSIDTW音響モデル232とを備える場合もある。さらに、当業者であれば、SD音響モデル234は、HMMタイプあるいはDTWタイプ、またはこれらの組合せとすることも認識するであろう。典型的な実施例では、SD音響モデル234はDTW音響モデル(SDDTWモデル)である。
上述したように、VRエンジン220は、音響特徴ベクトルと、1つ以上の音響モデル230,232,234の内容とのマッチング度を判定するパターンマッチングを行う。典型的な実施例では、VRエンジン220は、音響特徴ベクトルと、音響モデル230,232,234の各々における異なる音響テンプレートとのマッチング度に基づいてマッチングスコアを生成する。例えば、VRエンジン220は、1組の音響特徴ベクトルと、SIHMM音響モデル230内の複数のHMMテンプレートとのマッチング度に基づいてHMMマッチングスコアを生成する。同様に、VRエンジン220は、音響特徴ベクトルと、SIDTW音響モデル232内の複数のDTWテンプレートとのマッチング度に基づいてDTWマッチングスコアを生成する。VRエンジン220は、音響特徴ベクトルと、SD音響モデル234内のテンプレートとのマッチング度に基づいてマッチングスコアを生成する。
上述したように、音響モデル内の各テンプレートは、発声クラスと関連している。典型的な実施例では、VRエンジン220は、同一の発声クラスに関連付けられたテンプレートに対するスコアを結合し、管理されていない学習において用いられる結合マッチングスコアを作成する。例えば、VRエンジン220は、1組の入力音響特徴ベクトルの相関から得られるSIHMMスコアとSIDTWスコアとを結合し、結合SIスコアを生成する。結合マッチングスコアに基づいて、VRエンジン220は、1組の入力音響特徴ベクトルを、SD音響モデル234内のSDテンプレートとして格納するか否かを決定する。典型的な実施例では、SD音響モデル234を更新するために、限定的なSIマッチングスコアを用いて、管理されていない学習が行われる。これによって、管理されていない学習に対するSD音響モデル234の導出から別の結果が発生するような付加的な誤りを阻止する。管理されていない学習の典型的な方法について、以下に更に詳しく記載する。
管理されていない学習に加えて、VRエンジン220は、テスト中に種々の音響モデル230,232,234を使用する。典型的な実施例では、VRエンジン220は、音響モデル230,232,234からマッチングスコアを取得し、各発声クラスに対する結合マッチングスコアを生成する。結合マッチングスコアは、入力音声に最も良く一致する発声クラスを選択するために使用される。VRエンジン220は、連続した発声クラスを必要に応じて集め、単語全体または句全体を認識する。その後、VRエンジン220は、認識した単語または句を制御プロセッサ222に提供する。制御プロセッサ222は、この情報を用いて音声情報または音声命令に対する適切な応答を決定する。例えば、制御プロセッサ222は、認識された単語または句に応答して、ディスプレイまたは他のユーザインタフェースを介してユーザにフィードバックする。もう1つの実施例では、制御プロセッサ222は、無線モデム218とアンテナ224を介して無線ネットワーク(図示せず)にメッセージを伝送し、名前が発声され認識された人に関連付けられた呼出電話番号に対するモバイル電話呼出を開始する。
無線モデム218は、CDMA、TDMA、あるいはFDMAを含む種々の無線チャンネル型式のうちの何れかを介して信号を送信しうる。更に、無線モデム218は、記載された実施例の範囲を逸脱しない無線以外のチャンネルを介して通信する他の型式の通信インタフェースに置き換えることもできる。例えば、遠隔局202は、ランドラインモデム、T1/E1、ISDN、DSL、イーサネット(登録商標)、あるいはプリント回路基板(PCB:printed circuit board)上の均一なトレースを含む様々な型式の通信チャンネルの何れかを介して信号情報を送信しうる。
図3は、管理されていない学習の好適な実施方法を示すフローチャートである。ステップ302では、アナログ音声データが、A/Dコンバータ(ADC)212によってサンプリングされる。その後、ステップ304では、デジタルサンプルストリームが、プレ強調(PE)フィルタ214によってフィルタリングされる。ステップ306では、音響特徴抽出(AFE)ユニット216によって、フィルタリングされたサンプルから、入力音響特徴ベクトルが抽出される。VRエンジン220は、AFEユニット216から入力音響特徴ベクトルを受け取り、SI音響モデル230,232の内容に対するパターンマッチングを行う。ステップ308では、VRエンジン220は、パターンマッチングの結果からマッチングスコアを生成する。VRエンジン220は、入力音響特徴ベクトルとSIHMM音響モデル230とのマッチングを行い、SIHMMマッチングスコアを生成する。また、入力音響特徴ベクトルとSIDTW音響モデル232とのマッチングを行い、SIDTWマッチングスコアを生成する。SHIMM音響モデル230およびSIDTW音響モデル232内の各音響テンプレートは、特定の発声クラスに関連付けられている。ステップ310では、SIHMMスコアとSIDTWスコアとが結合され、結合マッチングスコアが生成される。
図4は、管理されていない学習に使用される結合マッチングスコアの生成方法を示す図である。図示された典型的な実施例では、特定の発声クラスに対応する話し手に依存しない結合マッチングスコアSCOMB_SIは、図4中に示す式1に従って求められる。ここで、SIHMMは、目標発声クラスに対するSHIMMマッチングスコアである。SIHMMNTは、目標ではない発声クラス(目標発声クラス以外の発声クラス)に関連付けられているSIHMM音響モデル内のテンプレートに対して2番目に良いマッチングスコアである。SIHMMは、「ガーベッジ」(garbage)発声クラスに対するSIHMMマッチングスコアである。SIDTWは、目標発声クラスに対するSIDTWマッチングスコアである。SIDTWNTは、目標ではない発声クラスに関連付けられているSIDTW音響モデル内のテンプレートに対して2番目に良いマッチングスコアである。SIDTWは、「ガーベッジ」発声クラスに対するSIDTWマッチングスコアである。
各マッチングスコアSIHMM、SIDTWは、一連の入力音響特徴ベクトルと、音響モデル内のテンプレートとの間の距離を表すものとみなされうる。入力音響特徴ベクトルとテンプレートとの間の距離が大きくなるにつれて、マッチングスコアもまたより大きな値となる。テンプレートと入力音響特徴ベクトルとが近い場合には、マッチングスコアは小さな値となる。仮に、一連の入力音響特徴ベクトルを、異なる発声クラスに関連付けられている2つのテンプレートと比較することによって、ほとんど等しい2つのマッチングスコアが生成された場合には、VRシステムは、いずれも「正しい」発声クラスであるとは認めることができないであろう。
SIHMMとSIDTWは、「ガーベッジ」発声クラスに対するマッチングスコアである。不要な発声クラスに関連付けられたテンプレートは、「ガーベッジ」テンプレートと呼ばれ、特定の単語、あるいは特定の句の何れにも関連していない。このような理由によって、各テンプレートは、全ての入力音声に対して等しく対応付けられない傾向になる。ガーベッジのマッチングスコアは、VRシステムにおけるノイズフロア測定の一種として有益である。一般に、一連の入力音響特徴ベクトルは、発声クラスが確実に認識される前に、ガーベッジテンプレートよりも、目標発声クラスに関連付けられたテンプレートに対してより高いマッチング度を持つべきである。
VRシステムが、発声クラスを確実に「正しい」と認識する前に、入力音響特徴ベクトルは、他の発声クラスに関連付けられたガーベッジテンプレートよりも、該発声クラスに関連付けられたテンプレートに対してより高いマッチング度を持つべきである。種々の音響モデルから生成された結合マッチングスコアは、単に1つの音響モデルに基づくマッチングスコアよりも、発声クラスを確実に区別することができる。典型的な実施例では、VRシステムはこのような結合マッチングスコアを使用することによって、SD音響モデル234内のテンプレートを、新たな一組の入力音響特徴ベクトルから作成されたテンプレートと交換すべきか否かを判定する。
重みファクタ(W・・・W)は、全ての音響環境にわたって最良の学習性能を提供するように選択される。典型的な実施例では、重みファクタ(W・・・W)は、全ての発声クラスに対して一定である。言い換えると、第1の目標発声クラスに対する結合マッチングスコアを生成するために用いられるWは、もう一つの目標発声クラスに対する結合マッチングスコアを生成するために用いられるWと等しい。別の実施例では、重みファクタは、目標発声クラスに基づいて変化する。図4に示す結合の他の方法は、当業者にとっては明らかであり、ここに記載された他の実施例の範囲内とみなされる。例えば、7つ以上の、あるいは6未満の重み入力もまた使用されうる。また別の変形例では、1つの型式の音響モデルに基づいて結合マッチングスコアを生成する。例えば、結合マッチングスコアは、SIHMM、SIHMMNT、およびSIHMMに基づいて生成されうる。あるいは、SIDTW、SIDTWNT、およびSIDTWに基づいて結合マッチングスコアが生成されうる。
典型的な実施例では、WおよびWは負の値であり、SCOMBの値がより大きい(すなわち、より負の値である)と、目標発声クラスと一連の入力音響特徴ベクトルとのマッチング程度がより大きくなる(より距離が小さくなる)。当業者であれば、開示された実施例の範囲を超えることなく、大きなマッチング度ほどより小さな値を示すように、重みファクタの符号を、容易に変えられうることがわかるであろう。
図3に戻り、ステップ310では、HMM音響モデル230およびDTW音響モデル232内のテンプレートに関連付けられた発声クラスに対する結合マッチングスコアが生成される。典型的な実施例では、好ましいn個のSIHMMマッチングスコアに関連付けられた発声クラス、および好ましいm個のSIDTWマッチングスコアに関連付けられた発声クラスに対してのみ結合マッチングスコアが生成される。個々のマッチングスコアを生成する間に大量の計算力が消費されるので、この制約は、計算資源の確保の観点から望ましい。例えば、nとmとがともに3である場合、結合マッチングスコアは、上から3つのSIHMMマッチングスコアに関連付けられた発声クラスと、上から3つのSIDTWマッチングスコアに関連付けられた発声クラスに対して生成される。この方法では、上から3つのSIHMMマッチングスコアに関連付けられた発声クラスが、上から3つのSIDTWマッチングスコアに関連付けられた発声クラスと同じであるか否かに基づいて、3つから6つの異なる結合マッチングスコアを生成する。
ステップ312では、遠隔局202は、結合マッチングスコアと、SD音響モデル内の対応するテンプレート(同じ発声クラスに関連付けられたもの)の結合マッチングスコアとを比較する。仮に、新たな一連の入力音響特徴ベクトルから得られた結合マッチングスコアが、同じ発声クラスに関連付けられたSDモデルに属する古いテンプレートの結合マッチングスコアよりも大きなマッチング度を有している場合には、新たな一連の入力音響特徴ベクトルから新たなSDテンプレートが作成される。SD音響モデルがDTW音響モデルである実施例では、一連の入力音響特徴ベクトル自身が新たなSDテンプレートを構成している。その後、古いテンプレートは、新たなテンプレートと交換され、新たなテンプレートに関連付けられた結合マッチングスコアは、SD音響モデル内に格納され、将来の比較に供される。
別の実施例では、管理されていない学習は、話し手に依存するHMM(SDHMM)音響モデル内の1つ以上のテンプレートを更新するために用いられる。SDHMM音響モデルは、SDDTWモデルの代わりか、またはSD音響モデル234内のSDDTW音響モデルに付加されて使用される。
典型的な実施例では、ステップ312における比較は、見込みのある新たなSDテンプレートの結合マッチングスコアと、一定の学習閾値との比較もまた含んでいる。仮に、特定の発声クラスについてSD音響モデル内に未だテンプレートが格納されていなくても、学習閾値よりも大きな結合マッチングスコアを有していれば、新たなテンプレートは、SD音響モデル内には格納されない。
別の実施例では、SD音響モデル内における全てのテンプレートが交換される前に、SI音響モデルからのテンプレートによってSD音響モデルがデフォルト設定される。このような初期設定によって、SD音響モデルを用いたVR性能が、SI音響モデルを単に用いているVR性能と少なくとも同程度に出発することを保証する別の方法を提供する。SD音響モデル内のテンプレートがより多く更新されることによって、SD音響モデルを使ったVR性能は、単にSI音響モデルを使用したVR性能を超えるようになる。
別の実施例では、VRシステムによって、ユーザは、管理された学習を実行することが可能となる。ユーザは、管理された学習を実行する前に、VRシステムを、管理された学習モードに設定しなければならない。管理された学習の間、VRシステムは、正しい発声クラスの演繹的な知識を有する。仮に、入力音声に対する結合マッチングスコアが、該発声クラスに対して以前に格納されているSDテンプレートに対する結合マッチングスコアよりも良い場合には、入力音声が交換用SDテンプレートを生成するために用いられる。別の実施例では、ユーザは、VRシステムによって、管理された学習中において存在するSDテンプレートを強制的に交換することができる。
SD音響モデルは、1つの発声クラスについて複数(2つ以上)のテンプレートのための場所を有するように設定されうる。典型的な実施例では、各発声クラスに対して、SD音響モデル内に2つのテンプレートが格納される。従って、ステップ312における比較は、新たなテンプレートとともに得られたマッチングスコアと、同一の発声クラスについてのSD音響モデル内の両方のテンプレートから得られたマッチングスコアとの比較を伴う。仮に、新たなテンプレートが、SD音響モデル内の古いテンプレートの何れか一方よりも良いマッチングスコアである場合には、ステップ314において、最悪のマッチングスコアを有するSD音響モデルテンプレートが新たなテンプレートと交換される。仮に、新たなテンプレートのマッチングスコアが、古いテンプレートの何れか一方よりも良くない場合には、ステップ314はスキップされる。更に、ステップ312では、新たなテンプレートによって取得されたマッチングスコアは、マッチングスコア閾値と比較される。よって、閾値よりも良いマッチングスコアを有する新たなテンプレートがSD音響モデル内に格納されるまでは、新たなテンプレートが、閾値と比較された後に、SD音響モデル内の以前の内容を上書きするために用いられる。SD音響モデルテンプレートを、結合マッチングスコアに従った手順で格納し、新たなマッチングスコアを最低値と比較するような明らかな変形例もまた想定される。このような変形例は、ここで開示された実施例の範囲であると解される。各発声クラスに対する音響モデルに格納された多数のテンプレートについての明らかな変形例もまた、想定される。例えば、SD音響モデルは、各発声クラスに対して3つ以上のテンプレートを備えうる。あるいは、異なる発声クラスに対して多数の異なるテンプレートを備えうる。
図5は、SI音響モデルとSD音響モデルとの組合せを用いたVRテストを実行するための典型的な方法を示すフローチャートである。ステップ302,304,306および308は、図3に記載したものと同じである。この典型的な方法では、ステップ510において、図3で示した方法と異なる。ステップ510では、入力音響特徴ベクトルと、SD音響モデル内のテンプレートとの比較に基づいて、VRエンジン220がSDマッチングスコアを生成する。典型的な実施例では、好ましいn個のSIHMMマッチングスコアと、好ましいm個のSIDTWマッチングスコアとに関連付けられている発声クラスに対してのみSDマッチングスコアが生成される。典型的な実施例では、n、mともに3である。発声クラスの2つの組の間の重なり度合いによって、この結果は、3つから6つの発声クラスに対するSDマッチングスコアを生成することになる。上述したように、SD音響モデルは、単一の発声クラスに対して複数のテンプレートを備えうる。ステップ512では、VRエンジン220は、VRテストにおいて使用するために、ハイブリットの結合マッチングスコアを生成する。典型的な実施例では、これらのハイブリッドの結合マッチングスコアは、個々のSIマッチングスコアと個々のSDマッチングスコアとの両方に基づいている。ステップ514では、最も良い結合マッチングスコアを有する単語または発声が選択され、テスト閾値と比較される。仮に、結合マッチングスコアがテスト閾値を超える場合には、発声のみが認識される。典型的な実施例において、学習についての結合スコアを生成する(図4に示す)ために用いられる重み[W・・・W]は、テストについての結合スコアを生成する(図6に示す)ために用いられる重み[W・・・W]と等しい。しかしながら、学習閾値と、テスト閾値とは等しくない。
図6は、ステップ512でなされるハイブリットの結合マッチングスコアの生成を示す図である。この典型的な実施例は、重みファクタWがSIDTWに代わってDTWに適用されていること、また重みファクタWがSIDTWNTに代わってDTWNTに適用されていることを除いて図4に示すものと同一である。DTW(目標発声クラスに対する動的時間歪みマッチングスコア)は、目標発声クラスに関連付けられた最良のSIDTWスコアおよびSDDTWスコアから選択される。同様に、DTWNT(残りの目標ではない発声クラスに対する動的時間歪みマッチングスコア)は、目標ではない発声クラスに関連付けられた最良のSIDTWスコアおよびSDDTWスコアから選択される。
特定の発声クラスのためのSI/SDハイブリッドスコアSCOMB_は、図6中に示す式2にしたがって求められる。ここで、SIHMM、SIHMMNT、SIHMM、およびSIDTWは式1に示すものと同じである。特に、式2において、SIHMMは、目標発声クラスに対するSIHMMマッチングスコアである。SIHMMNTは、目標ではない発声クラス(目標発声クラス以外の発声クラス)に関連付けられているSIHMM音響モデル内のテンプレートに対する2番目に良いマッチングスコアである。SIHMMは、「ガーベッジ」発声クラスに対するSIHMMマッチングスコアである。DTWは、目標発声クラスに対応するSIテンプレートおよびSDテンプレートに対する最良のDTWマッチングスコアである。DTWNTは、目標ではない発声クラスに対応するSIテンプレートおよびSDテンプレートに対する最良のDTWマッチングスコアである。SIDTWは、「ガーベッジ」発声クラスに対するSIDTWマッチングスコアである。従って、SI/SDハイブリッドスコアSCOMB_は、個々のSIマッチングスコアとSDマッチングスコアとの組み合わせである。結果として得られる結合マッチングスコアは、SI音響モデルまたはSD音響モデルのうちのいずれにも完全に基づいている訳ではない。仮に、マッチングスコアSIDTWがどのSDDTWスコアよりも良い場合には、SI/SDハイブリットスコアは、良好なSIDTWスコアから計算される。同様に、仮に、マッチングスコアSDDTWが何れのSIDTWよりも良い場合には、SI/SDハイブリットスコアは、良好なSDDTWスコアから計算される。結果として、仮に、SD音響モデル内のテンプレートが、低いマッチングスコアになった場合には、VRシステムは、SI/SDハイブリッドスコアのSI部分に基づいて入力音声を認識する。そのような低いSDマッチングスコアは、様々な原因による。その原因として、学習中における音響環境とテスト中における音響環境との違いや、学習に使われた貧弱な品質の入力が含まれる。
別の実施例では、SIスコアを、SDスコアほど重み付けないか、全く無視する。例えば、DTWは、目標発声クラスに対するSIDTWスコアを無視して、目標発声クラスに関連付けられたSDDTWスコアの中の最良のものから選択される。更に、DTWNTは、両方のスコアの組を使う代わりに、目標ではない発声クラスに関連付けられたSIDTWスコアまたはSDDTWスコアのうちの何れかのうちの最良のものから選択される。
この典型的な実施例は、話し手に依存するモデルにおいてはSDDTW音響モデルのみを用いて記載されているが、ここで記載されているハイブリッド処理は、SDHMM音響モデルを用いたVRシステムや、SDDTW音響モデルとSDHMM音響モデルとの組み合わせに対しても等しく適用できるものである。例えば、図6に示す処理を変形することによって、重みファクタWは、SIHMMスコアおよびSDHMMスコアのうちの最良のものから選択されるマッチングスコアに適用することも可能でありうる。重みファクタWは、SIHMMNTスコアおよびSDHMMNTスコアのうちの最良のものから選択されるマッチングスコアに適用することも可能でありうる。
すなわち、ここで開示した技術は、管理されていない学習およびテスト中において、VR性能を改善するために、SI音響モデルとSD音響モデルとを組み合わせて利用したVR方法および装置である。当業者であれば、これら情報および信号が、種々異なった技術や技法を用いて表されることを理解するであろう。例えば、上述した記載で引用されているデータ、手順、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学微粒子、あるいはこれら何れかの結合によって表現されうる。また、実施例は第一に、Dynamic Time Warping(DTW)音響モデル、あるいはHidden Markov Model(HMM)音響モデルに関連して説明されているが、記載された技術は、ニューラルネットワーク音響モデルなど他の型式の音響のモデルに対しても適用しうる。
これらの知識によって、ここで開示された実施例に関連する様々に例示された論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子工学ハードウェア、コンピュータソフトウェア、あるいはこれらの組み合わせとして適用されることが更に理解されよう。ハードウェアとソフトウェアとの相互互換性を明確に説明するために、様々に例示された部品、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に記述された。それら機能がハードウェアとしてあるいはソフトウェアとして適用されているかは、特有の応用例および全体システムに課せられている設計条件による。熟練した技術者であれば、各特定のアプリケーションに応じて変更することによって上述した機能を実施しうる。しかしながら、この適用判断は、本発明の範囲から逸脱したものと解釈すべきではない。
様々に示された論理ブロック、モジュール、および上述された実施例に関連して記載された回路もまた実装され、汎用プロセッサ、デジタル信号プロセッサ(DSP)、アプリケーションに固有の集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)またはその他のプログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタ論理、ディスクリートハードウェア部品、あるいは上述された機能を実現するために設計された何れかの組み合わせとともに実行されうる。汎用プロセッサとしてマイクロプロセッサを用いることが可能であるが、代わりに、従来技術によるプロセッサ、コントローラ、マイクロコントローラ、あるいは状態機器を用いることも可能である。プロセッサは、たとえばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに接続された1つ以上のマイクロプロセッサ、またはその他の配置のような計算デバイスの組み合わせとして実装することも可能である。
ここで開示された実施例に関連して記述された方法やアルゴリズムのステップは、ハードウェアや、プロセッサによって実行されるソフトウェアモジュールや、これらの組み合わせによって直接的に具現化される。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、あるいは当該技術分野で知られているその他の型式の記憶媒体に収納されうる。好適な記憶媒体は、プロセッサがそこから情報を読み取り、またそこに情報を書き込むことができるようにプロセッサに結合される。または、記憶媒体はプロセッサに不可欠となりうる。このプロセッサと記憶媒体は、ASICに収納することができる。または、このプロセッサと記憶媒体が、ユーザ端末におけるディスクリートな部品として収納されることもある。
開示された実施例における上述の記載は、いかなる当業者であっても、本発明の活用または利用を可能とするようになされている。これらの実施例への様々な変形例もまた、当業者に対しては明らかであって、ここで定義された一般的な原理は、本発明の主旨または範囲を逸脱しない他の実施例にも適用されうる。このように、本発明は、上記で示された実施例に制限されるものではなく、ここで記載された原理と新規の特徴に一致した広い範囲に相当するものを意図している。
基本的な音声認識システムを示す図。 典型的な実施例に対応する音声認識システムを示す図。 管理されていない学習を実行するための方法を示すフローチャート。 管理されていない学習に使用される結合マッチングスコアを生成するための典型的な方法を示す図。 話し手に依存しない(SI)マッチングスコアと、話し手に依存する(SD)マッチングスコアとを用いた音声認識(テスト)を実行する方法を示すフローチャート。 話し手に依存しない(SI)マッチングスコアと、話し手に依存する(SD)マッチングスコアとから、結合マッチングスコアを生成するための方法を示す図。

Claims (19)

  1. 音声認識装置であって、
    話し手に依存せず、特定の発声クラスに関連付けられた1又は複数の第1の音響モデルテンプレートを格納する第1の格納部と、
    話し手のために生成され話し手に依存し、特定の発声クラスに関連付けられた1又は複数の第2の音響モデルテンプレートを格納する第2の格納部と、
    音声認識エンジンと、
    管理されていない音声認識学習と音声認識テストを実行するための命令のセットを格納するコンピュータ読み取り可能なメディアとを備え、
    前記命令のセットは、
    前記話し手からの入力音声と、前記第1及び第2の各音響モデルテンプレートとのパターンマッチングを行い、前記各パターンマッチングの結果として第1及び第2のパターンマッチングスコアをそれぞれ生成し、
    同じ発声クラスに関連付けられた前記第1の音響モデルテンプレートについて生成された第1のパターンマッチングスコアと、前記第2の音響モデルテンプレートについて生成された第2のパターンマッチングスコアとを比較し、
    前記第1のパターンマッチングスコアの方が、前記第2のパターンマッチングスコアよりも大きい場合には、前記第1のパターンマッチングスコアが生成された前記第1の音響モデルテンプレートを、前記第2の格納部に、新たな第2の音響モデルテンプレートとして格納するように適応された音声認識装置であって、
    前記第1のパターンマッチングスコアを生成することはさらに、
    前記話し手からの入力音声と、少なくとも1つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも1つのHidden Markov Modelマッチングスコアを生成することと、
    前記話し手からの入力音声と、少なくとも1つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも1つのDynamic Time Warpingマッチングスコアを生成することと、
    前記少なくとも1つのHidden Markov Modelマッチングスコアと、前記少なくとも1つのDynamic Time Warpingマッチングスコアとについて少なくとも1つの重み加算を行い、前記第1のパターンマッチングスコアを生成することと
    を備える音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルを備える音声認識装置。
  3. 請求項1に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。
  4. 請求項1に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルと、少なくとも1つのDynamic Time Warping音響モデルとを備える音声認識装置。
  5. 請求項1に記載の音声認識装置において、
    前記話し手に依存しない音響モデルテンプレートは、少なくとも1つのガーベッジテンプレートを含む音声認識装置。
  6. 請求項1に記載の音声認識装置において、
    前記話し手に依存する音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。
  7. 請求項1に記載の音声認識装置において、
    前記命令のセットは更に、
    前記話し手からの第2の入力音声のセグメントと、前記第1及び第2の各音響モデルテンプレートとのパターンマッチングを行い、前記パターンマッチングの結果として第3及び第4のパターンマッチングスコアをそれぞれ生成し、前記第3のパターンマッチングスコアと前記第4のパターンマッチングスコアとが結合された少なくとも1つの結合パターンマッチングスコアを生成するように前記音声認識エンジンを設定し、
    最良の結合パターンマッチングスコアを持つ、特定の単語又は入力音声のセグメントである発声クラスを認識する
    ように適応された音声認識装置。
  8. 請求項7に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルを備える音声認識装置。
  9. 請求項7に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。
  10. 請求項7に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルと、少なくとも1つのDynamic Time Warping音響モデルとを備える音声認識装置。
  11. 請求項7に記載の音声認識装置において、
    前記話し手に依存する音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。
  12. 請求項1に記載の音声認識装置において、
    前記話し手からの入力音声のセグメントと、前記第2の音響モデルテンプレートとのパターンマッチングを行い、少なくとも1つの前記第2のパターンマッチングスコアを生成する手段と、
    少なくとも1つの前記第1のパターンマッチングスコアを、前記少なくとも1つの前記第2のパターンマッチングスコアと結合し、少なくとも1つの結合パターンマッチングスコアを生成する手段と
    を更に備える音声認識装置。
  13. 請求項12に記載の音声認識装置において、
    前記少なくとも1つの前記第2のパターンマッチングスコアを生成する手段と、前記少なくとも1つの結合パターンマッチングスコアを生成する手段とを、前記音声認識エンジン内に組み込んだ音声認識装置。
  14. 請求項12に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルを備える音声認識装置。
  15. 請求項12に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。
  16. 請求項12に記載の音声認識装置において、
    前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルと、少なくとも1つのDynamic Time Warping音響モデルとを備える音声認識装置。
  17. 請求項12に記載の音声認識装置において、
    前記話し手に依存する音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。
  18. 音声認識のために、管理されていない学習を実行する方法であって、
    第1の入力音声セグメントと、少なくとも1つの話し手に依存しない音響テンプレートとのパターンマッチングを行い、少なくとも1つの第1のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行うことと、
    前記第1の入力音声セグメントと、前記認識された発声クラスに対応する、話し手に依存するモデルの、格納された音響テンプレートとのパターンマッチングを行い、第2のパターンマッチングスコアを生成することと、
    前記第1のパターンマッチングスコアと、前記第2のパターンマッチングスコアとを比較することと、
    前記比較の結果、前記第1のパターンマッチングスコアが、前記第2のパターンマッチングスコアよりも大きいのであれば、前記格納された音響テンプレートを、前記第1の入力音声セグメントから導出される新たなテンプレートと交換することとを備え、
    前記少なくとも第1のパターンマッチングスコアを生成することは更に、
    前記第1の入力音声セグメントと、少なくとも1つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも1つのHidden Markov Modelマッチングスコアを生成することと、
    前記第1の入力音声セグメントと、少なくとも1つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも1つのDynamic Time Warpingマッチングスコアを生成することと、
    前記少なくとも1つのHidden Markov Modelマッチングスコアと、前記少なくとも1つのDynamic Time Warpingマッチングスコアとについて少なくとも1つの重み加算を行い、前記少なくとも第1の入力パターンマッチングスコアを生成することと
    を備える方法。
  19. 音声認識のために、管理されてない学習を実行する装置であって、
    第1の入力音声セグメントと、少なくとも1つの話し手に依存しない音響テンプレートとのパターンマッチングを行い、少なくとも1つの第1のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行う手段と、
    前記第1の入力音声セグメントと、前記認識された発声クラスに対応する、話し手に依存するモデルの、格納された音響テンプレートとのパターンマッチングを行い、第2のパターンマッチングスコアを生成し、前記第1のパターンマッチングスコアと、前記第2のパターンマッチングスコアとを比較する手段と、
    前記比較の結果、前記第1のパターンマッチングスコアが、前記第2のパターンマッチングスコアよりも大きいのであれば、前記格納された音響テンプレートを、前記第1の入力音声セグメントから導出される新たなテンプレートと交換する手段とを備え、
    少なくとも1つの第1のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行う手段はさらに、
    前記第1の入力音声セグメントと、少なくとも1つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも1つのHidden Markov Modelマッチングスコアを生成し、
    前記第1の入力音声セグメントと、少なくとも1つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも1つのDynamic Time Warpingマッチングスコアを生成し、
    前記少なくとも1つのHidden Markov Modelマッチングスコアと、前記少なくとも1つのDynamic Time Warpingマッチングスコアとについて少なくとも1つの重み加算を行い、前記少なくとも第1の入力パターンマッチングスコアを生成する装置。
JP2008101180A 2001-03-28 2008-04-09 話し手に暗黙的に順応する技術を用いた音声認識システム Expired - Fee Related JP4546555B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/821,606 US20020143540A1 (en) 2001-03-28 2001-03-28 Voice recognition system using implicit speaker adaptation

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002578283A Division JP2004530155A (ja) 2001-03-28 2002-03-22 話し手に暗黙的に順応する技術を用いた音声認識システム

Publications (2)

Publication Number Publication Date
JP2008203876A JP2008203876A (ja) 2008-09-04
JP4546555B2 true JP4546555B2 (ja) 2010-09-15

Family

ID=25233818

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2002578283A Withdrawn JP2004530155A (ja) 2001-03-28 2002-03-22 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2007279235A Expired - Fee Related JP4546512B2 (ja) 2001-03-28 2007-10-26 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2008101180A Expired - Fee Related JP4546555B2 (ja) 2001-03-28 2008-04-09 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2010096043A Pending JP2010211221A (ja) 2001-03-28 2010-04-19 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2013041687A Pending JP2013152475A (ja) 2001-03-28 2013-03-04 話し手に暗黙的に順応する技術を用いた音声認識システム

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2002578283A Withdrawn JP2004530155A (ja) 2001-03-28 2002-03-22 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2007279235A Expired - Fee Related JP4546512B2 (ja) 2001-03-28 2007-10-26 話し手に暗黙的に順応する技術を用いた音声認識システム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2010096043A Pending JP2010211221A (ja) 2001-03-28 2010-04-19 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2013041687A Pending JP2013152475A (ja) 2001-03-28 2013-03-04 話し手に暗黙的に順応する技術を用いた音声認識システム

Country Status (13)

Country Link
US (1) US20020143540A1 (ja)
EP (3) EP1850324B1 (ja)
JP (5) JP2004530155A (ja)
KR (6) KR100933108B1 (ja)
CN (3) CN101221759B (ja)
AT (3) ATE443316T1 (ja)
AU (1) AU2002255863A1 (ja)
DE (2) DE60233763D1 (ja)
DK (1) DK1374223T3 (ja)
ES (3) ES2330857T3 (ja)
HK (2) HK1092269A1 (ja)
TW (1) TW577043B (ja)
WO (1) WO2002080142A2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7440894B2 (en) 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
WO2007105409A1 (ja) * 2006-02-27 2007-09-20 Nec Corporation 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
EP2019985B1 (en) * 2006-05-12 2018-04-04 Nuance Communications Austria GmbH Method for changing over from a first adaptive data processing version to a second adaptive data processing version
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US7552871B2 (en) * 2006-12-19 2009-06-30 Nordic Id Oy Method for collecting data fast in inventory systems and wireless apparatus thereto
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
TWI566107B (zh) * 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US20170011406A1 (en) * 2015-02-10 2017-01-12 NXT-ID, Inc. Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
WO2017034536A1 (en) * 2015-08-24 2017-03-02 Ford Global Technologies, Llc Dynamic acoustic model for vehicle
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018195185A1 (en) * 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
EP3424046B1 (en) * 2017-05-12 2020-07-08 Apple Inc. User-specific acoustic models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN111243606B (zh) * 2017-05-12 2023-07-21 苹果公司 用户特定的声学模型
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896673B1 (en) 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
KR102135182B1 (ko) 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR102263973B1 (ko) 2019-04-05 2021-06-11 주식회사 솔루게이트 인공지능 기반 일정관리 시스템
US11238847B2 (en) * 2019-12-04 2022-02-01 Google Llc Speaker awareness using speaker dependent speech model(s)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045298A (ja) * 1983-08-22 1985-03-11 富士通株式会社 単語音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPH04280299A (ja) * 1991-03-08 1992-10-06 Ricoh Co Ltd 音声認識装置
JPH05188991A (ja) * 1992-01-16 1993-07-30 Oki Electric Ind Co Ltd 音声認識装置
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
JPH11282492A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、話者検出装置及び画像記録装置
JP2000137495A (ja) * 1998-10-30 2000-05-16 Toshiba Corp 音声認識装置および音声認識方法
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178A1 (de) 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
JPH01309099A (ja) * 1987-06-04 1989-12-13 Ricoh Co Ltd 音声応答装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH02232696A (ja) * 1989-03-06 1990-09-14 Toshiba Corp 音声認識装置
JP2989231B2 (ja) * 1989-10-05 1999-12-13 株式会社リコー 音声認識装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
CN1160450A (zh) * 1994-09-07 1997-09-24 摩托罗拉公司 从连续语音中识别讲话声音的系统及其应用方法
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045298A (ja) * 1983-08-22 1985-03-11 富士通株式会社 単語音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPH04280299A (ja) * 1991-03-08 1992-10-06 Ricoh Co Ltd 音声認識装置
JPH05188991A (ja) * 1992-01-16 1993-07-30 Oki Electric Ind Co Ltd 音声認識装置
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
JPH11282492A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、話者検出装置及び画像記録装置
JP2000137495A (ja) * 1998-10-30 2000-05-16 Toshiba Corp 音声認識装置および音声認識方法
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法

Also Published As

Publication number Publication date
EP1850324B1 (en) 2011-09-21
DK1374223T3 (da) 2007-10-08
EP1628289A3 (en) 2006-03-01
KR20070106809A (ko) 2007-11-05
US20020143540A1 (en) 2002-10-03
CN1531722B (zh) 2011-07-27
KR100933109B1 (ko) 2009-12-21
KR100933108B1 (ko) 2009-12-21
HK1117260A1 (en) 2009-01-09
KR20090106628A (ko) 2009-10-09
TW577043B (en) 2004-02-21
DE60222249T2 (de) 2008-06-12
JP2008077099A (ja) 2008-04-03
AU2002255863A1 (en) 2002-10-15
KR100933107B1 (ko) 2009-12-21
ATE525719T1 (de) 2011-10-15
JP4546512B2 (ja) 2010-09-15
EP1850324A1 (en) 2007-10-31
KR20090106630A (ko) 2009-10-09
ATE372573T1 (de) 2007-09-15
ES2371094T3 (es) 2011-12-27
DE60233763D1 (de) 2009-10-29
CN101221759B (zh) 2015-04-22
KR20030085584A (ko) 2003-11-05
JP2004530155A (ja) 2004-09-30
KR101031717B1 (ko) 2011-04-29
EP1628289A2 (en) 2006-02-22
JP2013152475A (ja) 2013-08-08
JP2008203876A (ja) 2008-09-04
WO2002080142A3 (en) 2003-03-13
EP1374223B1 (en) 2007-09-05
ATE443316T1 (de) 2009-10-15
CN101221758A (zh) 2008-07-16
KR101031660B1 (ko) 2011-04-29
EP1628289B1 (en) 2009-09-16
ES2330857T3 (es) 2009-12-16
DE60222249D1 (de) 2007-10-18
JP2010211221A (ja) 2010-09-24
CN101221759A (zh) 2008-07-16
KR20090106625A (ko) 2009-10-09
WO2002080142A2 (en) 2002-10-10
ES2288549T3 (es) 2008-01-16
CN1531722A (zh) 2004-09-22
HK1092269A1 (en) 2007-02-02
KR20070106808A (ko) 2007-11-05
KR101031744B1 (ko) 2011-04-29
EP1374223A2 (en) 2004-01-02

Similar Documents

Publication Publication Date Title
JP4546555B2 (ja) 話し手に暗黙的に順応する技術を用いた音声認識システム
US4618984A (en) Adaptive automatic discrete utterance recognition
US7024359B2 (en) Distributed voice recognition system using acoustic feature vector modification
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
US20050027527A1 (en) System and method enabling acoustic barge-in
JP2000181482A (ja) 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
JP2002156994A (ja) 音声認識方法
JPH11511567A (ja) パターン認識
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH06175678A (ja) 音声認識装置
JP4037709B2 (ja) 音声認識方法及び音声認識システム
JP3105708B2 (ja) 音声認識装置
Kim et al. Speaker adaptation techniques for speech recognition with a speaker-independent phonetic recognizer
Kim et al. Iterative training techniques for phonetic template based speech recognition with a speaker-independent phonetic recognizer

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100701

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees