JP4546555B2

JP4546555B2 - 話し手に暗黙的に順応する技術を用いた音声認識システム

Info

Publication number: JP4546555B2
Application number: JP2008101180A
Authority: JP
Inventors: ナレンドラナス・マラヤス; アンドリュー・ピー・デジャコ; チエンチュン・チャン; スハイル・ジャリル; ニン・ビ; ハリナス・ガルダドリ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-03-28
Filing date: 2008-04-09
Publication date: 2010-09-15
Anticipated expiration: 2022-03-22
Also published as: JP4546512B2; DE60233763D1; ATE525719T1; KR101031717B1; KR100933107B1; KR20030085584A; JP2013152475A; EP1850324A1; KR20070106808A; ATE372573T1; DE60222249T2; KR100933109B1; CN1531722B; WO2002080142A3; KR20090106628A; JP2008203876A; KR100933108B1; KR101031744B1; EP1628289A3; KR20090106630A

Description

本発明は、音声信号処理に係り、更に詳しくは、管理されていない学習によって、性能向上を図る新しい音声認識方法および装置に関する。

音声認識は、ユーザの音声命令を認識したり、機械とのヒューマンインタフェースを容易にするシミュレーション知識を機械に与える最も重要な技術の１つである。音声信号からの言語メッセージを再生する技術を適用したシステムは、音声認識（ＶＲ）システムと呼ばれている。図１は、基本的なＶＲシステムを示す図である。ＶＲシステムは、プレ強調フィルタ１０２、音響特徴抽出（ＡＦＥ）ユニット１０４、およびパターンマッチングエンジン１１０を備えている。ＡＦＥユニット１０４は、一連のデジタル音声サンプルを、音響特徴ベクトルと呼ばれる一組の測定値（例えば、抽出された周波数成分）に変換する。パターンマッチングエンジン１１０は、一連の音響特徴ベクトルを、ＶＲ音響モデル１１２に格納されたテンプレートと突き合わせる。一般的に、ＶＲパターンマッチングエンジンは、Dynamic Time Warping（ＤＴＷ）技術、およびHidden Markov Model（ＨＭＭ）のうちの何れかを用いている。ＤＴＷ、ＨＭＭともに当該技術では良く知られており、非特許文献１にその詳細が記されている。一連の音響特徴が、音響モデル１１２内のテンプレートと一致した場合には、この認識されたテンプレートは、例えば入力音声に対応して認識された一連の単語といったような所望の型式による出力を生成する。

上述したように、一般的に音響モデル１１２は、ＨＭＭモデルかＤＴＷモデルかの何れかである。ＤＴＷ音響モデルは、認識される必要のある単語の各々と関連しているテンプレートのデータベースとして考えることができる。一般に、ＤＴＷテンプレートは、関連する単語の多くの例に対して平均された一連の特徴ベクトルから構成されている。一般的に、ＤＴＷパターンマッチングは、格納されたテンプレートのうち、入力音声を表す入力特徴ベクトルシーケンスに対して最小の距離を有しているテンプレートの位置を突き止めることによってなされる。音響モデルに基づくＨＭＭに用いられているテンプレートは、関連する音声発声の詳細な統計的記述を含んでいる。一般に、ＨＭＭテンプレートは、一連の平均ベクトル、変動ベクトルおよび一組の遷移確率を格納している。これらパラメータは、音声ユニットにおける統計的記述に用いられ、音声ユニットの多くの例から推定される。一般に、ＨＭＭパターンマッチングは、入力音声に相当する一連の入力特徴に基づくモデルの各テンプレートに対する確率の生成を含んでいる。最も高い確率をもつテンプレートは、最も確からしい入力発声として選択される。

「学習」(Training)とは、音響モデル１１２内のテンプレートを生成するために、一人以上の話し手から、特定の音声セグメントまたはシラブルの音声サンプルを収集するプロセスに相当する。音響モデル内の各テンプレートは、特定の単語や、発声クラスと呼ばれる音声セグメントに関連付けられている。同じ発声クラスに関連付けられている音響モデルの中に、複数のテンプレートが存在する場合もありうる。「テスト」(Testing)とは、音響モデル内のテンプレートを、入力音声から抽出された一連の特徴ベクトルに合わせるプロセスに相当する。システムの性能は、エンドユーザの入力音声と、データベースの内容とのマッチング度に大きく依存する。すなわち、学習を通じて作成された参照テンプレートと、ＶＲテストに用いられた音声サンプルとの一致性に依存する。

学習における２つの共通した型式は、管理された学習と、管理されていない学習である。管理された学習では、一組の学習特徴ベクトルのおのおのに関連付けられた発声クラスが、予め知られている。入力音声を提供する話し手には、予め定められた発声クラスに対応した単語または音声のセグメントのスクリプトが与えられる。スクリプトの読み取りの結果得られる特徴ベクトルは、その後、正しい発声クラスに関連付けられた音響モデルテンプレートに組み入れられる。

管理されていない学習では、一組の学習特徴ベクトルのおのおのに関連付けられた発声クラスは、予め知らされていない。一組の学習特徴ベクトルが、正しい音響モデルテンプレートに組み入れられる前に、発声クラスを正しく認識する必要がある。管理されていない学習では、一組の学習特徴ベクトルに対する発声クラスを誤って認識すると、誤った音響モデルテンプレート内の変形をもたらしうる。この誤りは、一般に、音声認識性能を向上することはなく、低下させる。この誤りを回避するために、一般に、管理されていない学習に基づく音響モデルのいかなる変形であっても非常に保守的に扱われねばならない。比較的高い信頼性が高く、発声クラスが正しく認識された場合には、１組の学習特徴ベクトルは、音響モデルに組み込まれる。このような必須の保守性によって、管理されていない学習を介したＳＤ音響モデルの構築は、非常に長時間を要している。ＳＤ音響モデルがこのように構築されるまで、ＶＲ性能は、ほとんどのユーザに対して受け入れられる程度のレベルにはなりえないであろう。

最適には、エンドユーザは、音響モデル１１２がエンドユーザの音声に良く一致するように、学習中およびテスト中いずれの期間中であっても音声音響特徴を提供する。一人の話し手に合うように調整された個別の音響モデルは、話し手に依存（ＳＤ）する音響モデルとも呼ばれている。一般的に、エンドユーザは、ＳＤ音響モデルを生成するために、大量の管理された学習サンプルを提供することが必要となる。第一に、ユーザは、多種多様な発声クラスに対する学習サンプルを提供しなければならない。また、エンドユーザは、優れた性能を得るために、各発声クラスに対する多種多様の可能な音響環境を表現する多数のテンプレートを提供しなければならない。ほとんどのユーザは、ＳＤ音響モデルを生成するために必要な入力音声を提供することができないか、したがらない。代わりに、多くの現存するＶＲシステムでは、一般化された音響モデルを用いている。この音響モデルは、多くの「代表的な」話し手の音声を用いて学習されたものである。このような音響モデルは、話し手に依存しない（ＳＩ）音響モデルと称され、広範なユーザに対して最良の性能を有するように設計されている。しかしながら、ＳＩ音響モデルは、いかなる特定のユーザに最適化されたものではない。ＳＩ音響モデルを使うＶＲシステムは、特定ユーザに合うように調整されたＳＤ音響モデルを使用したＶＲシステムほど、特定ユーザに対し良好には機能しない。強い外国アクセントを持つユーザにとっては、ＳＩ音響モデルを使ったＶＲシステムは性能が低すぎ、ＶＲサービスは全く効果的ではない。

最適には、ＳＤ音響モデルは、各個別ユーザに対して生成される。上述したように、管理された学習を適用してＳＤ音響モデルを構築することは、現実的ではない。一方で、管理されていない学習を適用してＳＤ音響モデルを生成することは、長い時間を要してしまい、この間における部分的なＳＤ音響モデルに基づくＶＲ性能は、極めて乏しいものとなりうる。したがって、管理されていない学習を適用したＳＤ音響モデルの生成前および生成中において、良好に機能するようなＶＲシステム向けの技術ニーズがある。
Rabiner, L. R. and Juang, B. H., FUNDAMENTALS OF SPEECH RECOGNITION, Prentice Hall, 1993.

発明の概要

ここで開示された方法および装置は、斬新でかつ改良された音声認識（ＶＲ）システムに関する。このシステムは、話し手に依存しない（ＳＩ）音響モデルと、話し手に依存する（ＳＤ）音響モデルとを組み合わせて利用する。純粋なＳＩ音響モデルと少なくとも等しい音声認識レベルを与えるために、少なくとも１つのＳＩ音響モデルと、少なくとも１つのＳＤ音響モデルとを組み合わせて使用している。開示されたハイブリット型のＳＩ／ＳＤＶＲシステムは、管理されていない学習を連続的に行うことによって、１つ以上の音響モデル内の音響テンプレートを更新する。ハイブリット型のＶＲシステムは、その後、更新したＳＤ音響モデルを、少なくとも１つのＳＩ音響モデルと組み合わせて使用する。これによって、ＶＲテスト中であっても高いＶＲ性能を実現する。

本明細書では、「典型的」という用語を、実施例、具体例、あるいは例示の説明に使用している。なお、「典型的」と記載された実施例には、必ずしも他の実施例よりも好適であったり有利な点がある訳ではないものと捉えて頂きたい。

詳細説明

図２は、無線遠隔局２０２内に適用されうるハイブリット型の音声認識（ＶＲ）システムの典型的な実施例を示す図である。典型的な実施例において、遠隔局２０２は無線チャンネル（図示せず）を介して無線通信ネットワーク（図示せず）と通信する。例えば、遠隔局２０２は、無線電話システムと通話する無線電話でありうる。当業者であれば、ここに記載された技術は、固定型（携帯ではなく）すなわち無線チャンネルを含まないＶＲシステムにも同様に適用されうることを認識するであろう。

記載された実施例では、ユーザからの音声信号は、マイクロフォン（ＭＩＣ）２１０において電気信号に変換され、Ａ／Ｄコンバータ（ＡＤＣ）２１２においてデジタル音声サンプルに変換される。その後、このデジタルサンプルのストリームは、プレ強調（ＰＥ）フィルタ２１４においてフィルタリングされる。フィルタ２１４は、例えば、低周波数の信号成分を弱めるような限定的なインパルス応答（ＦＩＲ）フィルタである。

フィルタされたサンプルはその後、音響特徴抽出（ＡＦＥ）ユニット２１６において解析される。ＡＦＥユニット２１６は、デジタル音声サンプルを音響特徴ベクトルに変換する。典型的な実施例では、ＡＦＥユニット２１６は連続的なデジタルサンプルのセグメントについてフーリエ変換を行い、異なる周波数ビンに対応する信号強度のベクトルを生成する。典型的な実施例では、周波数ビンは、バークスケール(bark scale)に従って変化するバンド幅を持っている。バークスケールでは、各周波数ビンのバンド幅は、高周波数のビンが、低周波数のビンよりも、より広いバンド幅を持つように、ビンの中心周波数に対する関係に影響を与える。バークスケールは、非特許文献１に記載されており、当該分野では良く知られている。

典型的な実施例では、各音響特徴ベクトルが、固定された時間間隔にわたって取得された一連の音声サンプルから抽出される。典型的な実施例では、この時間間隔は重なり合う。例えば、音響特徴は、１０ミリ秒毎に発生する音声データから２０ミリ秒間隔で取得される。これによって、各２つの連続した間隔は、１０ミリ秒の間隔を共有する。当業者であれば、ここで記載された実施例の範囲から逸脱することなくこの時間間隔を重なり合わないようにしたり、あるいは固定化されていない持続時間を有するようにすることも可能であることを認識するであろう。

ＡＦＥユニット２１６によって生成された音響特徴ベクトルは、ＶＲエンジン２２０に提供される。ＶＲエンジン２２０は、パターンマッチングを行い、１つ以上の音響モデル２３０，２３２，２３４の内容に基づいて音響特徴ベクトルを特徴付ける。

図２に示す典型的な実施例では、３つの音響モデルが示されている。すなわち、話し手に依存しない（ＳＩ）ＨＭＭモデル（ＳＩＨＭＭモデル）２３０と、話し手に依存しない（ＳＩ）ＤＴＷモデル（ＳＩＤＴＷモデル）２３２と、話し手に依存する（ＳＤ）音響モデル２３４である。当業者であれば、ＳＩ音響モデルの他の組合せもまた別の実施例で使用されうることを認識するであろう。例えば、遠隔局２０２は、ＳＩＨＭＭ音響モデル２３０と、ＳＤ音響モデル２３４とを含み、ＳＩＤＴＷ音響モデル２３２を省略することもできる。その代わりに、遠隔局２０２は、１つのＳＩＨＭＭ音響モデル２３０と、ＳＤ音響モデル２３４と、２つの異なるＳＩＤＴＷ音響モデル２３２とを備える場合もある。さらに、当業者であれば、ＳＤ音響モデル２３４は、ＨＭＭタイプあるいはＤＴＷタイプ、またはこれらの組合せとすることも認識するであろう。典型的な実施例では、ＳＤ音響モデル２３４はＤＴＷ音響モデル（ＳＤＤＴＷモデル）である。

上述したように、ＶＲエンジン２２０は、音響特徴ベクトルと、１つ以上の音響モデル２３０，２３２，２３４の内容とのマッチング度を判定するパターンマッチングを行う。典型的な実施例では、ＶＲエンジン２２０は、音響特徴ベクトルと、音響モデル２３０，２３２，２３４の各々における異なる音響テンプレートとのマッチング度に基づいてマッチングスコアを生成する。例えば、ＶＲエンジン２２０は、１組の音響特徴ベクトルと、ＳＩＨＭＭ音響モデル２３０内の複数のＨＭＭテンプレートとのマッチング度に基づいてＨＭＭマッチングスコアを生成する。同様に、ＶＲエンジン２２０は、音響特徴ベクトルと、ＳＩＤＴＷ音響モデル２３２内の複数のＤＴＷテンプレートとのマッチング度に基づいてＤＴＷマッチングスコアを生成する。ＶＲエンジン２２０は、音響特徴ベクトルと、ＳＤ音響モデル２３４内のテンプレートとのマッチング度に基づいてマッチングスコアを生成する。

上述したように、音響モデル内の各テンプレートは、発声クラスと関連している。典型的な実施例では、ＶＲエンジン２２０は、同一の発声クラスに関連付けられたテンプレートに対するスコアを結合し、管理されていない学習において用いられる結合マッチングスコアを作成する。例えば、ＶＲエンジン２２０は、１組の入力音響特徴ベクトルの相関から得られるＳＩＨＭＭスコアとＳＩＤＴＷスコアとを結合し、結合ＳＩスコアを生成する。結合マッチングスコアに基づいて、ＶＲエンジン２２０は、１組の入力音響特徴ベクトルを、ＳＤ音響モデル２３４内のＳＤテンプレートとして格納するか否かを決定する。典型的な実施例では、ＳＤ音響モデル２３４を更新するために、限定的なＳＩマッチングスコアを用いて、管理されていない学習が行われる。これによって、管理されていない学習に対するＳＤ音響モデル２３４の導出から別の結果が発生するような付加的な誤りを阻止する。管理されていない学習の典型的な方法について、以下に更に詳しく記載する。

管理されていない学習に加えて、ＶＲエンジン２２０は、テスト中に種々の音響モデル２３０，２３２，２３４を使用する。典型的な実施例では、ＶＲエンジン２２０は、音響モデル２３０，２３２，２３４からマッチングスコアを取得し、各発声クラスに対する結合マッチングスコアを生成する。結合マッチングスコアは、入力音声に最も良く一致する発声クラスを選択するために使用される。ＶＲエンジン２２０は、連続した発声クラスを必要に応じて集め、単語全体または句全体を認識する。その後、ＶＲエンジン２２０は、認識した単語または句を制御プロセッサ２２２に提供する。制御プロセッサ２２２は、この情報を用いて音声情報または音声命令に対する適切な応答を決定する。例えば、制御プロセッサ２２２は、認識された単語または句に応答して、ディスプレイまたは他のユーザインタフェースを介してユーザにフィードバックする。もう１つの実施例では、制御プロセッサ２２２は、無線モデム２１８とアンテナ２２４を介して無線ネットワーク（図示せず）にメッセージを伝送し、名前が発声され認識された人に関連付けられた呼出電話番号に対するモバイル電話呼出を開始する。

無線モデム２１８は、ＣＤＭＡ、ＴＤＭＡ、あるいはＦＤＭＡを含む種々の無線チャンネル型式のうちの何れかを介して信号を送信しうる。更に、無線モデム２１８は、記載された実施例の範囲を逸脱しない無線以外のチャンネルを介して通信する他の型式の通信インタフェースに置き換えることもできる。例えば、遠隔局２０２は、ランドラインモデム、Ｔ１／Ｅ１、ＩＳＤＮ、ＤＳＬ、イーサネット（登録商標）、あるいはプリント回路基板（ＰＣＢ：printed circuit board）上の均一なトレースを含む様々な型式の通信チャンネルの何れかを介して信号情報を送信しうる。

図３は、管理されていない学習の好適な実施方法を示すフローチャートである。ステップ３０２では、アナログ音声データが、Ａ／Ｄコンバータ（ＡＤＣ）２１２によってサンプリングされる。その後、ステップ３０４では、デジタルサンプルストリームが、プレ強調（ＰＥ）フィルタ２１４によってフィルタリングされる。ステップ３０６では、音響特徴抽出（ＡＦＥ）ユニット２１６によって、フィルタリングされたサンプルから、入力音響特徴ベクトルが抽出される。ＶＲエンジン２２０は、ＡＦＥユニット２１６から入力音響特徴ベクトルを受け取り、ＳＩ音響モデル２３０，２３２の内容に対するパターンマッチングを行う。ステップ３０８では、ＶＲエンジン２２０は、パターンマッチングの結果からマッチングスコアを生成する。ＶＲエンジン２２０は、入力音響特徴ベクトルとＳＩＨＭＭ音響モデル２３０とのマッチングを行い、ＳＩＨＭＭマッチングスコアを生成する。また、入力音響特徴ベクトルとＳＩＤＴＷ音響モデル２３２とのマッチングを行い、ＳＩＤＴＷマッチングスコアを生成する。ＳＨＩＭＭ音響モデル２３０およびＳＩＤＴＷ音響モデル２３２内の各音響テンプレートは、特定の発声クラスに関連付けられている。ステップ３１０では、ＳＩＨＭＭスコアとＳＩＤＴＷスコアとが結合され、結合マッチングスコアが生成される。

図４は、管理されていない学習に使用される結合マッチングスコアの生成方法を示す図である。図示された典型的な実施例では、特定の発声クラスに対応する話し手に依存しない結合マッチングスコアＳ_ＣＯＭＢ__ＳＩは、図４中に示す式１に従って求められる。ここで、ＳＩＨＭＭ_Ｔは、目標発声クラスに対するＳＨＩＭＭマッチングスコアである。ＳＩＨＭＭ_ＮＴは、目標ではない発声クラス（目標発声クラス以外の発声クラス）に関連付けられているＳＩＨＭＭ音響モデル内のテンプレートに対して２番目に良いマッチングスコアである。ＳＩＨＭＭ_Ｇは、「ガーベッジ」（garbage)発声クラスに対するＳＩＨＭＭマッチングスコアである。ＳＩＤＴＷ_Ｔは、目標発声クラスに対するＳＩＤＴＷマッチングスコアである。ＳＩＤＴＷ_ＮＴは、目標ではない発声クラスに関連付けられているＳＩＤＴＷ音響モデル内のテンプレートに対して２番目に良いマッチングスコアである。ＳＩＤＴＷ_Ｇは、「ガーベッジ」発声クラスに対するＳＩＤＴＷマッチングスコアである。

各マッチングスコアＳＩＨＭＭ_ｎ、ＳＩＤＴＷ_ｎは、一連の入力音響特徴ベクトルと、音響モデル内のテンプレートとの間の距離を表すものとみなされうる。入力音響特徴ベクトルとテンプレートとの間の距離が大きくなるにつれて、マッチングスコアもまたより大きな値となる。テンプレートと入力音響特徴ベクトルとが近い場合には、マッチングスコアは小さな値となる。仮に、一連の入力音響特徴ベクトルを、異なる発声クラスに関連付けられている２つのテンプレートと比較することによって、ほとんど等しい２つのマッチングスコアが生成された場合には、ＶＲシステムは、いずれも「正しい」発声クラスであるとは認めることができないであろう。

ＳＩＨＭＭ_ＧとＳＩＤＴＷ_Ｇは、「ガーベッジ」発声クラスに対するマッチングスコアである。不要な発声クラスに関連付けられたテンプレートは、「ガーベッジ」テンプレートと呼ばれ、特定の単語、あるいは特定の句の何れにも関連していない。このような理由によって、各テンプレートは、全ての入力音声に対して等しく対応付けられない傾向になる。ガーベッジのマッチングスコアは、ＶＲシステムにおけるノイズフロア測定の一種として有益である。一般に、一連の入力音響特徴ベクトルは、発声クラスが確実に認識される前に、ガーベッジテンプレートよりも、目標発声クラスに関連付けられたテンプレートに対してより高いマッチング度を持つべきである。

ＶＲシステムが、発声クラスを確実に「正しい」と認識する前に、入力音響特徴ベクトルは、他の発声クラスに関連付けられたガーベッジテンプレートよりも、該発声クラスに関連付けられたテンプレートに対してより高いマッチング度を持つべきである。種々の音響モデルから生成された結合マッチングスコアは、単に１つの音響モデルに基づくマッチングスコアよりも、発声クラスを確実に区別することができる。典型的な実施例では、ＶＲシステムはこのような結合マッチングスコアを使用することによって、ＳＤ音響モデル２３４内のテンプレートを、新たな一組の入力音響特徴ベクトルから作成されたテンプレートと交換すべきか否かを判定する。

重みファクタ（Ｗ_１・・・Ｗ_６）は、全ての音響環境にわたって最良の学習性能を提供するように選択される。典型的な実施例では、重みファクタ（Ｗ_１・・・Ｗ_６）は、全ての発声クラスに対して一定である。言い換えると、第１の目標発声クラスに対する結合マッチングスコアを生成するために用いられるＷ_ｎは、もう一つの目標発声クラスに対する結合マッチングスコアを生成するために用いられるＷ_ｎと等しい。別の実施例では、重みファクタは、目標発声クラスに基づいて変化する。図４に示す結合の他の方法は、当業者にとっては明らかであり、ここに記載された他の実施例の範囲内とみなされる。例えば、７つ以上の、あるいは６未満の重み入力もまた使用されうる。また別の変形例では、１つの型式の音響モデルに基づいて結合マッチングスコアを生成する。例えば、結合マッチングスコアは、ＳＩＨＭＭ_Ｔ、ＳＩＨＭＭ_ＮＴ、およびＳＩＨＭＭ_Ｇに基づいて生成されうる。あるいは、ＳＩＤＴＷ_Ｔ、ＳＩＤＴＷ_ＮＴ、およびＳＩＤＴＷ_Ｇに基づいて結合マッチングスコアが生成されうる。

典型的な実施例では、Ｗ_１およびＷ_４は負の値であり、ＳＣＯＭＢの値がより大きい（すなわち、より負の値である）と、目標発声クラスと一連の入力音響特徴ベクトルとのマッチング程度がより大きくなる（より距離が小さくなる）。当業者であれば、開示された実施例の範囲を超えることなく、大きなマッチング度ほどより小さな値を示すように、重みファクタの符号を、容易に変えられうることがわかるであろう。

図３に戻り、ステップ３１０では、ＨＭＭ音響モデル２３０およびＤＴＷ音響モデル２３２内のテンプレートに関連付けられた発声クラスに対する結合マッチングスコアが生成される。典型的な実施例では、好ましいｎ個のＳＩＨＭＭマッチングスコアに関連付けられた発声クラス、および好ましいｍ個のＳＩＤＴＷマッチングスコアに関連付けられた発声クラスに対してのみ結合マッチングスコアが生成される。個々のマッチングスコアを生成する間に大量の計算力が消費されるので、この制約は、計算資源の確保の観点から望ましい。例えば、ｎとｍとがともに３である場合、結合マッチングスコアは、上から３つのＳＩＨＭＭマッチングスコアに関連付けられた発声クラスと、上から３つのＳＩＤＴＷマッチングスコアに関連付けられた発声クラスに対して生成される。この方法では、上から３つのＳＩＨＭＭマッチングスコアに関連付けられた発声クラスが、上から３つのＳＩＤＴＷマッチングスコアに関連付けられた発声クラスと同じであるか否かに基づいて、３つから６つの異なる結合マッチングスコアを生成する。

ステップ３１２では、遠隔局２０２は、結合マッチングスコアと、ＳＤ音響モデル内の対応するテンプレート（同じ発声クラスに関連付けられたもの）の結合マッチングスコアとを比較する。仮に、新たな一連の入力音響特徴ベクトルから得られた結合マッチングスコアが、同じ発声クラスに関連付けられたＳＤモデルに属する古いテンプレートの結合マッチングスコアよりも大きなマッチング度を有している場合には、新たな一連の入力音響特徴ベクトルから新たなＳＤテンプレートが作成される。ＳＤ音響モデルがＤＴＷ音響モデルである実施例では、一連の入力音響特徴ベクトル自身が新たなＳＤテンプレートを構成している。その後、古いテンプレートは、新たなテンプレートと交換され、新たなテンプレートに関連付けられた結合マッチングスコアは、ＳＤ音響モデル内に格納され、将来の比較に供される。

別の実施例では、管理されていない学習は、話し手に依存するＨＭＭ（ＳＤＨＭＭ）音響モデル内の１つ以上のテンプレートを更新するために用いられる。ＳＤＨＭＭ音響モデルは、ＳＤＤＴＷモデルの代わりか、またはＳＤ音響モデル２３４内のＳＤＤＴＷ音響モデルに付加されて使用される。

典型的な実施例では、ステップ３１２における比較は、見込みのある新たなＳＤテンプレートの結合マッチングスコアと、一定の学習閾値との比較もまた含んでいる。仮に、特定の発声クラスについてＳＤ音響モデル内に未だテンプレートが格納されていなくても、学習閾値よりも大きな結合マッチングスコアを有していれば、新たなテンプレートは、ＳＤ音響モデル内には格納されない。

別の実施例では、ＳＤ音響モデル内における全てのテンプレートが交換される前に、ＳＩ音響モデルからのテンプレートによってＳＤ音響モデルがデフォルト設定される。このような初期設定によって、ＳＤ音響モデルを用いたＶＲ性能が、ＳＩ音響モデルを単に用いているＶＲ性能と少なくとも同程度に出発することを保証する別の方法を提供する。ＳＤ音響モデル内のテンプレートがより多く更新されることによって、ＳＤ音響モデルを使ったＶＲ性能は、単にＳＩ音響モデルを使用したＶＲ性能を超えるようになる。

別の実施例では、ＶＲシステムによって、ユーザは、管理された学習を実行することが可能となる。ユーザは、管理された学習を実行する前に、ＶＲシステムを、管理された学習モードに設定しなければならない。管理された学習の間、ＶＲシステムは、正しい発声クラスの演繹的な知識を有する。仮に、入力音声に対する結合マッチングスコアが、該発声クラスに対して以前に格納されているＳＤテンプレートに対する結合マッチングスコアよりも良い場合には、入力音声が交換用ＳＤテンプレートを生成するために用いられる。別の実施例では、ユーザは、ＶＲシステムによって、管理された学習中において存在するＳＤテンプレートを強制的に交換することができる。

ＳＤ音響モデルは、１つの発声クラスについて複数（２つ以上）のテンプレートのための場所を有するように設定されうる。典型的な実施例では、各発声クラスに対して、ＳＤ音響モデル内に２つのテンプレートが格納される。従って、ステップ３１２における比較は、新たなテンプレートとともに得られたマッチングスコアと、同一の発声クラスについてのＳＤ音響モデル内の両方のテンプレートから得られたマッチングスコアとの比較を伴う。仮に、新たなテンプレートが、ＳＤ音響モデル内の古いテンプレートの何れか一方よりも良いマッチングスコアである場合には、ステップ３１４において、最悪のマッチングスコアを有するＳＤ音響モデルテンプレートが新たなテンプレートと交換される。仮に、新たなテンプレートのマッチングスコアが、古いテンプレートの何れか一方よりも良くない場合には、ステップ３１４はスキップされる。更に、ステップ３１２では、新たなテンプレートによって取得されたマッチングスコアは、マッチングスコア閾値と比較される。よって、閾値よりも良いマッチングスコアを有する新たなテンプレートがＳＤ音響モデル内に格納されるまでは、新たなテンプレートが、閾値と比較された後に、ＳＤ音響モデル内の以前の内容を上書きするために用いられる。ＳＤ音響モデルテンプレートを、結合マッチングスコアに従った手順で格納し、新たなマッチングスコアを最低値と比較するような明らかな変形例もまた想定される。このような変形例は、ここで開示された実施例の範囲であると解される。各発声クラスに対する音響モデルに格納された多数のテンプレートについての明らかな変形例もまた、想定される。例えば、ＳＤ音響モデルは、各発声クラスに対して３つ以上のテンプレートを備えうる。あるいは、異なる発声クラスに対して多数の異なるテンプレートを備えうる。

図５は、ＳＩ音響モデルとＳＤ音響モデルとの組合せを用いたＶＲテストを実行するための典型的な方法を示すフローチャートである。ステップ３０２，３０４，３０６および３０８は、図３に記載したものと同じである。この典型的な方法では、ステップ５１０において、図３で示した方法と異なる。ステップ５１０では、入力音響特徴ベクトルと、ＳＤ音響モデル内のテンプレートとの比較に基づいて、ＶＲエンジン２２０がＳＤマッチングスコアを生成する。典型的な実施例では、好ましいｎ個のＳＩＨＭＭマッチングスコアと、好ましいｍ個のＳＩＤＴＷマッチングスコアとに関連付けられている発声クラスに対してのみＳＤマッチングスコアが生成される。典型的な実施例では、ｎ、ｍともに３である。発声クラスの２つの組の間の重なり度合いによって、この結果は、３つから６つの発声クラスに対するＳＤマッチングスコアを生成することになる。上述したように、ＳＤ音響モデルは、単一の発声クラスに対して複数のテンプレートを備えうる。ステップ５１２では、ＶＲエンジン２２０は、ＶＲテストにおいて使用するために、ハイブリットの結合マッチングスコアを生成する。典型的な実施例では、これらのハイブリッドの結合マッチングスコアは、個々のＳＩマッチングスコアと個々のＳＤマッチングスコアとの両方に基づいている。ステップ５１４では、最も良い結合マッチングスコアを有する単語または発声が選択され、テスト閾値と比較される。仮に、結合マッチングスコアがテスト閾値を超える場合には、発声のみが認識される。典型的な実施例において、学習についての結合スコアを生成する（図４に示す）ために用いられる重み［Ｗ_１・・・Ｗ_６］は、テストについての結合スコアを生成する（図６に示す）ために用いられる重み［Ｗ_１・・・Ｗ_６］と等しい。しかしながら、学習閾値と、テスト閾値とは等しくない。

図６は、ステップ５１２でなされるハイブリットの結合マッチングスコアの生成を示す図である。この典型的な実施例は、重みファクタＷ_４がＳＩＤＴＷ_Ｔに代わってＤＴＷ_Ｔに適用されていること、また重みファクタＷ_５がＳＩＤＴＷ_ＮＴに代わってＤＴＷ_ＮＴに適用されていることを除いて図４に示すものと同一である。ＤＴＷ_Ｔ（目標発声クラスに対する動的時間歪みマッチングスコア）は、目標発声クラスに関連付けられた最良のＳＩＤＴＷスコアおよびＳＤＤＴＷスコアから選択される。同様に、ＤＴＷ_ＮＴ（残りの目標ではない発声クラスに対する動的時間歪みマッチングスコア）は、目標ではない発声クラスに関連付けられた最良のＳＩＤＴＷスコアおよびＳＤＤＴＷスコアから選択される。

特定の発声クラスのためのＳＩ／ＳＤハイブリッドスコアＳ_ＣＯＭＢ__Ｈは、図６中に示す式２にしたがって求められる。ここで、ＳＩＨＭＭ_Ｔ、ＳＩＨＭＭ_ＮＴ、ＳＩＨＭＭ_Ｇ、およびＳＩＤＴＷ_Ｇは式１に示すものと同じである。特に、式２において、ＳＩＨＭＭ_Ｔは、目標発声クラスに対するＳＩＨＭＭマッチングスコアである。ＳＩＨＭＭ_ＮＴは、目標ではない発声クラス（目標発声クラス以外の発声クラス）に関連付けられているＳＩＨＭＭ音響モデル内のテンプレートに対する２番目に良いマッチングスコアである。ＳＩＨＭＭ_Ｇは、「ガーベッジ」発声クラスに対するＳＩＨＭＭマッチングスコアである。ＤＴＷ_Ｔは、目標発声クラスに対応するＳＩテンプレートおよびＳＤテンプレートに対する最良のＤＴＷマッチングスコアである。ＤＴＷ_ＮＴは、目標ではない発声クラスに対応するＳＩテンプレートおよびＳＤテンプレートに対する最良のＤＴＷマッチングスコアである。ＳＩＤＴＷ_Ｇは、「ガーベッジ」発声クラスに対するＳＩＤＴＷマッチングスコアである。従って、ＳＩ／ＳＤハイブリッドスコアＳ_ＣＯＭＢ__Ｈは、個々のＳＩマッチングスコアとＳＤマッチングスコアとの組み合わせである。結果として得られる結合マッチングスコアは、ＳＩ音響モデルまたはＳＤ音響モデルのうちのいずれにも完全に基づいている訳ではない。仮に、マッチングスコアＳＩＤＴＷ_ＴがどのＳＤＤＴＷ_Ｔスコアよりも良い場合には、ＳＩ／ＳＤハイブリットスコアは、良好なＳＩＤＴＷ_Ｔスコアから計算される。同様に、仮に、マッチングスコアＳＤＤＴＷ_Ｔが何れのＳＩＤＴＷ_Ｔよりも良い場合には、ＳＩ／ＳＤハイブリットスコアは、良好なＳＤＤＴＷ_Ｔスコアから計算される。結果として、仮に、ＳＤ音響モデル内のテンプレートが、低いマッチングスコアになった場合には、ＶＲシステムは、ＳＩ／ＳＤハイブリッドスコアのＳＩ部分に基づいて入力音声を認識する。そのような低いＳＤマッチングスコアは、様々な原因による。その原因として、学習中における音響環境とテスト中における音響環境との違いや、学習に使われた貧弱な品質の入力が含まれる。

別の実施例では、ＳＩスコアを、ＳＤスコアほど重み付けないか、全く無視する。例えば、ＤＴＷ_Ｔは、目標発声クラスに対するＳＩＤＴＷスコアを無視して、目標発声クラスに関連付けられたＳＤＤＴＷスコアの中の最良のものから選択される。更に、ＤＴＷ_ＮＴは、両方のスコアの組を使う代わりに、目標ではない発声クラスに関連付けられたＳＩＤＴＷスコアまたはＳＤＤＴＷスコアのうちの何れかのうちの最良のものから選択される。

この典型的な実施例は、話し手に依存するモデルにおいてはＳＤＤＴＷ音響モデルのみを用いて記載されているが、ここで記載されているハイブリッド処理は、ＳＤＨＭＭ音響モデルを用いたＶＲシステムや、ＳＤＤＴＷ音響モデルとＳＤＨＭＭ音響モデルとの組み合わせに対しても等しく適用できるものである。例えば、図６に示す処理を変形することによって、重みファクタＷ_１は、ＳＩＨＭＭ_ＴスコアおよびＳＤＨＭＭ_Ｔスコアのうちの最良のものから選択されるマッチングスコアに適用することも可能でありうる。重みファクタＷ_２は、ＳＩＨＭＭ_ＮＴスコアおよびＳＤＨＭＭ_ＮＴスコアのうちの最良のものから選択されるマッチングスコアに適用することも可能でありうる。

すなわち、ここで開示した技術は、管理されていない学習およびテスト中において、ＶＲ性能を改善するために、ＳＩ音響モデルとＳＤ音響モデルとを組み合わせて利用したＶＲ方法および装置である。当業者であれば、これら情報および信号が、種々異なった技術や技法を用いて表されることを理解するであろう。例えば、上述した記載で引用されているデータ、手順、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学微粒子、あるいはこれら何れかの結合によって表現されうる。また、実施例は第一に、Dynamic Time Warping（ＤＴＷ）音響モデル、あるいはHidden Markov Model（ＨＭＭ）音響モデルに関連して説明されているが、記載された技術は、ニューラルネットワーク音響モデルなど他の型式の音響のモデルに対しても適用しうる。

これらの知識によって、ここで開示された実施例に関連する様々に例示された論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子工学ハードウェア、コンピュータソフトウェア、あるいはこれらの組み合わせとして適用されることが更に理解されよう。ハードウェアとソフトウェアとの相互互換性を明確に説明するために、様々に例示された部品、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に記述された。それら機能がハードウェアとしてあるいはソフトウェアとして適用されているかは、特有の応用例および全体システムに課せられている設計条件による。熟練した技術者であれば、各特定のアプリケーションに応じて変更することによって上述した機能を実施しうる。しかしながら、この適用判断は、本発明の範囲から逸脱したものと解釈すべきではない。

様々に示された論理ブロック、モジュール、および上述された実施例に関連して記載された回路もまた実装され、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、アプリケーションに固有の集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはその他のプログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタ論理、ディスクリートハードウェア部品、あるいは上述された機能を実現するために設計された何れかの組み合わせとともに実行されうる。汎用プロセッサとしてマイクロプロセッサを用いることが可能であるが、代わりに、従来技術によるプロセッサ、コントローラ、マイクロコントローラ、あるいは状態機器を用いることも可能である。プロセッサは、たとえばＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに接続された１つ以上のマイクロプロセッサ、またはその他の配置のような計算デバイスの組み合わせとして実装することも可能である。

ここで開示された実施例に関連して記述された方法やアルゴリズムのステップは、ハードウェアや、プロセッサによって実行されるソフトウェアモジュールや、これらの組み合わせによって直接的に具現化される。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、あるいは当該技術分野で知られているその他の型式の記憶媒体に収納されうる。好適な記憶媒体は、プロセッサがそこから情報を読み取り、またそこに情報を書き込むことができるようにプロセッサに結合される。または、記憶媒体はプロセッサに不可欠となりうる。このプロセッサと記憶媒体は、ＡＳＩＣに収納することができる。または、このプロセッサと記憶媒体が、ユーザ端末におけるディスクリートな部品として収納されることもある。

開示された実施例における上述の記載は、いかなる当業者であっても、本発明の活用または利用を可能とするようになされている。これらの実施例への様々な変形例もまた、当業者に対しては明らかであって、ここで定義された一般的な原理は、本発明の主旨または範囲を逸脱しない他の実施例にも適用されうる。このように、本発明は、上記で示された実施例に制限されるものではなく、ここで記載された原理と新規の特徴に一致した広い範囲に相当するものを意図している。

基本的な音声認識システムを示す図。典型的な実施例に対応する音声認識システムを示す図。管理されていない学習を実行するための方法を示すフローチャート。管理されていない学習に使用される結合マッチングスコアを生成するための典型的な方法を示す図。話し手に依存しない（ＳＩ）マッチングスコアと、話し手に依存する（ＳＤ）マッチングスコアとを用いた音声認識（テスト）を実行する方法を示すフローチャート。話し手に依存しない（ＳＩ）マッチングスコアと、話し手に依存する（ＳＤ）マッチングスコアとから、結合マッチングスコアを生成するための方法を示す図。

Claims

音声認識装置であって、
話し手に依存せず、特定の発声クラスに関連付けられた１又は複数の第１の音響モデルテンプレートを格納する第１の格納部と、
話し手のために生成され話し手に依存し、特定の発声クラスに関連付けられた１又は複数の第２の音響モデルテンプレートを格納する第２の格納部と、
音声認識エンジンと、
管理されていない音声認識学習と音声認識テストを実行するための命令のセットを格納するコンピュータ読み取り可能なメディアとを備え、
前記命令のセットは、
前記話し手からの入力音声と、前記第１及び第２の各音響モデルテンプレートとのパターンマッチングを行い、前記各パターンマッチングの結果として第１及び第２のパターンマッチングスコアをそれぞれ生成し、
同じ発声クラスに関連付けられた前記第１の音響モデルテンプレートについて生成された第１のパターンマッチングスコアと、前記第２の音響モデルテンプレートについて生成された第２のパターンマッチングスコアとを比較し、
前記第１のパターンマッチングスコアの方が、前記第２のパターンマッチングスコアよりも大きい場合には、前記第１のパターンマッチングスコアが生成された前記第１の音響モデルテンプレートを、前記第２の格納部に、新たな第２の音響モデルテンプレートとして格納するように適応された音声認識装置であって、
前記第１のパターンマッチングスコアを生成することはさらに、
前記話し手からの入力音声と、少なくとも１つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも１つのHidden Markov Modelマッチングスコアを生成することと、
前記話し手からの入力音声と、少なくとも１つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも１つのDynamic Time Warpingマッチングスコアを生成することと、
前記少なくとも１つのHidden Markov Modelマッチングスコアと、前記少なくとも１つのDynamic Time Warpingマッチングスコアとについて少なくとも１つの重み加算を行い、前記第１のパターンマッチングスコアを生成することと
を備える音声認識装置。
請求項１に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのHidden Markov Model音響モデルを備える音声認識装置。
請求項１に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのDynamic Time Warping音響モデルを備える音声認識装置。
請求項１に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのHidden Markov Model音響モデルと、少なくとも１つのDynamic Time Warping音響モデルとを備える音声認識装置。
請求項１に記載の音声認識装置において、
前記話し手に依存しない音響モデルテンプレートは、少なくとも１つのガーベッジテンプレートを含む音声認識装置。
請求項１に記載の音声認識装置において、
前記話し手に依存する音響モデルは、少なくとも１つのDynamic Time Warping音響モデルを備える音声認識装置。
請求項１に記載の音声認識装置において、
前記命令のセットは更に、
前記話し手からの第２の入力音声のセグメントと、前記第１及び第２の各音響モデルテンプレートとのパターンマッチングを行い、前記パターンマッチングの結果として第３及び第４のパターンマッチングスコアをそれぞれ生成し、前記第３のパターンマッチングスコアと前記第４のパターンマッチングスコアとが結合された少なくとも１つの結合パターンマッチングスコアを生成するように前記音声認識エンジンを設定し、
最良の結合パターンマッチングスコアを持つ、特定の単語又は入力音声のセグメントである発声クラスを認識する
ように適応された音声認識装置。
請求項７に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのHidden Markov Model音響モデルを備える音声認識装置。
請求項７に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのDynamic Time Warping音響モデルを備える音声認識装置。
請求項７に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのHidden Markov Model音響モデルと、少なくとも１つのDynamic Time Warping音響モデルとを備える音声認識装置。
請求項７に記載の音声認識装置において、
前記話し手に依存する音響モデルは、少なくとも１つのDynamic Time Warping音響モデルを備える音声認識装置。
請求項１に記載の音声認識装置において、
前記話し手からの入力音声のセグメントと、前記第２の音響モデルテンプレートとのパターンマッチングを行い、少なくとも１つの前記第２のパターンマッチングスコアを生成する手段と、
少なくとも１つの前記第１のパターンマッチングスコアを、前記少なくとも１つの前記第２のパターンマッチングスコアと結合し、少なくとも１つの結合パターンマッチングスコアを生成する手段と
を更に備える音声認識装置。
請求項１２に記載の音声認識装置において、
前記少なくとも１つの前記第２のパターンマッチングスコアを生成する手段と、前記少なくとも１つの結合パターンマッチングスコアを生成する手段とを、前記音声認識エンジン内に組み込んだ音声認識装置。
請求項１２に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのHidden Markov Model音響モデルを備える音声認識装置。
請求項１２に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのDynamic Time Warping音響モデルを備える音声認識装置。
請求項１２に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも１つのHidden Markov Model音響モデルと、少なくとも１つのDynamic Time Warping音響モデルとを備える音声認識装置。
請求項１２に記載の音声認識装置において、
前記話し手に依存する音響モデルは、少なくとも１つのDynamic Time Warping音響モデルを備える音声認識装置。
音声認識のために、管理されていない学習を実行する方法であって、
第１の入力音声セグメントと、少なくとも１つの話し手に依存しない音響テンプレートとのパターンマッチングを行い、少なくとも１つの第１のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行うことと、
前記第１の入力音声セグメントと、前記認識された発声クラスに対応する、話し手に依存するモデルの、格納された音響テンプレートとのパターンマッチングを行い、第２のパターンマッチングスコアを生成することと、
前記第１のパターンマッチングスコアと、前記第２のパターンマッチングスコアとを比較することと、
前記比較の結果、前記第１のパターンマッチングスコアが、前記第２のパターンマッチングスコアよりも大きいのであれば、前記格納された音響テンプレートを、前記第１の入力音声セグメントから導出される新たなテンプレートと交換することとを備え、
前記少なくとも第１のパターンマッチングスコアを生成することは更に、
前記第１の入力音声セグメントと、少なくとも１つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも１つのHidden Markov Modelマッチングスコアを生成することと、
前記第１の入力音声セグメントと、少なくとも１つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも１つのDynamic Time Warpingマッチングスコアを生成することと、
前記少なくとも１つのHidden Markov Modelマッチングスコアと、前記少なくとも１つのDynamic Time Warpingマッチングスコアとについて少なくとも１つの重み加算を行い、前記少なくとも第１の入力パターンマッチングスコアを生成することと
を備える方法。
音声認識のために、管理されてない学習を実行する装置であって、
第１の入力音声セグメントと、少なくとも１つの話し手に依存しない音響テンプレートとのパターンマッチングを行い、少なくとも１つの第１のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行う手段と、
前記第１の入力音声セグメントと、前記認識された発声クラスに対応する、話し手に依存するモデルの、格納された音響テンプレートとのパターンマッチングを行い、第２のパターンマッチングスコアを生成し、前記第１のパターンマッチングスコアと、前記第２のパターンマッチングスコアとを比較する手段と、
前記比較の結果、前記第１のパターンマッチングスコアが、前記第２のパターンマッチングスコアよりも大きいのであれば、前記格納された音響テンプレートを、前記第１の入力音声セグメントから導出される新たなテンプレートと交換する手段とを備え、
少なくとも１つの第１のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行う手段はさらに、
前記第１の入力音声セグメントと、少なくとも１つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも１つのHidden Markov Modelマッチングスコアを生成し、
前記第１の入力音声セグメントと、少なくとも１つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも１つのDynamic Time Warpingマッチングスコアを生成し、
前記少なくとも１つのHidden Markov Modelマッチングスコアと、前記少なくとも１つのDynamic Time Warpingマッチングスコアとについて少なくとも１つの重み加算を行い、前記少なくとも第１の入力パターンマッチングスコアを生成する装置。