JP2016026326A

JP2016026326A - 再認識および統計的分類を使用する認識

Info

Publication number: JP2016026326A
Application number: JP2015202120A
Authority: JP
Inventors: チャンシュワンユ; Shuangyu Chang; レビットマイケル; Levit Michael; バンチューブルース; Buntschuh Bruce
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-06-04
Filing date: 2015-10-13
Publication date: 2016-02-12
Also published as: AU2010256788A1; AU2010256788B2; EP2438533A2; RU2011149321A; CN102460423B; EP2438533A4; EP2438533B1; JP2012529080A; CN102460423A; WO2010141513A2; KR20120029413A; BRPI1014550B1; KR101700466B1; US8930179B2; CA2760992A1; CA2760992C; US20100312546A1; WO2010141513A3; BRPI1014550A2; RU2571519C2

Abstract

【課題】再認識および統計的分類を使用する会話認識のためのシステムを提供する。
【解決手段】入力の認識のためにコンテキスト特定文典の１セットとして全般の文典を利用するアーキテクチャにおいて、コンテキスト特定文典のそれぞれがサブタスクカテゴリおよび地理的地域のような特定のコンテキストに対応する。文典は、共同で全体の領域をカバーする。また、同じ入力に対して、複数の認識を並行的に実行することができ、各認識パスは１つ以上のコンテキスト特定文典を用いる。異なる認識器−文典からの複数の中間認識結果は、複数の認識結果に基づいてダイナミックに構成された文典、もしくは他の領域知識を用いて再認識を実行することにより、または複数の認識結果および他の領域知識から抽出された分類特徴に基づいて作動する統計的分類器を用いて当選者を選択することにより、調整することができる。
【選択図】図１

Description

再認識および統計的分類を使用する会話認識のためのシステムおよび方法に関する。

数多くの企業名、ウェブ探索クエリおよび音声ダイヤル要求などをカバーする音声探索タスクのように、大きい文典（ｇｒａｍｍａｒ、文法）探索空間が必要とされる場合に、会話認識性能は次善最適になることが多い。よく示されている３つの次善最適は、長い認識遅延、低い認識精度、不十分な文典カバー範囲を含む。

１つの既存の移動音声探索アプリケーションは、第１の段階において全国の企業リスチング文典と局所的文典を用い、第２の段階において局所性特定企業リスチング文典を用いて同じ発話を再認識する（局所性は、第１の段階において決定する）。この方法は、遅延問題を対処しないが、非常に特定の状況においてカバー範囲および精度を改善することができる。もう１つの方法は、サブ発話レベルにおける別個の認識器の出力の間に投票することにより、単語エラー率を低減しようとする。一般的に、該方法およびその拡張は、各認識器が全体のタスクのための全部そろった文典を用いる認識を試みると仮定する。

以下は、本明細書に記載されている一部の新規な実施形態の基本的な理解が得られるように簡略化した要約説明である。この要約説明は幅広く概要したものではなく、またキーとなる要素または重要な要素を特定し、またはその範囲を限定するものでもない。その唯一の目的は、以後に提示されるより詳細な説明の序文としていくつかの概念（コンセプト）を簡略化して提示することである。

開示されたアーキテクチャは、認識されるべき入力を受け取り、認識処理のための入力に、異なるコンテキスト特定制約のインスタンスを適用する。まとめられた別々の制約インスタンスは、すべてを含めたコンテキスト領域を所与の入力に提供する。例えば、これらの制約インスタンスに対して、認識を並行的に実行することにより、認識遅延、認識精度、および認識領域カバー範囲は改善される。また、別々の認識パスの認識処理は、結果が生成されるまでシステムの待つ時間に時間制限を課すことにより、管理することができる。

会話認識のコンテキストにおいて、アーキテクチャは、それぞれがサブタスクカテゴリおよび地理的地域のような特定のコンテキストに対応する別々の小さいコンテキスト特定文典の論理和の形の、すべてを含めた文典を発話入力の認識のために利用する。文典は、共同で全体の領域をカバーする。また、同じ入力に対して、複数の認識を並行的に実行することができ、各認識パスは１つ以上のコンテキスト特定文典を用いる。

異なる認識器−文典パスからの複数の中間認識結果は、複数の認識結果に基づいてダイナミックに構成された文典、もしかすると他の領域知識を用いて再認識を実行することにより、または複数の認識結果および他の領域知識から抽出された分類特徴に基づいて作動する統計的分類器を用いて当選者を選択することにより、調整することができる。

上述した目的および関連目的を達成するために、本明細書には、以下の説明と添付図面と関連付けていくつかの例示した側面が説明されている。これらの側面は、本明細書に開示した原理が実施されるのを可能にする種々の方法を示しており、これらの側面およびその同等側面のすべては、請求項に記載の主題の範囲に属するものである。その他の利点および新規な特徴は、以下の詳細説明を添付図面と関連付けて考慮することにより明らかにされる。

開示したアーキテクチャによる、コンピュータ実装認識システムを示す図である。単一の認識結果の決定のためにルールを利用するシステムの代替実施形態を示す図である。再認識を利用し、および制約が音声認識のための文典である、コンテキスト特定制約認識システムを示す図である。統計的分類を利用し、および制約が並行音声認識のための文典である、コンテキスト特定制約認識システムを示す図である。コンピュータ実装認識方法を示す図である。図５の方法のさらなる態様を示す図である。図５の方法の追加の態様を示す図である。隔離されたプラグイン実行を開示したアーキテクチャに従って実行するように操作可能であるコンピューティングシステムを示すブロック図である。プラグイン隔離のプログラム管理のためのコンピューティング環境を示す概略ブロック図である。

開示されたアーキテクチャは、最初にコンテキスト特定制約を用いて同じ入力（例えば、発話）の独立的な認識を行う認識システムである。これらの独立的な認識は、シリアルにまたは並行的に行うことができる。それぞれのコンテキスト特定制約は、すべての領域知識を統合しようとする制約より小さい。複数の認識結果の調整は、次の認識（再認識）を用いて、および／または統計的分類を介して完成することができる。

アーキテクチャは、従来の単一文典、単一認識の型の方法に関連する認識遅延、認識精度および不十分な文典カバー範囲の問題を対処する。認識遅延に関しては、並行認識における各認識インスタンスは、同じタスクをカバーすることができる単一の大きい文典より小さい文典に対するものである。さらに、再認識ステップは、小さいダイナミック文典に対するものである。並行認識の最大遅延の組み合わせた２つの認識段階は、例えば再認識の遅延と組み合わせ、特に非ストリーミングの場合に、単一の大きい文典を用いる認識より小さい遅延を有することができる。

単一の認識の場合に、認識精度は、仮説（ｈｙｐｏｔｈｅｓｉｓ）探索の期間中の刈込みのために損失することが多い。複数の認識を有することによっては、ずっと大きい仮説セットを維持することができるので、この制限が緩和される。また、例えば、ターゲットコンテキストからの文典などコンテキスト特定制約は、多数のコンテキストをカバーする単一の全般の文典に比べて、発話に関して高い精度をもたらしやすい。したがって、複数の認識からの結果は正しい結果を包含する可能性が高く、再認識または分類器を用いて複数の認識結果を調整するのは、単一文典、単一認識の方法に比べて、正しい結果を生成する可能性が高い。

不十分な文典カバー範囲に関しては、例えば、単一の文典の可能な大きさおよび／または単一の認識における文典の可能な大きさに関する実際的な（例えば、ハードウェア、ソフトウェア）制限があることが多い。複数の認識を並行的に実行することは、例えば、各認識が別個のソフトウェアおよび／またはハードウェアリソース上で実行することが可能でるので、全体の文典カバー範囲を大幅に増やすことができる。

開示されたアーキテクチャの大規模会話認識タスクへの適用を考える。以下の例は、ウェブ、地元企業および個人的な連絡先などの自由な探索を含む音声探索タスクを例にする。解決法の様々な部分に対する変更および改善は可能である。

認識文典は、それぞれがオリジナルのタスク空間の特定のサブセットをカバーする、重ねる可能性があるいくつかの小さいコンテキスト特定文典として提供される。分割のために、コンテキストは、サブタスクカテゴリ（例えば、企業名対映画のタイトル）、地理的位置（例えば、カリフォルニア州内の企業対ニューヨーク州内の企業）、人口統計プロフィール（例えば、若者向けコンテンツ対大人向けコンテンツ）などに基にすることができる。各コンテンツ特定文典は別々に作ることができ、よって、各コンテキストに関係のある知識、構造およびほかの利用可能情報を活用して、各コンテキストからの期待されたユーザ入力の成功率を最大化する。

次に、図面を参照して説明すると、類似の要素は、図全体を通して類似の参照符号を使用して示されている。以下の記載では、説明の便宜上、完全な理解が得られるように多数の具体例が説明されている。なお、明らかであるように、新規の実施形態はこれらの具体例がなくても実施することが可能である。その他の例では、その理解を容易にするために周知の構造およびデバイスがブロック図で示されている。その目的は、請求項に記載した主題の精神および範囲に属するすべての変更、等価および代替をカバーすることである。

図１は、開示されたアーキテクチャによる、コンピュータ実装認識システム１００を示す。システム１００は、入力１０６を認識結果１０８に認識処理するための認識コンテキスト特定制約１０４の制約コンポーネント１０２と、認識結果１０８を単一の認識結果１１２に調整するための調整コンポーネント１１０とを含む。

システム１００は、対応するコンテキスト特定制約１０４を並行パスにおいておよび／またはシリアルに別々に認識処理するための認識コンポーネント１１４をさらに備えることができる。例えば、コンテキスト特定制約１０４は、入力１０６に対して文典を並行パスおよび／またはシリアルパスにおいて認識処理するための文典を含むことができる。コンテキスト特定制約１０４の個々のセットは、重なっていない、および重なっているコンテキストカバー範囲を含むことができる。言い換えれば、制約の１つのセットは、他の制約セットの制約と重ねることができる。それとともに、いくつかの制約セットは他の制約セットの制約と重なっていない。

調整コンポーネント１１０は、認識結果１０８に基づいてダイナミックに構成された文典を利用することにより、再認識を用いて認識結果１０８を調整し、単一の認識結果１１２を生成することができる。

あるいは、調整コンポーネント１１０は、認識結果１０８から抽出された分類特徴に基づいて作動する統計的分類器を用いて認識結果１０８を調整し、単一の調整結果１０２を生成する。

調整処理は、関連のあるタスクデータを処理して、単一の認識結果１１２に達することもできる。関連のあるタスクデータは、認識された文字列、発話レベルおよびサブ発話レベル信頼スコア、会話カバー範囲、並行認識における相対遅延、コンテキストの事前確率、各認識の相対難易度または認識結果におけるコンセンサスのうち、少なくとも１つを含むことができる。加えて、手作業でおよび／または自動的に生成された、タスクの特定の用件を反映させるいくつかのルールは、複数の認識仮説の調整処理を左右することができる。

図２は、単一の認識結果１１２の決定のためのルールを利用するシステム２００の代替的な実施形態を示す。システム２００は、入力１０６を認識結果１０８に認識処理するためのコンテキスト特定制約１０４の制約コンポーネント１０２と、認識結果１０８を単一の認識結果１１２に調整するための再認識コンポーネント１１０と、対応するコンテキスト特定制約を平行パスにおいておよび／またはシリアルに別々に認識処理するための認識コンポーネント１１４を含む。

ルールコンポーネント２０２は、認識結果１０８および／または単一の認識結果１１２（最後の結果）のうち１つ以上を宣言するためのルール（例えば、優先ルール）を適用するために提供される。たとえば、特定の認識器が十分に高い信頼スコアを有する特定の結果を返し、そしてその結果が、対応する認識器プロセスの最後の結果としてみなされ、単一の認識結果１１２最後の結果としてもみなされるかどうかを決定するルールは、作成されて適用される。

図３は、再認識を利用する、制約が音声認識のための文典であるコンテキスト特定制約認識システム３００を示す。システム３００は、並行的に作動するＮ対の認識−文典対を含み（表示された認識Ｎ）、各対は１つ以上の認識コンテキスト特定文典および認識器を含む。示されるように、文典は異なり、しかし、必ずしもそうではないが、１つの文典が他の文典と重ねる可能性がある。既存の認識システムにあるように１つの大きい文典を作成して利用するのではなく、システム３００は（１つの大きい文典に統合する代わりに）別々の文典を保持し、文典のそれぞれ上で会話発話入力３０２の認識を実行する。

言い換えれば、発話入力３０２は、第１の認識器３０４および関連する第１のコンテキスト特定文典３０６を通じて処理され、よって、第１の結果３０８が生成され、同様に、第２の認識器３１０および関連する第２のコンテキスト特定文典３１４を通じて処理され、よって、第２の結果３１４が生成され、第Ｎの結果が生成される所望の第Ｎの認識器および文典まで同じように続く。結果は、ダイナミック文典３１６を生成するために利用され、ダイナミック文典３１６は次に再認識３１８が最後の認識結果３２０を出力するために用いられる。

言い換えれば、ユーザ発話入力３０２に関して、別々の認識がコンテキスト特定文典のそれぞれに対して実行される。これは、同時にまたはほぼ同時に並行的に行うように示される。並行認識のそれぞれは、同じ種または異なる種の認識器（例えば、組込型認識器対ネットワーク認識器、異なる音響モテルを有するネットワーク認識器など）を利用し、同じまたは異なる認識パラメータを用いることができる。最大待ち期間までは、システム３００は、すべての利用可能な認識結果（例えば、結果３０８、結果３０４など）を収集し、再認識によって最後の認識結果３２０を決定する。

ダイナミック文典３１６は、すべての認識結果から導出された競合エントリを含むように構築され、認識結果のベストＮおよび／または認識ラティス（recognition lattice）の認識文字列、解釈および信頼スコアを含むことができる。オリジナルの発話入力３０２の再認識は、このダイナミック文典３１６に対して行われる。信頼スコアを含む再認識３１８の結果は、最後の認識結果３２０として見なされる。

任意に、ルールコンポーネント２０２には、すべての認識が完成される前に最後の認識結果３２０を宣言する、ある優先ルールを含むことができ、例えば、ある認識器は十分高い信頼スコアを有する特定の結果を返す場合に、結果を最後の結果として受けることができる。任意に、タスクに関係のある他の領域知識３２２をダイナミック文典への入力として提供して、より集中的な認識プロセスを提供することができる。この知識３２２は、ユーザの好みの設定、発話において言われていることに係るコンテンツ、ハードウェア／ソフトウェア上の考慮および局所性などを含むことができる。

図４は、統計的分類を利用する、制約が並行の音声認識のための文典であるコンテキスト特定制約認識システム４００を示す。複数の数字上および／または分類の特徴４０２は、すべての結果（例えば、結果３０８、結果３１４など）、もしかすると認識タスクに関係のある他の領域知識３２２から導出することができる。統計的分類器は、各結果と実際のユーザ入力との類似度を決定するために用いられる。もっとも高い分類スコアを有する結果は、最後の認識結果３２０として選択することができ、分類スコアは、最後の認識信頼度に正規化することができる。

システム４００は、並行的に作動するＮ対の認識−文典対を含み、各対はコンテキスト特定文典（表示されたコンテキスト特定文典Ｎ）および認識器（表示された認識Ｎ）を含む。前述したように、文典は異なり、しかし、必ずしもそうではないが、１つの文典が他の文典と重ねる可能性がある。既存の認識システムにあるように１つの大きい文典を作成して利用するのではなく、システム４００は（１つの大きい文典に統合する代わりに）別々の文典を保持し、文典のそれぞれ上で会話発話入力３０２の認識を実行する。

言い換えれば、発話入力３０２は、第１の認識器３０４および関連する第１のコンテキスト特定文典３０６を通じて処理され、よって、第１の結果３０８が生成され、同様に、第２の認識器３１０および関連する第２のコンテキスト特定文典３１４を通じて処理され、よって、第２の結果３１４が生成され、第Ｎの結果が生成される所望の第Ｎの認識器および文典まで同じように続く。結果（結果３０８、結果３１４、…、結果Ｎ）は、特徴４０２を生成するために利用され、特徴４０２は、次に最後の認識結果３２０を得るために統計的分類４０４に渡される。

図３において前述したように、任意に、ルールコンポーネント２０２には、すべての認識が完成される前に最後の認識結果３２０を宣言する、ある優先ルールを含むことができ、例えば、ある認識器は十分高い信頼スコアを有する特定の結果を返す場合に、結果を最後の結果として受けることができる。任意に、タスクに関係のある他の領域知識３２２をダイナミック文典への入力として提供して、より集中的な認識プロセスを提供することができる。この知識３２２は、ユーザの好みの設定、発話において言われていることに係るコンテンツ、ハードウェア／ソフトウェア上の考慮および局所性などを含むことができる。

ここでの説明は、オンラインでユーザ入力発話を受信する際のアーキテクチャの動作をカバーすることに留意されたい。解決法のもう１つの態様は、特に、複数の認識結果の調整の期間中に、システムが使用する適切な設定、特徴などを選択することである。再認識の方法と統計的分類器の方法の両方のために、訓練データを利用することができ、オフライン訓練プロセスを利用して最適な構成およびパラメタリゼーションを選択することができる。

再認識方法に関して、任意に、回帰などの統計的分析を行って相対的重さを再認識ダイナミック文典におけるパスに割り当てることも可能である。他の領域知識３２２の出力を制御して各再認識プロセスのためのダイナミック文典３１６を左右することができる。

いずれかの方法において、並行認識結果から直接に取得されたある特徴および関連するタスク知識から導出される他の特徴である特徴４０２のうち１つ以上を利用することができる。特徴４０２は、これらに限定されないが、認識文字列、発話レベルおよびサブ発話レベル信頼スコア、会話カバー範囲（例えば、会話として仮定された発話の一部）、認識における相対遅延（例えば、並行の場合）、コンテキストの事前確率（例えば、ユーザが企業名を求める頻度対ユーザがスポーツスコアを求める頻度）、各コンテキスト特定認識の相対難易度（例えば、コンテキスト認識精度内におけるコンテキスト特定文典のパープレキシティ）、各文典の（例えば、ウェブ探索文典が多種類のクエリを受けることができる）許容性、および認識結果におけるコンセンサスを含むことができる。

個々の認識プロセスは、サーバ、クライアントまたはサーバとクライントの組み合わせなど異なる機器にわたって分散されることが可能であることに留意されたい。これは、分類と再認識の両方の場合に並行認識やシリアル認識に適用する。

言い換えれば、開示されたアーキテクチャは、発話入力を認識結果に認識処理するためのコンテキスト特定文典の制約コンポーネントと、対応するコンテキスト特定文典を用いて発話入力を並行パスにおいて別々に認識処理するための認識コンポーネントと、認識結果を最後の認識結果に調整するための調整コンポーネントとを備えるコンピュータ実装認識システムである。

調整コンポーネントは、認識結果のダイナミックに構成された文典を利用し、再認識を用いて認識結果を調整し、最後の認識結果を生成する。任意に、調整コンポーネントは、再認識の前に回帰などの統計的分析を利用することにより、認識結果を調整して最後の認識結果を決定する。あるいは、調整コンポーネントは、認識結果から抽出された特徴に基づいて作動する統計的分類を用いて認識結果を調整し、最後の認識結果を生成する。加えて、ルールコンポーネントは、最後の認識結果の決定を定義する１つ以上のルールを課し、他の領域知識は、統計的分類の調整用の特徴および再認識の調整用のダイナミック文典を左右することができる。

本明細書には、開示したアーキテクチャの新規側面を実行する例示方法を表すフローチャートのセットが含まれている。説明の便宜上、例えば、フローチャートまたはフロー図の形で本明細書に示した１以上の方法は一連のアクトとして示され、記載されているが、当然に理解されるように、これら方法によれば、一部のアクトが本明細書に示され、記載されているのとは異なる順序で現れることもあれば、他のアクトと同時に現れることもあるので、これらの方法はアクトの順序によって制限されない。例えば、通常の知識者ならば理解されるように、方法は、ステート図におけるように一連の相互に関係するステートまたはイベントのとして表現されることもある。さらに、方法に例示したアクトは新規の実現ではすべてが必要であるとは限らない。

図５は、コンピュータ実装認識方法を示す。ステップ５００において、発話入力を処理するために、別々のコンテキスト特定文典を受信する。ステップ５０２において、各パスの対応するコンテキスト特定文典を用いて、発話入力を並行パスにおいて認識する。ステップ５０４において、中間認識結果を各パスから生成する。ステップ５０６において、中間認識結果を最後の認識結果に調整する。

図６は、図５の方法の追加的な態様を示す。ステップ６００において、認識結果から生成したダイナミック文典の再認識を用いて中間認識結果を調整する。ステップ６０２において、再認識による中間認識結果の調整の期間中に、他の領域知識を入力する。ステップ６０４において、１つ以上のルールを課して最後の認識結果を生成する。ステップ６０６において、統計的分類による中間認識結果の調整の期間中に、他の領域知識を入力する。ステップ６０８において、１つ以上のルールを課して最後の認識結果を生成する。

図７は、図５の方法の付加の態様を示す。ステップ７００において、回帰などの統計的分析を行う。分析をすべてのパス上で同時に実施する。ステップ７０２において、相対的重さを再認識ダイナミック文典における各パスに割り当てる。ステップ７０４において、パスの中間認識結果の生成を所定の時間待つ。ステップ７０６において、時間内生成した中間認識結果に基づいて最後の認識結果を生成する。

本出願において用いられている「コンポーネント」と「システム」の用語は、ハードウェアであるか、ハードウェアとソフトウェアの組み合わせであるか、ソフトウェアであるか、実行中のソフトウェアであるかに関係なく、コンピュータに関係するエンティティを指すことを目的としている。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、ハードディスクドライブ、多重ストレージドライブ（光および／または磁気記憶媒体の）、オブジェクト、実行可能コード(executable)、実行スレッド、プログラム、および／またはコンピュータにすることができるが、これらに限定されない。例として、サーバ上で実行されるアプリケーションとサーバは共にコンポーネントにすることができる。１以上のコンポーネントはプロセスおよび／または実行スレッド内に置いておくことができ、コンポーネントは１つのコンピュータ上に置いておくことも、２またはそれ以上のコンピュータ間に分散させることもできる。「例示」の用語は、例(example)、インスタンス(instance)、または図例(illustration)を意味するために本明細書で用いられることがある。「例示」として記載されているどの側面または設計も、必ずしも、他の側面または設計よりも好ましいまたは優位であると解釈されない。

次に図８を参照して説明すると、図８は隔離されたプラグイン実行を開示したアーキテクチャに従って実行するように動作可能であるコンピューティングシステム８００を示すブロック図である。種々の側面に関する追加のコンテキストが得られるようにするために、図８および以下の解説は、種々の側面が実現可能である適当なコンピューティングシステム８００の概要を簡単に記載したものである。上記記載は、１以上のコンピュータ上で実行可能であるコンピュータ実行可能命令の一般的コンテキストの中で説明されているが、この分野の精通者ならば認識されるように、新規の実施形態が他のプログラムモジュールと関連付けて実現されることも、ハードウェアとソフトウェアの組み合わせとして実現されることも可能である。

種々の側面を実現するコンピューティングシステム８００は、１以上の処理ユニット８０４、システムメモリ８０６およびシステムバス８０８を装備したコンピュータ８０２に含んでいる。処理ユニット８０４は、シングルコンピュータ、マルチコンピュータ、シングルコアユニットおよびマルチコアユニットのように商用化された種々のプロセッサのいずれかにすることができる。さらに、この分野の精通者ならば理解されるように、新規の本方法が他のコンピュータシステム構成と共に実施することが可能であり、コンピュータシステム構成としてはミニコンピュータ、マインフレームコンピュータのほかに、パーソナルコンピュータ（例：デスクトップ、ラップトップなど）、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースまたはプログラマブルコンシューマエレクトロニクスなどがあり、これらの各々は１以上の関連デバイスに動作可能に結合することが可能である。

システムメモリ８０６は、揮発性（ＶＯＬ）メモリ８１０（例：ランダムアクセスメモリ（ＲＡＭ））および不揮発性（ＮＯＮ−ＶＯＬ）メモリ８１２（例：ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなど）を含むことができる。基本入出力システム（ＢＩＯＳ）は不揮発性メモリ８１２にストアしておくことができ、そこには、スタートアップ時のようにコンピュータ８０２内のコンピュータ間でデータおよび信号をやりとりするのを容易にする基本的ルーチンが含まれている。揮発性メモリ８１０は、キャッシングデータ用のスタティックＲＡＭのような高速ＲＡＭを含むことも可能である。

システムバス８０８は、システムコンポーネントのインタフェースとなるものであり、この中には１以上の処理ユニット８０４とのメモリサブシステム８０６が含まれるが、これに限定されない。システムバス８０８は、メモリバス（メモリコントローラ付きまたは無し）にさらに相互接続可能である数種タイプのバス構造のいずれか、および種々の商用化バスアーキテクチャのいずれかを使用した周辺バス（例：ＰＣＩ、ＰＣＩｅ、ＡＧＰ、ＬＰＣなど）にすることができる。

コンピュータ８０２は１以上のストレージサブシステム８１４およびこれらのストレージサブシステム８１４とシステムバス８０８および他の望みのコンピュータコンポーネントとの間のインタフェースとなるストレージインタフェース８１６をさらに含んでいる。ストレージサブシステム８１４は、例えば、ハードディスクドライブ（ＨＤＤ）、磁気フロッピディスクドライブ（ＦＤＤ）および／または光ディスクストレージドライブ（例：ＣＤ−ＲＯＭドライブ、ＤＶＤドライブなど）の１以上を含むことができる。ストレージインタフェース８１６は、例えば、ＥＩＤＥ、ＡＴＡ、ＳＡＴＡ、およびＩＥＥＥ１３９４などのインタフェーステクノロジを含むことができる。

１以上のプログラムおよびデータは、メモリサブシステム８０６、取り外し可能メモリサブシステム８１８（例：フラッシュドライブ形体のファクタテクノロジ）、および／またはストレージサブシステム８１４にストアしておくことができるが、その中にはオペレーティングシステム８２０、１以上のアプリケーションプログラム８２２、その他のプログラムモジュール８２４およびプログラムデータ８２６が含まれている。

１以上のアプリケーションプログラム８２２、その他のプログラムモジュール８２４およびプログラムデータ８２６は、例えば、図１のシステム１００のコンポーネント、エンティティおよび結果、図２のシステム２００のコンポーネント、エンティティおよび結果、図３のシステム３００のコンポーネント、エンティティおよび結果、図４のシステム４００のコンポーネント、エンティティおよび結果、ならびに図５乃至図７において提供される方法および追加の態様を含むことができる。

オペレーティングシステム８２０、アプリケーション８２２、モジュール８２４および／またはデータ８２６のすべてまたは一部は、例えば、揮発性メモリ８１０のようなメモリにキャッシュしておくこともできる。当然に理解されるように、開示したアーキテクチャは種々の商用化オペレーティングシステムまたはオペレーティングシステムの組み合わせと共に実現することができる（例：バーチャルマシンとして）。

ストレージサブシステム８１４およびメモリサブシステム（８０６と８１８）は、データ、データ構造、コンピュータ実行可能命令などを揮発的または不揮発的に収めているコンピュータ可読媒体の働きをする。コンピュータ可読媒体は、利用できる媒体ならば、コンピュータ８０２によってアクセスできるどの媒体にすることも可能であり、その中には揮発性媒体と不揮発性媒体、取り外し可能媒体と取り外し不能媒体が含まれる。コンピュータ８０２にとっては、媒体はデータを任意の適当なデジタルフォーマットでストアするのに適している。この分野の精通者ならば当然に理解されるように、ｚｉｐドライブ、磁気テープ、フラッシュメモリカード、カートリッジなどのように、開示したアーキテクチャの新規方法を実行するためのコンピュータ実行可能命令をストアするために、他のタイプのコンピュータ可読媒体を採用することができる。

ユーザは、キーボードとマウスのような外部ユーザ入力デバイス８２８を使用してコンピュータ８０２、プログラムおよびデータとやりとりすることができる。その他の外部入力デバイスとして可能なものに、マイクロホン、ＩＲ（赤外線）リモートコントロール、ジョイスティック、ゲームパッド、カメラ認識システム、スタイラスペン、タッチスクリーン、ジェスチャシステム（例：目の動き、手の動きなど）などがある。ユーザは、タッチパッド、マイクロホン、キーボードなどのオンボードユーザ入力デバイス８３０を使用してコンピュータ８０２、プログラムおよびデータとやりとりすることができるが、そこではコンピュータ８０２は、例えば、ポータブルコンピュータになっている。これらおよびその他の入力デバイスはシステムバス８０８を経由した入出力（Ｉ／Ｏ）を通して処理ユニット８０４に接続されているが、パラレルポート、ＩＥＥＥ１３９４シリアルポート、ゲームポート、ＵＳＢポート、ＩＲインタフェースなどの他のインタフェースによって接続することができる。Ｉ／Ｏデバイスインタフェース８３２は、サウンドカードおよび／またはオンボードオーディオ処理機能のように、プリンタ、オーディオデバイス、カメラデバイスなどの出力周辺デバイス８３４の使用も容易にしている。

１以上のグラフィックスインタフェース８３６（一般にグラフィックス処理ユニット（ＧＰＵ）とも呼ばれる）はコンピュータ８０２と外部ディスプレイ８３８（例：ＬＣＤプラズマ）および／またはオンボードディスプレイ８４０〈例：ポータブルコンピュータの場合〉との間にグラフィックスとビデオ信号を提供する。グラフィックスインタフェース８３６はコンピュータシステムボードの一部として製造することもできる。

コンピュータ８０２は、ワイヤ／ワイヤレス通信サブシステム８４２を介した１以上のネットワークおよび／または他のコンピュータとの論理コネクションを使用してネットワーク化環境（例：ＩＰ）で動作することができる。その他のコンピュータとして可能なものとしては、ワークステーション、サーバ、ルータ、パーソナルコンピュータ、マイクロプロセッサベースのエンターテインメントアプライアンス、ピアデバイスまたは他の共通ネットワークノードがあり、これらは、コンピュータ８０２に関して説明した要素の多くまたはすべてを含んでいるのが代表的である。論理コネクションとして可能なものとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ホットスポットなどのワイヤ／ワイヤレス接続性がある。ＬＡＮとＷＡＮネットワーキング環境はオフィスや会社で普及しており、イントラネットのような企業内コンピュータネットワークを容易化しており、そのすべてはインターネットのようなグローバル通信ネットワークに接続していることがある。

ネットワーキング環境で使用されるときは、コンピュータ８０２はワイヤ／ワイヤレス通信サブシステム８４２（例：ネットワークインタフェースアダプタ、オンボードトランシーバサブシステムなお）に接続して、ワイヤ／ワイヤレスネットワーク、ワイヤ／ワイヤレスプリンタ、ワイヤ／ワイヤレス入力デバイス８４４などと通信している。コンピュータ８０２はモデムを含むことが可能であるが、またはネットワーク上の通信を確立するための他の手段を含んでいることもある。ネットワーク化環境では、コンピュータ８０２に関係するプログラムとデータは、分散システムと関連するようなリモートメモリ／ストレージデバイスにストアしておくことができる。以上から理解されるように、図示のネットワークコネクションは例示であり、コンピュータ間の通信リンクを確立する他の手段を使用することが可能である。

コンピュータ８０２は、ＩＥＥＥｘｘファミリの標準などの無線(radio)テクノロジを使用してワイヤ／ワイヤレスデバイスまたはエンティティと通信するように動作可能であり、そのようなものとしては、例えば、プリンタ、スキャナ、デスクトップおよび／またはポータブルプリンタ、パーソナルデジタルアシスタント（ＰＤＡ）、通信衛星、ワイヤレスに検出可能タグ（例：キオスク、ニューススタンド、レストルーム）と関連付けられた機器またはロケーションのいずれかの部分とのワイヤレス通信（例：ＩＥＥＥ８０２．１１無線(over-the-air)で動作可能に配置されたワイヤレスデバイスなどがある。この中には、少なくとも、ホットスポット用のＷｉ−Ｆｉ（つまりワイヤレス(Wireless Fidelity)、ＷｉＭａｘ、およびＢｌｕｅｔｏｏｔｈ（登録商標）ワイヤレステクノロジが含まれている。従って、通信は、従来のネットワークまたは単純に少なくとも２つのデバイス間のアドホック(ad hoc)ネットワークとの通信のように事前定義の構造にすることができる。Ｗｉ−ＦｉはＩＥＥＥ８０２．１１ｘ(a、ｂ、ｇなど)を使用して、セキュアで確信性のある高速ワイヤレス接続性を提供している。Ｗｉ−Ｆｉネットワークは、コンピュータを相互に、インターネットに、およびワイヤネットワーク（ＩＥＥＥ８０２．３に関係するメディアと機能を使用する）に接続するために使用することができる。

次に図９を参照して説明すると、図９は、プラグイン隔離のプログラム管理のためのコンピューティング環境９００を示す概略ブロック図である。この環境は１以上のクライアント９０２を含んでいる。クライアント９０２はハードウェアおよび／またはソフトウェア〈例：スレッド、プロセス、コンピューティングデバイス〉にすることができる。クライアント９０２は、例えば、クッキー(cookie)および／または関連コンテキスト情報を収容することができる。

この環境９００は１以上のサーバ９０４も含んでいる。サーバ９０４もハードウェアおよび／またはソフトウェア（例：スレッド、プロセス、コンピューティングデバイス）にすることができる。サーバ９０４は、例えば、アーキテクチャを採用することにより変形(transformation)を実行するためのスレッドを収容することができる。クライアント９０２とサーバ９０４間の１つの可能な通信は、２またはそれ以上のコンピュータプロセス間で送信されるのに適したデータパケットの形体にすることができる。データパケットは、例えば、クッキーおよび／または関連コンテキスト情報を収めていることがある。この環境９００は、クライアント９０２とサーバ９０４間の通信を容易にするため採用できる通信フレームワーク９０６（例：インターネットのようなグローバル通信ネットワーク）を含んでいる。

通信はワイヤ（光ファイバを含む）および／またはワイヤレステクノロジを通して容易にすることができる。クライアント９０２は、クライアント９０２にローカルである情報（例：クッキーおよび／または関連コンテキスト情報）をストアするために採用できる１以上のデータストアに動作可能に接続されている。同様に、サーバ９０４は、サーバ９０４にローカルである情報（例：クッキーおよび／または関連コンテキスト情報）をストアするために採用できる１以上のデータストアに動作可能に接続されている。

クライアント９０２は、音声信号が認識処理のためにサーバ９０４または他のクライアントによって受信される経由クライアントを含むことができる。文典は、クライアントデータストア９０８および／またはサーバデータストア９１０にストアすることができる。

上述してきた説明の中には、開示したアーキテクチャのいくつかの例が含まれている。当然のことであるが、想到し得るすべてのコンポーネントおよび／または方法の組み合わせを記載することは不可能であるが、この分野の通常の知識者ならば認識されるように、さらに多くの組み合わせおよび置換(permutation)が可能である。従って、新規なアーキテクチャは請求項の精神および範囲に属するすべての変更、改良および変形を包含することを目的としている。さらに、「含む(includes)」の用語が詳細説明または請求項のどちらかで使用されている限りにおいて、この用語は「備える(comprising)」が請求項で移行語として使用されたときに解釈されるように「備える(comprising)」の用語と同じように包含的であることを目的としている。

Claims

コンピュータ実装認識システムであって、
複数の認識結果の各々への複数の認識経路に沿って、同一の入力に対し独立した認識処理を行うよう構成された複数のコンテキスト特定制約の制約コンポーネントであって、異なる制約のインスタンスは統合されると前記入力にコンテキストドメイン全体を提供する、制約コンポーネントと、
前記複数の認識結果を用いてダイナミック文法を生成するよう構成され、ダイナミック文法における前記認識経路の各々に関連する重み付けを割り当てし、最終認識結果を求めるために回帰分析を行うよう構成された調整コンポーネントと、
前記制約コンポーネントおよび調整コンポーネントに関連づけられたメモリにおけるコンピュータ実行可能命令を実行するよう構成されたマイクロプロセッサと、
を備えるよう構成されたコンピュータ実装認識システム。
前記制約は平行パスにおいて前記入力の認識処理のための文法を含む、請求項１記載のシステム。
前記調整コンポーネントは再認識を用いて前記複数の認識結果を調整し、前記単一の認識結果を生成する、請求項１に記載のシステム。
前記再認識は、前記複数の認識結果に基づいて前記ダイナミックに構成された文法を利用する、請求項３に記載のシステム。
前記調整コンポーネントは、前記複数の認識結果から抽出された分類特徴を操作する統計的分類器を用いて前記複数の認識結果を調整し、前記単一の認識結果を生成するようにさらに構成される、請求項１に記載のシステム。
前記認識処理は、関連タスクデータを処理して前記単一の認識結果に達し、前記関連タスクデータは、認識された文字列、発話レベルおよびサブ発話レベル信頼スコア、会話カバー範囲、並行認識における相対遅延、コンテキストの事前確率、各認識の相対難易度または前記認識結果におけるコンセンサスのうち、少なくとも１つを含む、請求項１に記載のシステム。
並行パスのそれぞれにおいて対応するコンテキスト特定制約を用いて前記入力を別々に認識処理するための認識コンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
前記単一の認識結果の決定を定義する１つ以上のルールを課すためのルールコンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
コンピュータ実装認識方法であって、前記方法はコンピュータ可読命令を実行するコンピュータシステムにより実行され、前記方法は、
発話入力を処理するために、オリジナルタスク空間の特定のサブセットをそれぞれカバーする別々のコンテキスト特定文法から構成される認識文法を受信するステップと、
各経路に対して対応する前記コンテキスト特定文法を用いて平行経路における前記発話入力を認識するステップと、
各経路から生じる１つの中間認識結果を生成するステップと、
各経路から生じる中間認識結果を利用してダイナミック文法を生成するステップと、
前記ダイナミック文法における前記認識経路の各々に対する関連の重みを割り当て、かつ最終認識結果を求めるよう回帰分析を実行するステップと、
前記受信するステップ、認識するステップ、前記中間認識結果を生成するステップ、ダイナミック文法を生成するステップ、および実行するステップの動作に関連するメモリ内の命令を実行するマイクロプロセッサを構成するステップと、
を備えることを特徴とする方法。
前記複数の中間認識結果からダイナミックに生成された文法を利用した再認識を用いて、前記複数の中間認識結果を調整するステップをさらに備える、請求項９に記載の方法。
前記再認識を用いた前記複数の中間認識結果の調整の間に、他の領域知識を入力するステップと、
１つまたは複数のルールを課して前記最終認識結果を生成するステップと
をさらに備える、請求項９に記載の方法。
前記分類器を用いた前記複数の中間認識結果の調整の間に、他の領域知識を入力するステップと、
１つまたは複数のルールを課して前記最終認識結果を生成するステップと
をさらに備える、請求項９に記載の方法。
ある経路の中間認識結果の生成のために所定期間待つステップと、
前記所定時間内に生成される中間認識結果に基づいて前記最終認識結果を生成するステップと、
をさらに備えることを特徴とする請求項９に記載の方法。
プロセッサにより実行されると認識システムを可能にする、コンピュータ実行可能な命令を備えるコンピュータ読取可能記憶デバイスであって、
複数の認識結果の各々への複数の認識経路に沿って、同一の入力に対し独立した認識処理を行うよう構成された複数のコンテキスト特定制約の制約コンポーネントであって、異なる制約のインスタンスは統合されると前記入力にコンテキストドメイン全体を提供する、制約コンポーネントと、
前記複数の認識結果を用いてダイナミック文法を生成するよう構成され、ダイナミック文法における前記認識経路の各々に関連する重み付けを割り当てし、最終認識結果を求めるために回帰分析を行うよう構成された調整コンポーネントと、
を備えるよう構成されたコンピュータ読取可能記憶デバイス。
前記調整コンポーネントは前記複数の認識結果の動的に構成された文法を用い、そして再認識を用いて前記複数の認識結果を調整して前記最終認識結果を生成する、請求項１４に記載のコンピュータ読取可能記憶デバイス。
前記調整コンポーネントは前記認識結果から抽出された特徴を操作する分類を用いて前記認識結果を調整して前記最終認識結果を生成する、請求項１４に記載のコンピュータ読取可能記憶デバイス。
前記最終認識結果の決定を定義する１以上のルールを課すためのルールコンポーネント、および分類調整のための特徴および再認識調整のためのダイナミック文法に影響を与える他の領域知識をさらに備える、請求項１４に記載のコンピュータ読取可能記憶デバイス。
前記調整コンポーネントは、再認識の前に回帰分析を利用して前記複数の認識結果を調整し前記最終認識結果を求める、請求項１４に記載のコンピュータ読取可能記憶デバイス。
コンピュータ実装認識方法であって、前記方法はコンピュータ可読命令を実行するコンピュータシステムにより実行され、前記方法は、
各パスに対して異なる又は重なっているコンテキスト特有の文法を備える、認識文法を用いて複数の並行パスにおいて発話入力を認識するステップと、
１以上の前記パスから生じる中間認識結果を用いてダイナミック文法を生成するステップと、
前記ダイナミック文法において前記認識パスの各々に対する関連する重みを割り当てるために統計的分析を実行するステップと、
前記最終認識結果を生成するために前記ダイナミック文法を用いて前記発話入力の再認識処理を実行するステップと、
認識するステップ、生成するステップ、統計的分析を実行するステップ、再認識処理を実行するステップの動作に関連するメモリ内の命令を実行するマイクルプロセッサを構成するステップと、
を備えることを特徴とする方法。
コンピュータ実装認識システムであって、
複数の認識器であって、前記複数の認識器はそれぞれ、対応するコンテキスト特定文法を用いて、一つの発話入力に対し独立した認識処理を行い、中間認識結果を生成するよう構成されている、複数の認識器と、
前記複数の認識器が生成した複数の前記中間認識結果に基づいて、最終認識結果を求めるよう構成された調整コンポーネントであって、前記認識器によりそれぞれ生成された前記中間認識結果と、前記発話入力との類似度を決定し、最も高い類似度を有する前記中間認識結果を最終認識結果として選択するよう構成された分類器を備える調整コンポーネントと、
を備えるシステム。