JP6105552B2

JP6105552B2 - ロケーションベースの会話理解

Info

Publication number: JP6105552B2
Application number: JP2014502718A
Authority: JP
Inventors: ヘック，ラリー・ポール; チンサクンタ，マドゥスーダン; ミトバイ，デヴィッド; スティフェルマン，リサ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2011-03-31
Filing date: 2012-03-27
Publication date: 2017-03-29
Anticipated expiration: 2032-03-27
Also published as: KR101963915B1; WO2012135210A2; WO2012135226A1; CN102750311A; WO2012135783A2; WO2012135229A3; CN102737099B; WO2012135783A3; CN102737101B; EP2691870A2; WO2012135791A3; CN102737096A; JP6305588B2; JP2014512046A; CN102750271A; CN102750271B; WO2012135157A3; KR20140025361A; EP2691949A2; CN102737104B

Description

[001]ロケーションベースの会話理解は、クエリ実行およびクエリ結果を向上させるように環境コンテキストを活用するための機構を提供し得る。従来の音声認識プログラムは、或るユーザから別のユーザへの情報（例えば、音声発話、地理的データ、特定のロケーションの音響環境、特定のロケーションから行われる通常のクエリ）を活用して、新規ユーザおよび／または既存ユーザからの新たなクエリの品質および精度を向上させるための技法をもっていない。一部の状況において、音声／テキスト変換は、理解する際の手助けとなる類似した潜在的に関係したクエリを使用するという恩恵を受けずに行われなければならない。

[002]音声／テキスト変換（すなわち、音声認識）は、音声の語句を、コンピューティングシステムによって処理され得るテキストの語句に変換することを含み得る。音響モデリングおよび／または言語モデリングが、最新の統計ベースの音声認識アルゴリズムにおいて使用され得る。隠れマルコフモデル（ＨＭＭ）が、多くの従来のシステムにおいて広く使用される。ＨＭＭは、一連のシンボルまたは量を出力することが可能な統計モデルを含み得る。音声信号が区分定常信号または短時間定常信号と見なされ得るので、ＨＭＭは、音声認識において使用され得る。或る短時間（例えば、１０ミリ秒）内で、音声は、定常プロセスとして近似され得る。このため、音声は、多くの確率論的な目的でマルコフモデルと考えられ得る。

[003]この「発明の概要」は、「発明を実施するための形態」においてさらに後述される概念の選定を、簡略化された形態で紹介するように与えられる。この「発明の概要」は、主張される主題の重要な特徴、または不可欠な特徴を特定することは意図していない。また、この「発明の概要」は、主張される主題の範囲を限定するのに使用されることも意図していない。

[004]ロケーションベースの会話理解が、実現され得る。ユーザからクエリを受け取ると、このクエリに関連する環境コンテキストが生成され得る。クエリは、この環境コンテキストに従って解釈され得る。解釈されたクエリは、実行され得、このクエリに関連する少なくとも１つの結果がユーザに提供され得る。

[005]以上の一般的な説明と以下の詳細な説明はともに、例を与えるものであり、例示的であるに過ぎない。したがって、以上の一般的な説明、および以下の詳細な説明は、限定するものと考慮されるべきではない。さらに、本明細書に記載される特徴に加えて、いくつかの特徴または変形形態が与えられ得る。例えば、いくつかの実施形態が、詳細な説明で説明される様々な特徴の組合せおよび部分的組合せを対象とし得る。

[006]本開示に組み込まれ、本開示の一部を構成する添付の図面は、本発明の様々な実施形態を例示する。

[007]動作環境のブロック図である。 [008]ロケーションベースの会話理解を実現するための方法を示す流れ図である。 [009]コンピューティングデバイスを含むシステムのブロック図である。

[010]以下の詳細な説明は、添付の図面を参照する。可能な場合はいつでも、図面および以下の説明において同一の要素、または同様の要素を指すのに同一の参照符号が使用される。本発明のいくつかの実施形態が説明され得るが、変形形態、適合形態、および他の実装形態が可能である。例えば、図面に例示される要素に置換、追加、または変形が行われ得るとともに、本明細書で説明される方法が、開示される方法の段階を置換すること、並べ替えること、または追加することによって変形され得る。したがって、以下の詳細な説明は、本発明を限定しない。代わりに、本発明の適切な範囲は、添付の特許請求の範囲によって規定される。

[011]ロケーションベースの会話理解が、実現され得る。例えば、変換の精度、および変換されたステートメントに含められるクエリの結果を向上させるために複数のユーザからの情報を互いに関係付ける音声／テキストシステムが、提供され得る。本発明の実施形態に合致して、パーソナルアシスタントプログラムが、複数のロケーションにいるユーザ（複数可）から音声ベースのクエリを受け取ることが可能である。各クエリは、音響特性および／または環境特性に関して解析され得、さらにそのような特性が、格納されるとともに、受け取ったクエリの送信元のロケーションに関連付けられることが可能である。例えば、地下鉄の駅にいるユーザから受け取ったクエリが、タイル壁からの音響エコーの存在、および／または人込みもしくは地下鉄列車の背景環境音を検出することが可能である。次に、これらの特性が、そのロケーションからの将来のクエリにおいてフィルタ除去されて、それらのクエリの変換のより高い精度を可能にすることが知られ得る。本発明の実施形態に合致して、ロケーションは、例えば、ユーザの全地球測位システム（ＧＰＳ）ロケーション、ユーザに関連する市外局番、ユーザに関連する郵便番号、および／または陸標（例えば、鉄道の駅、スタジアム、博物館、オフィスビルなど）の近くにユーザがいることによって規定され得る。

[012]クエリを処理することは、音響モデルに従ってクエリを適合させることを含み得る。例えば、音響モデルは、特定のロケーションにおいて存在することが知られている背景音を含み得る。音響モデルを適用することは、関係のない音を無視することによってクエリがより正確に変換されることを可能にし得る。また、音響モデルは、クエリに関連するすべての結果の表示を変更することを可能にすることもあり得る。例えば、特に騒々しい環境において、結果が、オーディオを介してではなく、画面上に表示され得る。環境コンテキストは、音声／テキスト変換を助けるように理解モデルにさらに関連付けられることが可能である。例えば、理解モデルは、隠れマルコフモデル（ＨＭＭ）を含み得る。環境コンテキストは、クエリを実行するのを助けるように意味モデルにさらに関連付けられることが可能である。例えば、意味モデルは、オントロジを含み得る。

[013]さらに、クエリの主題が、将来のクエリの結果を向上させるのに使用され得る。例えば、地下鉄の駅にいるユーザらが、「ｗｈｅｎｉｓｔｈｅｎｅｘｔｏｎｅ？（次のはいつ）」というクエリを行った場合、パーソナルアシスタントプログラムは、いくつかのクエリを経るうちに、ユーザが、次の列車がいつ到着するかを知ることを所望していると判定することができる。このことは、第１のユーザからクエリの説明を求めること、および将来に使用するためにその説明を格納することによって達せられ得る。別の例として、或るユーザが、「ｗｈｅｎｉｓｔｈｅｎｅｘｔｏｎｅ？（次のはいつ）」というクエリを行い、さらに別のユーザが、「ｗｈｅｎｉｓｔｈｅｎｅｘｔｔｒａｉｎ？（次の列車はいつ）」というクエリを行った場合、プログラムは、これらのクエリを互いに関係付け、さらに両方のユーザが同一の情報を要求しているものと想定することが可能である。

[014]図１は、ロケーションベースの会話理解を実現するための動作環境１００のブロック図である。動作環境１００は、パーソナルアシスタントプログラム１１２を含む音声対話システム（ＳＤＳ）１１０と、音声／テキストコンバータ１１４と、コンテキストデータベース１１６とを備え得る。パーソナルアシスタントプログラム１１２は、第１のロケーション１４０にいる第１の複数のユーザ１３０（Ａ）〜（Ｃ）、および／または第２のロケーション１６０にいる第２の複数のユーザ１５０（Ａ）〜（Ｃ）から、ネットワーク１２０を介してクエリを受信することが可能である。コンテキストデータベース１１６は、第１の複数のユーザ１３０（Ａ）〜（Ｃ）、および／または第２の複数のユーザ１５０（Ａ）〜（Ｃ）などのユーザから受け取ったクエリに関連するコンテキストデータを格納するように動作することが可能である。コンテキストデータは、音響特性および／または環境特性、ならびにクエリの主題、クエリの時刻／日付、ユーザ詳細、および／またはクエリが行われたロケーションなどのクエリコンテキスト情報を含み得る。本発明の実施形態に合致して、ネットワーク１２０は、例えば、プライベートデータネットワーク（例えば、イントラネット）、セルラデータネットワーク、および／またはインターネットなどの公共ネットワークを含み得る。

[015]エージェントは、音声対話システム（ＳＤＳ）に関連付けられ得る。そのようなシステムは、人々が音声でコンピュータと対話することを可能にする。ＳＤＳを駆動する主要な構成要素は、ダイアログマネージャを備えることが可能であり、この構成要素は、ユーザとのダイアログベースの会話を管理する。ダイアログマネージャは、音声認識および自然言語理解構成要素の出力、以前の回のダイアログからのコンテキスト、ユーザコンテキスト、および／または知識ベース（例えば、検索エンジン）から戻される結果などの、複数の入力ソースの組合せ介してユーザの意図を判定することが可能である。意図を判定した後、ダイアログマネージャは、最終結果をユーザに表示すること、および／またはユーザの意図を満足させるようにユーザとの対話を続けることなどの、アクションを行うことができる。音声対話システムは、ロケーションに関連する音響モデル、および／または音声ベースの入力を処理するための音声言語理解モデルなどの、複数の会話理解モデルを含み得る。

[016]図２は、ロケーションベースの会話理解を実現するための本発明の或る実施形態に合致する方法２００に関与する一般的な段階を説明する流れ図である。方法２００は、図３に関連して後段でより詳細に説明されるコンピューティングデバイス３００を使用して実施され得る。方法２００の段階を実施する様態は、後段でさらに詳細に説明される。方法２００は、開始ブロック２０５で始まり、さらに段階２１０に進むことが可能であり、コンピューティングデバイス３００が、或るロケーションにいるユーザから音声ベースのクエリを受け取ることが可能である。例えば、ユーザ１３０（Ａ）が、セルラ電話機などのデバイスを介してＳＤＳ１１０にクエリを送ることが可能である。

[017]段階２１０から、方法２００は、段階２１５に進むことが可能であり、コンピューティングデバイス３００が、そのロケーションに関連する環境コンテキストがメモリストレージの中に存在するかどうかを判定することが可能である。例えば、ＳＤＳ１１０が、受け取ったクエリの送信元のロケーション（例えば、第１のロケーション１４０）を識別し、さらにそのロケーションに関連する環境コンテキストがコンテキストデータベース１１６の中に存在するかどうかを判定することが可能である。

[018]そのロケーションに関連するコンテキストが存在しない場合、方法２００は、段階２２０に進むことが可能であり、コンピューティングデバイス３００が、その音声ベースのクエリにおける少なくとも１つの音響干渉を識別することが可能である。例えば、ＳＤＳ１１０が、クエリのオーディオを解析し、さらにユーザ１３０（Ａ）の周囲の大勢の人々に関連する雑音、および／または通過する列車の雑音などの背景雑音を識別することが可能である。

[019]次に、方法２００は、段階２２５に進むことが可能であり、コンピューティングデバイス３００が、音声ベースのクエリに関連する少なくとも１つの主題を識別することが可能である。例えば、クエリが「Ｗｈｅｎｉｓｔｈｅｎｅｘｔａｒｒｉｖａｌ？（次の到着はいつ）」を含む場合、ＳＤＳ１１０が、ユーザが列車の駅にいる際、列車のスケジュールをクエリの主題として識別することが可能である。

[020]次に、方法２００は、段階２３０に進むことが可能であり、コンピューティングデバイス３００が、メモリストレージの中に格納するためにロケーションに関連する新たな環境コンテキストを作成することが可能である。例えば、ＳＤＳ１１０が、識別された音響干渉およびクエリの主題を、ユーザのロケーションに関連するものとしてコンテキストデータベース１１６の中に格納することが可能である。

[021]ロケーションに関連するコンテキストが存在する場合、方法２００は、段階２３５に進むことが可能であり、コンピューティングデバイス３００が、ロケーションに関連する環境コンテキストをロードすることが可能である。例えば、ＳＤＳ１１０が、コンテキストデータベース１１６から、前述したとおり環境コンテキストをロードすることが可能である。

[022]段階２４０でコンテキストを作成した後、または段階２３５でコンテキストをロードした後、次に、方法２００は、段階２４０に進むことが可能であり、コンピューティングデバイス３００が、この環境コンテキストに従って、音声ベースのクエリをテキストベースのクエリに変換することが可能である。例えば、ＳＤＳ１１０が、環境コンテキストに関連する少なくとも１つの音響干渉を除去するためのフィルタを適用することによって音声ベースのクエリをテキストベースのクエリに変換することが可能である。

[023]次に、方法２００は、段階２４５に進むことが可能であり、コンピューティングデバイス３００が、環境コンテキストに従ってテキストベースのクエリを実行することが可能である。例えば、ＳＤＳ１１０が、環境コンテキストに関連する少なくとも１つの主題に関連する検索ドメイン（例えば、列車のスケジュール）内でクエリ（例えば、「Ｗｈｅｎｉｓｔｈｅｎｅｘｔａｒｒｉｖａｌ？（次の到着はいつ）」）を実行することが可能である。

[024]次に、方法２００は、段階２５０に進むことが可能であり、コンピューティングデバイス３００が、実行されたテキストベースのクエリの少なくとも１つの結果をユーザに提供することが可能である。例えば、ＳＤＳ１１０が、結果を、表示するためにユーザ１３０（Ａ）に関連するデバイス（例えば、セルラ電話機）に送信することが可能である。次に、方法２００は、段階２５５で終了することが可能である。

[025]本発明に合致する或る実施形態が、ロケーションベースの会話理解を実現するためのシステムを含み得る。このシステムは、メモリストレージと、メモリストレージに結合された処理装置とを備え得る。処理装置は、ユーザからクエリを受け取り、このクエリに関連する環境コンテキストを生成し、この環境コンテキストに従ってクエリを解釈し、解釈されたクエリを実行し、さらにこのクエリの少なくとも１つの結果をユーザに提供するように動作することが可能である。このクエリは、例えば、処理装置がコンピュータ可読のテキストに変換するように動作することが可能な音声クエリを含み得る。本発明の実施形態に合致して、音声／テキスト変換は、理解モデルに関連する可能性の高い様々な語、および／または意味モデルに関連する意味的概念に関する統計的重み付けを含む隠れマルコフモデルアルゴリズムを利用し得る。処理装置は、例えば、そのロケーションから受け取った少なくとも１つのこれまでのクエリに従って、少なくとも１つの予測される語の統計的重み付けを大きくし、さらにその統計的重み付けを環境コンテキストの一部として格納するように動作することが可能である。

[026]環境コンテキストは、受け取ったクエリの送信元のロケーションに関連する音響モデルを含み得る。処理装置は、この音響モデルに従って、音声ベースのクエリからの少なくとも１つの背景音に従ってクエリを適合させるように動作することが可能である。例えば、背景音（例えば、列車の警笛）が、所与のロケーション（例えば、列車の駅）から受け取られる音声クエリに存在することが知られていることが可能である。この背景音が、検出されて、ピッチ、振幅、および他の音響特性に関して測定され得る。クエリは、そのような音を無視するように適合され得、音は、そのロケーションからの将来のクエリに適用するために計算されて、格納され得る。処理装置は、第２のユーザから第２の音声ベースのクエリを受け取り、さらに更新された音響モデルに従って、背景音にこのクエリを適合させるようにさらに動作することが可能である。処理装置は、複数のユーザからの複数のクエリに関連する環境コンテキストを集約し、さらにロケーションに関連する集約された環境コンテキストを格納するようにさらに動作することが可能である。

[027]本発明に合致する別の実施形態が、ロケーションベースの会話理解を実現するためのシステムを含み得る。このシステムは、メモリストレージと、メモリストレージに結合された処理装置とを備え得る。処理装置は、或るロケーションにいるユーザから音声ベースのクエリを受け取り、このロケーションに関連する環境コンテキストをロードし、この環境コンテキストに従って音声ベースのクエリをテキストに変換し、環境コンテキストに従って、この変換されたクエリを実行し、さらに実行されたクエリに関連する少なくとも１つの結果をユーザに提供するように動作することが可能である。環境コンテキストは、例えば、少なくとも１つのこれまでのクエリの時刻と、少なくとも１つのこれまでのクエリの日付と、少なくとも１つのこれまでのクエリの主題と、オントロジを含んだ意味モデルと、理解モデルと、ロケーションの音響モデルとを含むことが可能である。処理装置は、そのロケーションに関連する知られている音響干渉に従ってクエリを適合されるように動作することが可能である。処理装置は、複数のユーザから受け取った複数のクエリに従って集約された、複数のロケーションに関連する複数の環境コンテキストを格納するようにさらに動作することが可能である。処理装置は、変換されたテキストに対する訂正をユーザから受け取り、さらにこの訂正に従って環境コンテキストを更新するようにさらに動作することが可能である。処理装置は、第２のロケーションにいるユーザから第２の音声ベースのクエリを受け取り、第２のロケーションに関連する第２の環境コンテキストをロードし、第２の環境コンテキストに従って第２の音声ベースのクエリをテキストに変換し、第２の環境コンテキストに従って、変換されたクエリを実行し、さらに実行されたクエリに関連する少なくとも１つの第２の結果をユーザに提供するようにさらに動作することが可能である。

[028]本発明に合致するさらに別の実施形態が、コンテキストを認識した環境を実現するためのシステムを含み得る。このシステムは、メモリストレージと、メモリストレージに結合された処理装置とを備え得る。処理装置は、或るロケーションにいるユーザから音声ベースのクエリを受け取り、さらにそのロケーションに関連する環境コンテキストがメモリストレージの中に存在するかどうかを判定するように動作することが可能である。環境コンテキストが存在しないと判定したことに応答して、処理装置は、音声ベースのクエリにおける少なくとも１つの音響干渉を識別し、音声ベースのクエリに関連する少なくとも１つの主題を識別し、さらにメモリストレージの中に格納するために、そのロケーションに関連する新たな環境コンテキストを作成するように動作することが可能である。環境コンテキストが存在すると判定したことに応答して、処理装置は、その環境コンテキストをロードするように動作することが可能である。次に、処理装置は、その環境コンテキストに従って、音声ベースのクエリをテキストベースのクエリに変換するように動作し、その環境コンテキストに従って、音声ベースのクエリをテキストベースのクエリに変換するように動作することは、その環境コンテキストに関連する少なくとも１つの音響干渉を除去するためにフィルタを適用するように動作することを含み、さらにその環境コンテキストに従ってテキストベースのクエリを実行するように動作し、その環境コンテキストに従ってテキストベースのクエリを実行するように動作することは、少なくとも１つの音響干渉が音響モデルに関連するとともに、少なくとも１つの識別された主題が、その環境コンテキストに関連する意味モデルに関連するクエリを実行するように動作することを含み、さらに実行されたテキストベースのクエリの少なくとも１つの結果をユーザに提供するように動作することが可能である。

[029]図３は、コンピューティングデバイス３００を含むシステムのブロック図である。本発明の或る実施形態に合致して、前述したメモリストレージおよび処理装置は、図３のコンピューティングデバイス３００のようなコンピューティングデバイス内に実施され得る。ハードウェア、ソフトウェア、またはファームウェアの任意の適切な組合せが、メモリストレージおよび処理装置を実施するのに使用され得る。例えば、メモリストレージおよび処理装置は、コンピューティングデバイス３００で、またはコンピューティングデバイス３００と組み合わされた他のいくつかのコンピューティングデバイス３１８で実施され得る。前述したシステム、デバイス、およびプロセッサは、例であり、さらに他のシステム、デバイス、およびプロセッサが、本発明の実施形態に合致して、前述したメモリストレージおよび処理装置を備え得る。さらに、コンピューティングデバイス３００は、前述したシステム１００のための動作環境を含み得る。システム１００は、他の環境において動作することが可能であり、コンピューティングデバイス３００に限定されない。

[030]図３を参照すると、本発明の或る実施形態に合致するシステムが、コンピューティングデバイス３００のようなコンピューティングデバイスを含み得る。或る基本的な構成において、コンピューティングデバイス３００は、少なくとも１つの処理装置３０２と、システムメモリ３０４とを含み得る。コンピューティングデバイスの構成およびタイプに依存して、システムメモリ３０４は、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ））、不揮発性メモリ（例えば、読取り専用メモリ（ＲＯＭ））、フラッシュメモリ、または任意の組合せを含み得が、これらに限定されない。システムメモリ３０４は、オペレーティングシステム３０５、および１つまたは複数のプログラミングモジュール３０６を含むことが可能であり、さらにパーソナルアシスタントプログラム１１２を含み得る。オペレーティングシステム３０５は、例えば、コンピューティングデバイス３００の動作を制御することに適することが可能である。さらに、本発明のいくつかの実施形態は、グラフィックスライブラリ、他のオペレーティングシステム、または他の任意のアプリケーションプログラムと連携して実施されてもよく、いずれの特定のアプリケーションにも、いずれの特定のシステムにも限定されない。この基本的な構成が、図３に破線３０８内の構成要素で例示される。

[031]コンピューティングデバイス３００は、さらなる特徴または機能を有することが可能である。例えば、コンピューティングデバイス３００は、例えば、磁気ディスク、光ディスク、またはテープなどのさらなるデータストレージデバイス（リムーバブルおよび／または非リムーバブルの）を含むことも可能である。そのようなさらなるストレージが、図３にリムーバブルストレージ３０９および非リムーバブルストレージ３１０で例示される。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するために任意の方法または技術で実施された揮発性媒体および不揮発性媒体、リムーバブルの媒体および非リムーバブルの媒体を含み得る。システムメモリ３０４、リムーバブルストレージ３０９、および非リムーバブルストレージ３１０はすべて、コンピュータ記憶媒体の例（すなわち、メモリストレージ）である。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、電気的に消去可能な読取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または情報を格納するのに使用され得るとともに、コンピューティングデバイス３００によってアクセスされ得る他の任意の媒体が含まれることが可能であるが、これらに限定されない。任意のそのようなコンピュータ記憶媒体が、デバイス３００の一部であり得る。また、コンピューティングデバイス３００は、キーボード、マウス、ペン、サウンド入力デバイス、タッチ入力デバイスなどの入力デバイス３１２（複数可）を有することも可能である。また、ディスプレイ、スピーカ、プリンタなどの出力デバイス３１４（複数可）が含められることも可能である。前述したデバイスは、例であり、他のデバイスが使用されてもよい。

[032]また、コンピューティングデバイス３００は、デバイス３００が、分散コンピューティング環境においてネットワーク、例えば、イントラネットまたはインターネットを介するなどして、他のコンピューティングデバイス３１８と通信できるようにすることが可能な通信接続部３１６を含むことも可能である。通信接続部３１６は、通信媒体の一例である。通信媒体は、典型的には、搬送波などの変調されたデータ信号、または他のトランスポート機構におけるコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータによって具現化可能であり、さらに任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、信号内に情報を符号化するように１つまたは複数の特性が設定されている、または変更されている信号を表すことが可能である。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、無線周波数（ＲＦ）媒体、赤外線媒体、または他のワイヤレス媒体などのワイヤレス媒体が含まれ得る。本明細書で使用されるコンピュータ可読媒体という用語には、記憶媒体と通信媒体がともに含まれ得る。

[033]前述したとおり、オペレーティングシステム３０５を含め、いくつかのプログラムモジュールおよびデータファイルが、システムメモリ３０４の中に格納され得る。処理装置３０２において実行される間、プログラミングモジュール３０６（例えば、パーソナルアシスタントプログラム１１２）は、例えば、前述した方法２００の段階のうちの１つまたは複数を含めたプロセスを行うことが可能である。前述したプロセスは、例であり、さらに処理装置３０２は、他のプロセスを行うことが可能である。本発明の実施形態に従って使用され得る他のプログラミングモジュールには、電子メールアプリケーションおよび電子コンタクトアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、データベースアプリケーション、スライドプレゼンテーションアプリケーション、描画アプリケーションプログラムもしくはコンピュータ支援アプリケーションプログラムなどが含まれ得る。

[034]概して、本発明の実施形態に合致して、プログラムモジュールには、特定のタスクを行うことが可能な、または特定の抽象データ型を実施することが可能なルーチン、プログラム、構成要素、データ構造、および他のタイプの構造が含まれ得る。さらに、本発明の実施形態は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電子機器もしくはプログラマブル家庭用電子機器、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成で実施され得る。また、本発明の実施形態は、通信ネットワークを介して結び付けられた複数の遠隔処理デバイスによってタスクが行われる分散コンピューティング環境において実施されることも可能である。分散コンピューティング環境において、プログラムモジュールは、ローカルメモリストレージデバイスと遠隔メモリストレージデバイスの両方の中に配置され得る。

[035]さらに、本発明の実施形態は、ディスクリートの電子素子を備えた電気回路、論理ゲートを含むパッケージ化された、もしくは集積された電子チップ、またはマイクロプロセッサを利用する回路において、あるいは電子素子もしくはマイクプロセッサを含む単一のチップ上で実施され得る。また、本発明の実施形態は、機械技術、光学技術、流体技術、および量子技術を含むが、これらに限定されない、例えば、論理積、論理和、および否定などの論理演算を行うことができる他の技術を使用して実施されることも可能である。さらに、本発明の実施形態は、汎用コンピュータ内で、または他の任意の回路もしくはシステムにおいて実施されてもよい。

[036]本発明の実施形態は、例えば、コンピュータプロセス（メソッド）として、コンピューティングシステムとして、あるいはコンピュータプログラム製品またはコンピュータ可読媒体などの製造品として実施され得る。コンピュータプログラム製品は、コンピュータシステムによって可読であるとともに、コンピュータプロセスを実行するための命令のコンピュータプログラムを符号化したコンピュータ記憶媒体であり得る。また、このコンピュータプログラム製品は、コンピューティングシステムによって可読であるとともに、コンピュータプロセスを実行するための命令のコンピュータプログラムを符号化した、搬送波において伝搬される信号であることも可能である。したがって、本発明は、ハードウェアで、かつ／またはソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）で実施され得る。つまり、本発明の実施形態は、命令実行システムによって、または命令実行システムに関連して使用されるように、コンピュータによって使用可能な、または可読のプログラムコードが具現化されているコンピュータによって使用可能な、または可読の記憶媒体上のコンピュータプログラム製品の形態をとり得る。コンピュータによって使用可能な、または可読の媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによって、または命令実行システム、命令実行装置、もしくは命令実行デバイスに関連して使用されるようにプログラムを含む、格納する、通信する、伝搬する、またはトランスポートすることが可能な任意の媒体であり得る。

[037]コンピュータによって使用可能な、または可読の媒体は、例えば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、デバイス、または伝搬媒体であり得るが、これらに限定されない。より特定のコンピュータ可読媒体の例（網羅的でないリスト）として、コンピュータ可読媒体には、以下、すなわち、１つまたは複数の配線を有する電気接続、ポータブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、およびポータブルコンパクトディスク読取り専用メモリ（ＣＤ−ＲＯＭ）が含まれ得る。コンピュータによって使用可能な、または可読の媒体は、プログラムが、例えば、紙または他の媒体の光学スキャンを介して電子的にキャプチャされ、その後、必要な場合、コンパイルされ、解釈され、またはそれ以外で適切に処理され、さらにその後、コンピュータメモリの中に格納され得るので、プログラムが印刷される紙または別の適切な媒体でさえあり得ることに留意されたい。

[038]本発明の実施形態は、例えば、本発明の実施形態による方法、システム、およびコンピュータプログラム製品のブロック図および／または動作上の例示を参照して前段で説明される。それらのブロックに記載される機能／動作は、いずれの流れ図に示される順序も外れて生じる場合がある。例えば、関与する機能／動作に依存して、連続して示される２つのブロックが、実際には、実質的に同時に実行可能であり、またはそれらのブロックが、ときとして、逆の順序で実行可能である。

[039]本発明のいくつかの実施形態が説明されてきたが、他の実施形態が存在することも可能である。さらに、本発明の実施形態は、メモリおよび他の記憶媒体の中に格納されたデータに関連するものとして説明されてきたものの、データは、ハードディスク、フロッピー（登録商標）ディスク、もしくはＣＤ−ＲＯＭのような二次ストレージデバイス、インターネットからの搬送波、または他の形態のＲＡＭもしくはＲＯＭなどの、他のタイプのコンピュータ可読媒体上に格納されること、またはそのようなコンピュータ可読媒体から読み取られることも可能である。さらに、開示される方法の段階は、本発明を逸脱することなく、段階を並べ替えることによること、ならびに／または段階を挿入すること、および／もしくは削除することによることを含め、任意の様態で変形され得る。

[040]本明細書に含められたコードの著作権を含むすべての権利は、本出願人に帰属し、本出願人の所有権である。本出願人は、本明細書に含められたコードに対するすべての権利を保有するとともに、留保し、さらに許可された特許の再現に関連してのみ本資料を再現する許可を与え、それ以外の目的では許可を与えない。

[041]本明細書は、例を含むが、本発明の範囲は、添付の特許請求の範囲によって示される。さらに、本明細書は、構造上の特徴、および／または方法上の動作に特有の言語で説明されてきたが、特許請求の範囲は、前述した特徴または動作に限定されない。むしろ、前述した特有の特徴および動作は、本発明の実施形態の例として開示される。

Claims

ロケーションに基づく会話理解を実現するための方法であって、
コンピューティングデバイスが、ユーザからの音声ベースのクエリを受け取るステップと、
前記コンピューティングデバイスが、前記ユーザのロケーションに関連する環境コンテキストがデータベース中に存在するか否かを判定するステップと、
判定結果が否の場合に、前記コンピューティングデバイスが、前記音声ベースにおける少なくとも１つの音響干渉、及び、前記音声ベースのクエリに関連する少なくとも１つの主題を識別し、少なくとも識別された音響干渉及びクエリに関連する主題を含む環境コンテキストを作成し、ロケーションに関連する新たな環境コンテキストとして前記データベースの中に格納するステップと、
判定結果が是の場合に、前記コンピューティングデバイスが、前記ユーザのロケーションに関連する環境コンテキストを前記データベースからロードするステップと、
前記コンピューティングデバイスが、前記作成又はロードされた前記環境コンテキストに基づいて前記音声ベースのクエリをテキストベースのクエリに変換するステップと、
前記コンピューティングデバイスが、前記環境コンテキストに基づいて前記テキストベースのクエリを実行するステップと、
前記コンピューティングデバイスが、前記テキストベースのクエリの少なくとも１つの結果を前記ユーザに提供するステップと
を含む、方法。
前記コンピューティングデバイスが、音声／テキスト変換を行うステップをさらに含む請求項１に記載の方法。
前記コンピューティングデバイスが、前記ロケーションに関連する少なくとも１つのこれまでのクエリに従って少なくとも１つの会話理解モデルを適合させるステップをさらに含む請求項１に記載の方法。
前記少なくとも１つの会話理解モデルは、前記クエリが前記ロケーションに関連する音響モデルを含む請求項３に記載の方法。
前記コンピューティングデバイスが、前記音響モデルに基づいて前記クエリに関連する少なくとも１つの背景音に従って前記クエリを適合させるステップをさらに含む請求項４に記載の方法。
前記背景音は前記クエリ内で測定される請求項５に記載の方法。
前記背景音を前記ロケーションに関連する音響特性として格納するステップをさらに含む請求項６に記載の方法。
前記コンピューティングデバイスが、複数のユーザの複数のクエリに関連する環境コンテキストを集約するステップをさらに含む請求項１に記載の方法。
前記コンピューティングデバイスが、第２のユーザから第２の音声ベースのクエリを受け取るステップと、
前記コンピューティングデバイスが、前記集約された環境コンテキストに従って前記第２の音声ベースのクエリを解釈するステップと
をさらに含む請求項８に記載の方法。
前記コンピューティングデバイスが、前記集約された環境コンテキストに従って、少なくとも１つの予測される意味的概念の統計的重み付け大きくするステップをさらに含む請求項８に記載の方法。
コンピューティングデバイスに請求項１〜１０のいずれか１項に記載の方法を実行させるためのプログラム。
コンピューティングデバイスに請求項１〜１０のいずれか１項に記載の方法を実行させるためのプログラムを記録したコンピュータ可読記録媒体。
ロケーションベースの会話理解を実現するためのシステムであって、
メモリストレージと、
前記メモリストレージに結合された処理装置と、
を備え、前記処理装置は
或るロケーションにいるユーザから音声ベースのクエリを受け取り、
前記ロケーションに関連する環境コンテキストが前記メモリストレージの中に存在するかどうかを判定し、
前記環境コンテキストが存在しないと判定したことに応答して、
前記音声ベースのクエリにおける少なくとも１つの音響干渉を識別し、
前記音声ベースのクエリに関連する少なくも１つの主題を識別し、
前記メモリストレージの中に格納するために前記ロケーションに関連する、少なくとも識別された音響干渉及びクエリに関連する主題を含む新しい環境コンテキストを作成し、
前記環境コンテキストが存在すると判定したことに応答して、
前記環境コンテキストをロードし、
前記作成又はロードされた前記環境コンテキストに基づいて前記音声ベースのクエリをテキストベースのクエリに変換し、
前記環境コンテキストに基づいて前記テキストベースのクエリを実行し、
前記テキストベースのクエリの少なくとも１つの結果を前記ユーザに提供する
よう動作する
システム。