本明細書において関心領域とも呼ばれる、関心あるトピックおよび対象範囲に関連した関連情報を決定し、使用する技術が記載される。少なくとも一部の実施形態では、こうした技術は、領域内の関連テーマについての情報および/またはどのコンテンツアイテムが、このようなテーマに関連するコンテンツを有しているかについての情報を自動決定するために、1つまたは複数の関心ある関連領域に関連したドキュメントおよび他のコンテンツアイテムを自動的に分析することを含む。このような、領域(群)について自動的に決定された関連性情報(自動決定関連性情報)は次いで、ユーザが、関心あるテーマを指定し、かつ/または指定されたテーマに関連するコンテンツを有するコンテンツアイテムを取得する際の支援を含む、様々な用途に用いることができる。さらに、少なくとも一部の実施形態では、ユーザおよび他の存在によって情報がどのように使われるかについての情報が、追跡され、たとえば自動化された機械学習技術を用いて、領域(群)内の関連テーマおよび/または関連コンテンツアイテムについての改良された決定(改良決定)を学習するフィードバックとして使われ得る。さらに、少なくとも一部の状況では、こうした技術は、関心領域に関連した関連性情報を自動決定し、以下で詳述するように、このような情報を他者による使用のために提供するコンピュータで実施する領域特定関連性決定(「DSRD(Domain-Specific Relevance Determination)」)サービスの実施形態と併用することができる。
前述したように、少なくとも一部の実施形態では、本記載の技術は、特定のコンテンツアイテムを特定の用語および/またはテーマに関連づける索引を生成することなどによって、領域内の関連テーマについての情報および/またはどのコンテンツアイテムが、このようなテーマに関連するコンテンツを有するかについての情報を自動決定するために、関心領域に関連したドキュメントおよび他のコンテンツアイテムを自動分析することを含む。以下の様々な説明は、コンテンツアイテムを「ドキュメント」と呼ぶが、本記載の技術は、たとえば、テキストドキュメント(たとえば、ウェブページ、文書処理ドキュメント、スライドショーおよび他のプレゼンテーション、eメールおよび他の電子メッセージなど)、画像、映像ファイル、音声ファイル、ソフトウェアコード、ファームウェアおよび他の論理コード、1つまたは複数の遺伝情報配列、他の生物データなどをそれぞれが伴う遺伝コードを含む、非常に様々なタイプのコンテンツアイテムとともに用いられ得ることが理解されよう。さらに、コンテンツアイテムは、ドキュメントフラグメントまたはより大きいドキュメントもしくは他のコンテンツアイテムの他の断片もしくは部分を含む、1つまたは複数のファイルタイプまたは他のデータ構造(たとえば、ストリーミングデータ)のものでよく、このようなコンテンツアイテムのコンテンツは、テキストおよび/または他の様々なタイプのデータ(たとえば、音声情報の2進符号化、映像情報の2進符号化、画像情報の2進符号化、数学方程式および数学的データ構造、他のタイプの英数字データ構造ならびに/または記号データ構造、暗号化データなど)を含み得る。少なくとも一部の実施形態では、領域に特有の複数のドキュメントからなるグループが、DSRDサービスの実施形態によって選択され、自動分析される。ドキュメントのグループは、たとえば、ある特定の領域に関する全利用可能ドキュメントを含むコーパスまたは領域を表すのに十分なドキュメントを含むコーパスでよい。さらに、分析されるべきドキュメントは、1つまたは複数の領域に特有の包括的情報を含むウェブサイト(たとえば、野球についての包括的情報を含む仮想「all−baseball−now.com」ウェブサイト、様々なスポーツについての雑多な情報を含む「espn.com」ウェブサイト、多数の領域についての雑多な情報を含む「wikipedia.org」でのWikipedia百科事典ウェブサイトおよび「commons.wikipedia.org」でのWikipedia Commonsメディアコレクションウェブサイトおよび「wikinews.org」でのWikinewsニュースソースウェブサイトなど)からなど、1つまたは複数のソースから取得することができる。一部の実施形態では、ドキュメントはそれぞれ、分析されるテキスト情報であるコンテンツを少なくとも部分的には有し、他の実施形態では、少なくとも一部のドキュメントまたは他のコンテンツアイテムは、他のタイプのコンテンツ(たとえば、画像、映像情報、音声情報など)を含み得る。
ある領域に関するドキュメントの自動化分析は、少なくとも一部の実施形態では、データマイニング技術または他の技術を用いることなどによって、その領域に関連するテーマを決定するために、ドキュメントのコンテンツを分析することを含み得る。たとえば、分析されるドキュメントが、野球という領域に関連する場合、決定され得るテーマは、特定の選手、特定のチーム、特定のリーグ(たとえば、メジャーリーグ野球、大学野球1部など)、特定のイベント(たとえば、ある特定の年のオールスターゲームやワールドシリーズ、ステロイド使用論争など)、特定のシーズン、特定の記録(たとえば、累積本塁打記録)などに特有のテーマを含む。少なくとも一部の実施形態では、自動化分析は、ドキュメントそれぞれにどのような用語が存在するか決定するために、ドキュメントに索引をつけ、次いで、このような一部または全部の用語の、ドキュメントに対する重要度を分析することを含む。たとえば、少なくとも一部の実施形態では、ドキュメント中の各用語がそのドキュメントに関連している度合い(関連度)についての初期決定が、用語出現頻度−ドキュメント頻度逆数(「TF−IDF(Term frequency-inverse document frequency)」)分析を用いることなどによる、ドキュメントのコンテンツに対する用語の区別性(distinctiveness)に基づいて行われる。さらに、ドキュメントのグループを通じて使われる1つまたは複数の関連用語の組合せが、たとえば最も関連性のある用語(最関連用語)のようなものが、その領域のテーマを表すように選択され、テーマに関する1つまたは複数の関連用語の、1つまたは複数のドキュメントへの決定された関連度(決定関連度)は、1つまたは複数のドキュメントの、テーマへの関連度を決定するのに使うことができるが、これについては後でより詳細に論じる。さらに、他の箇所でより詳細に論じるように、ドキュメントまたは他のコンテンツアイテムに関連づけられ、関連テーマを決定するために分析される用語または他の情報は、一部の実施形態では、コンテンツアイテムに関連づけられたメタデータおよび/またはコンテンツアイテムと対応する、1または複数のユーザに関連づけられた情報など、コンテンツアイテムのコンテンツに含まれない情報を含む他のタイプの情報を含み得る。
上述したように、ドキュメント用語分析情報の生成は、様々な実施形態において様々なやり方で実施することができ、一部の実施形態では、TF−IDF分析を用いる。このようなTF−IDF分析は、分析されるべきドキュメントのベクトル空間表現を使用し、この表現において各ドキュメントは、ドキュメントにおける用語の役割を考慮せず(たとえば、文法、文構造、パラグラフ構造、句読点などを考慮せず)、「単語集合(bag of words)」に類似するものとして扱われる。このような状況において、ドキュメント表現は、ドキュメント中での用語の用語出現頻度(「TF(Term frequency)」)を大きく反映し、またはTFだけを反映すればよく、こうすることによって、数学的に明らかな高次ベクトル空間へのドキュメントの効率的マッピングが可能になる。さらに、ある特定の用語がコーパスのドキュメントまたは他のドキュメントグループ中にどの程度分布しているかを考慮することなどによって、ドキュメントへの用語の関連性を決定するとき、ある領域に関する様々なドキュメントに関連する、ある特定の用語の区別性が考慮され、用いられ得る。具体的には、ドキュメントdでの用語iの用語出現頻度およびある領域の複数のドキュメントに渡る用語iのドキュメント頻度逆数(「IDF(Inverse Document frequency)」)は、少なくとも一部の実施形態では以下のように表すことができる。
用語およびドキュメントに関する用語出現頻度−ドキュメント頻度逆数(「TF−IDF」または「TF.IDF」)スコアは次いで、用語およびドキュメントに関するTFスコアと用語に関するIDFスコアとを乗算することによって決定することができる。ある特定の用語iおよびある特定のドキュメントdに関するこのようなTF−IDF(i,d)スコア(「TF−IDFi,d」または「TF.IDFi,d」とも表記する)は、ベクトル空間表現におけるその用語が、コーパス中のそのドキュメントのフィンガープリントを記述する際にどの程度重要であるかの測定値として使われて、そのドキュメントへのその用語の関連度を反映することができる。このスコアは、ある特定のドキュメントには頻繁に出現するが、全体的としてコーパスにはほとんど出現しない単語を高く順位づける基準値である。その領域に関連するテーマまたは複数の領域に渡るテーマを決定するための、ある領域のドキュメントの分析に関連して、詳細が以下でさらに記載される。
ある領域に関するドキュメントの自動化分析は、少なくとも一部の実施形態では、どのドキュメントが、その領域に関する決定されたテーマに関連するコンテンツを有するか決定するために、ドキュメントのコンテンツを分析することも含み得る。たとえば、少なくとも一部の実施形態では、後でより詳細に論じるように、ドキュメントの関連性の初期決定は、たとえばある特定のドキュメントのコンテンツへのあるテーマにおける特定の用語の関連性に基づいて、一部または全部のテーマそれぞれへの各ドキュメントの関連度を決定するように実施することができる。さらに、一部の実施形態では、ドキュメント関連性の決定の一部として分析されるドキュメントは、関連テーマを決定するために分析される同じドキュメントであり、他の実施形態では、ドキュメント関連性決定ドキュメントの一部または全部は、テーマ関連性決定ドキュメントとは別個のものである(たとえば、ドキュメント関連性決定ドキュメントが、先行するテーマ関連性決定中に利用可能でなかった新しいドキュメントを含む場合、テーマ関連性決定ドキュメントが、たとえばある領域を表すために、トレーニング目的で選択されるドキュメントの特化されたサブセットである場合など)。さらに、少なくとも一部の実施形態および状況では、複数の関連ドキュメントからなる複数のグループは、分析目的のために複数の関連ドキュメントを1つのドキュメントとして扱うことなどによって、一部または全部のテーマに関して一緒に分析することができ、他の状況では、ある特定のドキュメントは、分析目的のために一部または全部のテーマに関してそれぞれ別個のドキュメントとして扱われる複数の部分に分割することができる。決定されたテーマに関連するドキュメントを決定するためのある領域のドキュメントの分析に関連して、詳細が以下でさらに記載される。
1つもしくは複数の領域内もしくはそうした領域に渡る関連テーマに関する関連性情報、および/またはこのようなテーマに関連するコンテンツをもつ特定のドキュメントについての関連性情報がDSRDサービスによって自動決定された後、このような自動決定された関連性情報(自動決定関連性情報)は次いで、様々な実施形態において様々な用途に、たとえば、人間ユーザおよび他の存在が、関心あるテーマを指定し、かつ/または指定されたテーマに関連するコンテンツを有するドキュメントを取得するのを支援するのに用いることができる。たとえば、後でより詳細に記載するように、1つまたは複数の領域内またはそうした領域に渡る関連テーマに関する自動決定関連性情報は、DSRDサービスまたは他の系列サービスによって、DSRDサービス外部の人間ユーザまたは他の存在(たとえば、自動化プログラム)が、たとえば検索クエリの一部として使用し、ユーザの嗜好を識別するなど、1つまたは複数の関心あるテーマを指定するのを支援するのに用いることができる。自動決定されたテーマ情報(自動決定テーマ情報)は、たとえばユーザから1つまたは複数の用語を受け取り、ユーザに関連情報(たとえば、受け取った用語を含むテーマ、受け取った用語に関連した他の用語など)を提示し、自動決定テーマのリストをブラウジングまたは選択用にユーザに提示するなど、様々な実施形態において様々なやり方で用いることができる。同様に、後でより詳細に記載するように、ある領域内の関連ドキュメントに関する自動決定関連性情報は、DSRDサービスまたは他の系列サービスによって、DSRDサービス外部の人間ユーザまたは他の存在(たとえば、自動化プログラム)が、たとえば検索クエリに応答して、明示的には要求されない関連情報を(たとえば、予め指定されたテーマ嗜好に基づいて)ユーザにプッシュし、または代替的には提供するなど、1つまたは複数の関心あるテーマに関連したコンテンツを取得するのを支援するのに用いることができる。さらに、様々な用語および/またはテーマの相互関係についての情報は、様々な実施形態において様々なやり方でユーザに対して表示することができる。関心領域に関連した決定された関連情報の可能な使用例に関連した詳細は、2008年12月12日に出願した「Electronic Profile Development, Storage, Use, and Systems Therefor」という名称の特許文献1、および2008年12月12日に出願した「Advertising Selection and Display Based on Electronic Profile Information」という名称の特許文献2にさらに見ることができ、こうした特許はそれぞれ、参照によりその全体が本明細書に組み込まれている。
さらに、少なくとも一部の実施形態では、自動決定されたテーマおよび/またはドキュメント関連性情報がユーザまたは他の存在によってどのように使われるかについての情報は、様々なやり方で追跡され、使われる。たとえば、少なくとも一部の実施形態では、自動決定されたテーマおよび/またはドキュメント情報の使用についての情報は、DSRDサービスによって、自動決定テーマおよび/またはドキュメント関連性情報に関連したフィードバックとして用いることができる。このようなフィードバックは、たとえば、決定されたテーマとして使うことができる特定の用語および用語の組合せの関連性の初期決定を改正し、かつ/または決定されたテーマへの特定のドキュメントの関連性の初期決定を改正するのに使うことができ、この改正され決定された関連性情報(改正決定関連性情報)は次いで、DSRDサービスまたは他の系列サービスによって、最初に決定された関連性情報と同様に使うことができる。このようにして、継続的または他の反復フィードバックループが、DSRDサービスによって実施される自動的に関連性の決定を繰り返し向上させるのに用いられ得る。後でより詳細に記載するように、一部の実施形態では、フィードバックは、構成済みニューラルネットワークまたは他の適応モデルまたはシステムを使用するなどして、自動決定されたテーマおよび/またはドキュメント情報を学習し、または改正するのに使われる。さらに、少なくとも一部の実施形態および状況では、構成済みニューラルネットワークまたは他の適応システムは、利用可能になった新規ドキュメントおよび/または決定された新規テーマについての情報を用いるように、様々なやり方で自動拡張することができる。
例示目的のために、いくつかの例および実施形態が後で説明されるが、具体的タイプの情報が、具体的に分析され、ある特定の領域に関連した決定情報が、具体的に使われる。こうした例は、例示目的で挙げられ、簡潔にするために簡略化され、本発明の技術は、その一部が後でより詳細に記載される、他の非常に様々な状況で用いられ得ることが理解されよう。たとえば、特定のテキストドキュメントの分析が後で説明されるが、他の形の情報も同様に分析し、用いることができる。さらに、特定のアルゴリズムおよび技術が、1つまたは複数の領域における、またはそうした領域に渡る関連テーマを決定し、あるテーマに関連する特定のドキュメントを決定し、使用および他のフィードバックに基づくテーマおよび/またはドキュメントの向上した関連性を学習するのに使われるものとして例示されるが、他のアルゴリズムおよび技術も、他のやり方で用いられ得る。
図1A、1Bは、本記載技術を用いて、関心領域に関連した関連性情報を決定し、ユーザまたは他の存在に関連情報および機能を提供する自動化された領域特定の関連性決定サービスの例を示す。具体的には、図1Bは、DSRDサービス105の実施形態を、関連領域特定情報の決定および使用の一部として、DSRDサービス105への、およびサービス105からのデータフロー例の高水準記述とともに示す。この例では、DSRDサービス105は、領域それぞれに関連した関連性情報を決定するために、1つまたは複数の関心領域に関連した様々なドキュメント160にアクセスし、分析する。この例における、DSRDサービス105によって生成される、決定関連性情報は、1つまたは複数の領域それぞれにおける関連テーマについての情報170、およびどのドキュメントがこのようなテーマに関連するコンテンツを有するかについての情報180を含むが、他の実施形態では、ただ1つのタイプの関連性情報が決定され得る。この例では、DSRDサービス105は、決定関連テーマ情報170の少なくとも一部および/または決定関連ドキュメント情報180の少なくとも一部を、様々なユーザ140に使用のために提供する。ここでは例示しないが、他の実施形態では、DSRDサービス105は代わりに、決定関連テーマ情報170および/または決定関連ドキュメント情報180をユーザ140に他の1つまたは複数のやり方で、たとえば他の1つまたは複数の中間サービス(たとえば、DSRDサービス105から関連領域特定情報を取得し、様々なやり方で用いる他のサービス)により提供することもできる。さらに、この例では、DSRDサービス105は、決定関連領域特定情報170および/または180の、ユーザ140による使用に関連した様々なフィードバックまたは他の情報190を取得することができ、そのフィードバックを使って、決定関連領域特定情報170および/または180を絞り込むことができる。DSRDサービス105の様々なデータフローおよびアクションに関連したこれ以上の詳細は、たとえば図2A〜2Lで論じる実施形態例を参照して、他の箇所でより詳細に記載される。
図1Aは、図1BのDSRDサービス105の一実施形態に関するこれ以上の詳細例を示す。具体的には、図1Aの例において、DSRDサービス例105によってアクセスされ分析されるドキュメントは、ネットワーク100を介してアクセス可能(たとえば、1つもしくは複数のウェブサイトもしくは他の情報ソースから広くアクセス可能)な領域ドキュメント160および/またはDSRDサービス105がそれに対する特殊アクセスを有する任意選択の領域ドキュメント135(たとえば、サービス105によって生成され、または代替的には提供される領域ドキュメント、有料アクセスにとって利用可能な場合や、サービス105とサードパーティソースとの間の定義済み関係に基づいて、サードパーティソースからは利用可能であるが広くアクセス可能ではない領域ドキュメントなど)を含み得る。さらに、1つまたは複数の領域に関する関連性情報を決定した後、DSRDサービス105は、様々なユーザ140および/または任意選択の他の1つもしくは複数のサービス150(たとえば、ユーザ140と対話し、DSRDサービス105によって提供される情報を用いる他の系列サービス)とネットワーク100を介してさらに対話する。
さらに、この例では、DSRDサービス105は、領域分析マネージャモジュール110、関連ドキュメント決定マネージャモジュール120、および関連テーマ決定マネージャモジュール130を含む、DSRDサービス105の機能の一部をそれぞれが提供するいくつかのモジュールを含む。具体的には、領域分析マネージャモジュール110は、領域関連ドキュメントのコンテンツを取得し、自動分析するための様々なアクションを実施して、たとえば、このような分析情報を、モジュール120、130による使用のために利用可能にする。関連ドキュメント決定マネージャモジュール120は、分析されたドキュメント情報を用いて、特定の用語または他のテーマに関連するドキュメントを決定して、たとえば、図1Bの領域ドキュメント関連性情報180(図1Aには示さず。ただし、やはり図1Aには示さない1つまたは複数の記憶装置に格納することができる)を生成する。同様に、関連テーマ決定マネージャモジュール130は、分析されたドキュメント情報を用いて、領域に関連するテーマを決定して、たとえば、図1Bの領域テーマ関連性情報170(図1Aには示さず。ただし、やはり図1Aには示さない1つまたは複数の記憶装置に格納することができる)を生成する。図示したこの実施形態では、モジュール120および/または130は次いで、ユーザが対話により使うことができる提供GUI(「グラフィカルユーザインタフェース」)を介して、および/またはソフトウェアプログラムがそれを介してプログラムにより対話することができる提供API(「アプリケーションプログラミングインタフェース」)を介するなどして、生成された領域特定関連性情報をユーザ140または任意選択の他のサービス150に提供することができる。他の実施形態では、DSRDサービス105の他の1つまたは複数のモジュール(図示せず)は代わりに、DSRDサービス105によって提供される1つもしくは複数のGUIおよび/または1つもしくは複数のAPIを介してユーザ140および/または任意選択の他のサービス150と対話することもできる。
図1A、1Bには示さないが、DSRDサービス105は、たとえば1つまたは複数のコンピューティングシステム(図示せず)上で実行する1つまたは複数のソフトウェアモジュールを有して、様々なやり方で実装することができ、1つまたは複数のローカルまたはリモート記憶装置(図示せず)上に様々な情報を格納することができる。同様に、ユーザ140、他のサービス150、および領域ドキュメント160は、コンピューティング装置またはシステム(図示せず)を使って、記載する様々な対話を実施し、かつ/または記載する様々な情報を格納することができる。さらに、DSRDサービス105および他のサービス150は、一部の実施形態では独立実体によって提供することができるが、他の実施形態では、DSRDサービス105および他のサービス150の1つまたは複数は代わりに、(たとえば、互いと一緒に)1つのオペレータによって提供することができる。さらに、図1Aに示すネットワーク100は、たとえば、別個の様々な当事者によって操作される可能性のある、リンクされたネットワークからなる広くアクセス可能なネットワーク(たとえば、インターネット)など、様々な形を有し得る。他の実施形態では、ネットワーク100は、たとえば、特権のないユーザには全体的または部分的にアクセス不可能な企業ネットワークや大学ネットワークなどの私設ネットワークでよい。さらにそれ以外の実施形態では、ネットワーク100は、インターネットへの、および/またはインターネットからのアクセスを有する1つまたは複数の私設ネットワークを含んでよく、ネットワーク100の一部または全部は、少なくとも一部の実施形態では、ブロードバンドまたはブロードキャスト有線または無線リンク(たとえば、セルラー電話接続、Wi−Fi、Wi−MAX、ブルートゥース、ブロードキャストアナログもしくはデジタルテレビ、EVDO、衛星もしくは他の無線ネットワークもしくは通信プロトコルを用いる無線コンピュータ接続など)をさらに含み得る。
さらに、様々なユーザ140および他の存在は、DSRDサービス105と様々なやり方で対話して、要求を行い、様々な情報を指定することができる。たとえば、ユーザは、DSRDサービス105および/または任意選択の他のサービス150に登録し、または加入して、たとえば、それ以降の要求において用いることができる様々な嗜好および他の情報を供給することができる。このような実施形態では、ユーザがDSRDサービス105と対話して登録した後、ユーザには、ユーザに関連づけられ、指定されたクエリに関する検索結果を求める要求など、他の要求が行われるときに後で使われる1つまたは複数の識別子(たとえば、キー、トークン、ユーザ名など)が発行され得る。さらに、一部の実施形態では、任意選択の他のサービス150が、所属関係を確立するためにDSRDサービス105に登録し、または代替的には対話して、たとえば、DSRDサービス105によって生成された少なくとも一部の領域特定関連性情報へのアクセスを他のサービス150に取得させることができる。さらに、DSRDサービスが、要求側によって支払われる料金と引換えに少なくとも一部の要求に応じて、たとえば他のサービス150からの料金と引換えに任意選択の他のサービス150に領域特定関連性情報を提供し、またはユーザからの料金と引換えにユーザ140に領域特定関連性情報を提供し得るように、様々な料金が、DSRDサービスの使用に関連づけられ得る。他の実施形態では、DSRDサービス105は、他のやり方で、たとえば領域特定ドキュメントおよび他のコンテンツのプロバイダや、(たとえば、少なくとも数人のユーザ140に広告または他の指示コンテンツを提供する)広告主および小売業者などの他のサードパーティから料金を得て、そのコンテンツに関連した関連性決定を実施することができる。
図2A〜2Lは、たとえばDSRDサービスの実施形態によって自動的に実施することができる、関心領域例に関連した関連性情報を決定する技術の例を示す。
たとえば、図2A、2Bは、ある特定の関心領域例の一部であるいくつかのドキュメントについての抄録情報の例を、その領域に関連したドキュメントに対してDSRDサービスの実施形態によって生成することができる用語分析情報例とともに示す。具体的には、抄録情報例200を参照して示すように、関心領域例は、野球に関し、この例においてその領域に関して利用可能な領域特定ドキュメントのコーパスは、1000個のドキュメント(たとえば、ニュース記事、選手経歴、チーム概要など)を含む。
この例における情報200は、コーパスに存在するいくつかの用語例の抄録を、そうした用語に関するIDF情報とともに含む。具体的には、いくつかの用語202aが、一意の用語ID202bと、その用語を含む、コーパス中のドキュメント数202cの指示と、用語およびコーパスドキュメントに対応するIDF値202dとをそれぞれがもって示されている。他の様々な抄録情報も生成し格納することができるが、この例には示していない。さらに、テーブル例200中の各行204は、別個の用語を反映し、たとえば共通用語「the」に対応する行204aの場合、用語「the」はコーパス中の1000個のドキュメントすべてに存在するので、ゼロのIDF値をもつ。この例では、行204は、後続用語のIDF値が増大していくように、IDF値に基づいてソートされ、先行用語より少ないコーパスのドキュメントでのその存在を反映するので、後続用語が存在するそうしたドキュメントに関してより特徴的である。IDF値の算出に関する詳細がさらに、他の箇所で記載される。さらに、一部の実施形態では、いくつかの共通用語または他の指示用語(たとえば、用語「the」)は、ドキュメント用語分析の一部として除いてよいので、このような抄録情報200には示さなくても、それ以降の関連性関連情報の決定で使わなくてもよい。さらに、この例における用語202aのいくつかは、「本塁打」および「ハンク アーロン」など、複数の関連単語を含むフレーズであり、時として一緒に使われ得る他の用語(たとえば、「バリー ボンズ」および「ボビー ボンズ」)は、別々の用語として示されている。このような複数単語用語は、様々なやり方で、たとえばその用語が一緒に繰り返し使用されること、および別々に使用されないことに自動的に基づいて、このような用語が領域または他の同様の情報に関する共通用語の辞書に含まれることに自動的に基づいて、DSRDサービスのオペレータからの入力に基づいて少なくとも部分的には手動で決定され得ることが理解されよう。他の実施形態では、各単語は、少なくとも最初は別々の用語として扱うことができ、任意選択で、ユーザによって一緒に繰り返し使われる用語から、そうした用語の相互関係の学習された関連性に基づいて共通テーマの一部として後でまとめてグループ化することができるが、これについては他の箇所でより詳細に論じる。
図2A、2Bに示す他のテーブル例210、220、230、240、250はそれぞれ、コーパス中のドキュメント例を反映し、こうしたドキュメント中の用語例についての様々な情報と、こうした用語およびこうしたドキュメントに関する対応する用語関連性情報とを含む。具体的には、情報210はドキュメント例1に対応し、この例ではこのドキュメントは、バリー ボンズが、サンフランシスコジャイアンツでプレーしている間、2007年に通算本塁打(「HR」)記録を打ち立て、ハンク アーロンが保持していたそれまでの記録を超えたことに関連したニュース記事である。ボンズが本塁打記録を追い求めていた間、メジャーリーグ野球の選手の間でのステロイド論争に関連した重大なニュースも継続して報道されており、ボンズは後に、ステロイド使用容疑に関連した罪で起訴された。
テーブル210中の様々なエントリ214、たとえば用語エントリ214a中の「ボンズ」、エントリ214c中の用語「ハンク アーロン」などはそれぞれ、1500語のドキュメント1に存在する用語212aのサブセット例に対応する。ドキュメント1における各用語の出現数212bも示されており、対応する用語出現頻度値212cが示されている。IDF値212dがここでも用語に対して複写され、情報200中の同じ値202dに対応する。さらに、各エントリ214は、用語出現頻度値212cおよびIDF値212dに基づくTF−IDF値212eを含む。たとえば、エントリ214aにおける用語「ボンズ」は、ドキュメント1に35回出現することが示されており、この結果、ドキュメントの1500語の中で2.33%の頻度ということになる。用語「ボンズ」に対するIDF値212dは、情報200のエントリ204dの情報202dに対応するので1.10であり、この例でのエントリ214a中のボンズに対するTF−IDF値212eは2.559である。エントリ214は、この例ではTF−IDF値の値降順で示してあるが、これは、例示してあるこのドキュメントに対して、用語「ボンズ」が最も記述的な用語であり、それぞれエントリ214i、214j中の「the」および「起訴」など他の用語は、(たとえば、用語「the」は、コーパスのドキュメントすべてに存在するので、ゼロのIDF値をもつことにより、かつ用語「起訴」は、このドキュメント例に出現しないのでゼロの用語出現頻度値212cをもつことにより)このドキュメントを記述していないことを示している。TFおよびTF−IDF値の算出に関するこれ以上の詳細は、他の箇所で記載される。
テーブル220、230、240、250は、類似情報、たとえばそれぞれドキュメント2、3、4、5を含む。具体的には、ドキュメント例2は、バリー ボンズの略歴であり、ボンズの様々な成績に着目し、様々なエントリ224に示される対応する用語222aを含む。ドキュメント例3は、ステロイド関連の不正使用の可能性に関するボンズの起訴に対応するニュース記事であり、様々なエントリ234に示される対応する用語232aを含む。ドキュメント例4は、ボンズの起訴に先立って起き、メジャーリーグ野球におけるステロイド関連論争の一部のきっかけとなった出来事に対応し、具体的には、過去のメジャーリーグ野球選手であるホセ カンセコがメジャーリーグ野球におけるステロイド使用容疑に関連して議会で証言したことに対応し、対応する用語242aが様々なエントリ244に示されている。ドキュメント例5は、2008年メジャーリーグ野球シーズン最中のニュース記事であり、ボンズが2007年シーズン後にプレーするのをやめたサンフランシスコジャイアンツチームの現在の状況に着目しており、対応する用語252aが様々なエントリ254に示されている。図2C〜2Lを参照してより詳細に論じるように、こうしたドキュメント例に関する用語情報例は、この野球関連領域の例に対する関連テーマおよび特定のテーマに関する関連ドキュメントの決定に関して、本記載技術の一部を示すのに使われることになる。
図2C、2Dは、ユーザによって指定される検索クエリの例を示し、この例では、コーパスのドキュメント例1〜5に関する、図2A、2Bに示す用語分析情報例が、DSRDサービスによって、クエリに関連する特定の情報を決定するのに使われ得る。具体的には、図2Cは、ユーザによって指定されているクエリを示し、このクエリはこの例では、クエリ用語265a「ボンズ」および「ステロイド」を含む。2つのクエリ用語それぞれの、ドキュメント例1〜5それぞれに対する評価された関連度を示す様々な情報261aが示されており、ドキュメント例262それぞれに関する生成され正規化され集約されたドキュメント関連性スコアまたは数値264xを含む。後でより詳細に記載するように、標準化ドキュメント関連性数値は、各用語264および各ドキュメント262ごとに生成することができ、ドキュメントの各用語に関する正規化スコアは、この例では、2つのクエリ用語の組合せに基づいてドキュメントに関するドキュメント関連性数値264xを生成するように平均化される。具体的には、この例では、ドキュメントに対する用語の関連性は、その用語およびドキュメントに関するTF−IDF値に部分的に基づき、部分的にはコーパス中のドキュメントすべてに渡るその用語に関する最大TF−IDF値および最小TF−IDF値を使って標準化される。2つのクエリ用語に関する最小TF−IDF値および最大TF−IDF値例が、この例では情報267a〜267dに示されているが、このような情報267および/またはテーブル261aは、少なくとも一部の実施形態では、クエリを指定したユーザには示されなくてもよい。ドキュメント関連性数値例の生成に関連したこれ以上の詳細は、以下で記載される。
この例では、ドキュメント例3は、クエリ用語に関する最も高い生成ドキュメント関連性値をもつ。というのは、ボンズのステロイド関連起訴に関連したドキュメント3のコンテンツが、両方のクエリ用語265aに高く関連するからである。ドキュメント例1、4はそれぞれ、情報261aにおけるエントリ264a、264bにおけるドキュメント1の列262aおよびドキュメント4の列262dに示すように、こうしたドキュメント例それぞれが、クエリ用語の1つに高く関連し、他のクエリ用語にはごくわずかに関連する(すなわち、ドキュメント例1は、「ボンズ」という用語に高く関連し、「ステロイド」という用語にごくわずかに関連し、ドキュメント例4は、「ステロイド」という用語に高く関連し、「ボンズ」という用語にごくわずかに関連する)ことに基づいて、クエリ用語265aの組合せに中程度に関連する。他のドキュメント例2、5は、クエリ用語265aに他の3つのドキュメント例よりも関連しない。
前述したように、テーマの一部である複数の関連用語など、1つまたは複数の指定用語(たとえば、検索クエリの一部である用語)へのある特定のドキュメントの関連性の決定は、様々な実施形態において様々なやり方で実施することができる。1つの具体例として、指定された用語それぞれおよびドキュメントに関するTF−IDFスコアは、たとえば平均または和を生じるように、様々なやり方で組み合わせることができる。具体的には、少なくとも一部の実施形態では、様々な指定用語に関するTF−IDFスコアの平均が生成され、ドキュメントの間の比較を容易にし、標準化ドキュメント関連性(「DR」)スコアを人間が理解しやすくする、指定用語に関するDRスコアを生じるように、(たとえば、適合率または0と1の間の他の数値を表すように)さらに正規化することができる。1つまたは複数の指定用語iからなるグループgに対するドキュメントdに関するDRスコアは、少なくとも一部の実施形態では以下のように決定することができる。
上式で、求和(summation)はgの中の用語iそれぞれに対して実施され、NTerms(g)はグループg中の用語iの量を反映し、ある特定の用語iに関する最小TF−IDFiスコアおよび最大TF−IDFiスコアは、それぞれ、ある領域に関するドキュメントkすべてに渡るその用語に関する最低スコアおよび最高スコアを反映する。
図2Dは、図2Cに示すクエリ用語265a「ボンズ」および「ステロイド」に応答してユーザに表示し、または代替的には提供することができる情報260の例を示す。情報260は、たとえば、生成され、ユーザのクライアント装置に表示用に提供されるウェブページの一部でもよく、そうでなければユーザに提示される情報スクリーンの一部でもよい。
具体的には、この例では、情報260は、指定クエリ用語265aの視覚的指示266を含み、対応する検索結果のリスト269が、生成されたドキュメント関連性の順で示される。さらに、この例では、リスト269中のエントリはそれぞれ、対応する関連ドキュメントの指示(indication)(たとえば、ドキュメントにアクセスするためにユーザによって選択することができるユーザ選択可能リンクとして表示することができる、ドキュメントの名称または他の識別子)だけでなく、ドキュメントに関する対応する生成され正規化されたドキュメント関連性数値の指示も含み、たとえば、ある特定のドキュメントについての情報をさらに取得するべきか、または代替的にドキュメントをクエリ用語265aに関連するものとして選択するべきかを評価しているユーザに情報を提供する。この例における示された正規化されたドキュメント関連性数値はそれぞれ、正規化されたドキュメント関連性数値の関連度合いのテキスト評価も含むが、他の実施形態では、標準化ドキュメント関連性数値および関連テキスト評価の一方のみが見せられ得る(またはどちらも見せなくてよい)。さらに、特定の検索結果の選択および表示は、様々な実施形態において、指定された量のクエリ結果を見せ、指定された最小ドキュメント関連性値を上回る一部または全部のクエリ結果を見せるなど、様々なやり方で実施することができる。
さらに、この例では、付加情報およびユーザ選択可能コントロール268が、ユーザによる起こり得る選択のために設けられるが、他の実施形態では、このような付加情報は示さなくてよい。この例では、付加情報268は、予め指定された検索クエリを、領域に関する関連テーマをさらに記述するように、たとえばクエリ用語265aよりユーザの関心を表すより具体的または代替的には異なるテーマを指定することによって検索結果の正確さを向上させるように拡張したいかどうかをユーザに尋ねる。1つの可能な例として、それぞれが指定クエリ用語の1つには良く関連するが他の指定クエリ用語には少しだけ関連するドキュメント例1、4を参照して上で論じたように、ユーザは、ユーザが主にメジャーリーグ野球における(たとえば、ボンズだけでなく他の選手にも関する)ステロイド関連論争に関心をもっているのか、またはそうでなければ主にボンズのステロイド使用容疑にごくわずかに関連したボンズ関連情報(たとえば、ボンズによって打ち立てられた通算本塁打記録)に関心をもっているのかを明らかにすることによって、検索結果の正確さを向上させることが可能であり得る。より一般的に言うと、ユーザが現在関心をもっている1つまたは複数のテーマに特に関連する追加用語を識別することによって、その結果得られる拡張クエリ用語は、初期クエリ中の用語に関連づけられ得る様々な可能テーマをより明確にすることができる。
図2Dの情報268におけるユーザ選択可能な「Yes」コントロールの選択は、DSRDサービスによる様々な追加アクションを促し得るが、このような一例は、図2E、2Fを参照してより詳細に記載する。具体的には、図2Eは、指定クエリ用語265a「ボンズ」および「ステロイド」に関連し得る他の用語274についての情報270を、決定された指定クエリ用語265aへの他の用語の評価関連度の指示とともに示す。他の実施形態では、テーマ関連用語関連情報の使用は、たとえば、一部または全部の状況において一部または全部のユーザに対して(たとえば、付加情報を、情報268の代わりに表示するか、または情報268に加えて表示するかに関わらず、他の1つまたは複数の用語の可能関連性に関する図2Dの情報260とともに表示するように)自動的に実施される場合には、他のやり方で促すこともできる。
図2Eの様々な情報270は、たとえば、最初に指定されたクエリ用語265aに部分的に基づく絞り込まれた検索クエリにおいて使用するために、ある特定のテーマをさらに定義することの一部として、様々なやり方で用いることができる。たとえば、一部の実施形態では、このような情報270の一部または全部は、クエリ用語265aを指定したユーザに示すことができるが、例示する実施形態では、情報270は、ユーザに表示されない。この例では、情報270は、クエリ用語265aとの可能な組合せのために候補追加用語にそれぞれが対応するいくつかの用語エントリ274a〜274fを含み、ドキュメント列272a〜272dは、こうした用語のドキュメント例1〜4についての評価された関連度を示す。列272eは、クエリ用語265aに関する、各エントリ274中の候補用語に関する集約用語関連性スコアを示し、たとえばクエリ用語265aによって表される可能テーマへの、候補用語の評価関連度を反映している。様々なドキュメント例272および候補追加用語274は、様々な実施形態において様々なやり方で選択することができる。たとえば、候補追加用語は、たとえば図2Cに示す正規化ドキュメント関連性数値264xに基づいて、クエリ用語265aに最も関連すると決定された、コーパスのドキュメントのサブセットを最初に選択することによって選択することができる。最関連ドキュメントは、たとえばドキュメント感染性数値が最も高い、指定量のドキュメントを選択し、ドキュメント関連性数値が最も高い、指定された割合のドキュメントを選択し、ドキュメント関連性数値が指定閾値(たとえば、最小ドキュメント関連性数値閾値など、予め定義された閾値や、同じようなドキュメント関連性数値をもつグループ化ドキュメントが、最関連ドキュメントのグループと他のドキュメントとの間の閾値点を自然に生じる場合などの動的に決定された閾値)を上回るドキュメントの一部または全部を選択するなど、様々なやり方で選択することができる。この図2Eの例では、ドキュメント例5は、図2Cのエントリ264x用の列262eに示すように、2%という低いドキュメント関連性数値に基づいて、この例においてさらに使用するための最関連ドキュメントとして選択されておらず、他のドキュメント例1〜4が、関連ドキュメントとして使用するために選択されている。
この例では、クエリ用語265aに対して最関連ドキュメントが選択されると、選択ドキュメントに少なくとも部分的に基づいて、クエリ用語265aに対して候補追加用語が選択される。たとえば、候補追加用語は、たとえば、選択ドキュメントに関する他の用語のTF−IDF値に基づいて、および/または選択ドキュメントに対する他の用語に関する用語出現頻度値に基づいて、選択ドキュメントに最も関連するクエリ用語265a以外の、選択ドキュメント中の用語に基づいて選択することができる。この例では、各用語エントリ274およびドキュメント例272に関する情報270に示す数値は、その用語およびドキュメントに関するTF−IDF値を反映する。たとえば、ドキュメント例1に対する用語「本塁打」に対応するエントリ274aを参照すると、その用語の用語関連性値272aは、(図2Aの情報210のエントリ214bおよび列212eにおいて上で示した通り)TF−IDF値1.333であると示されており、ドキュメント例2に対するエントリ274a中の用語「本塁打」に関する用語関連性値272bは、(図2Aの情報220の行224bおよび列222eにおいて上で示した通り)1.125というTF−IDF値であると示されている。
さらに、この例では、用語274それぞれに関する用語関連性値が次いで、たとえば個々のTF−IDFドキュメント固有値を平均することによって、選択ドキュメントに渡って集約され、その結果得られる、各候補追加用語274に関する決定集約用語関連性スコアまたは数値が、列272eに反映される。この例では、候補用語274は、クエリ用語265aに対する決定集約関連性値の降順で示されており、こうすることによって、エントリ274aにある候補用語「本塁打」が、指定クエリ用語に対する最関連候補追加用語であると決定され、エントリ274fにある候補追加用語「カンセコ」が、示してある指定クエリ用語に対する最も関連しない候補追加用語であると決定される。選択されたドキュメントのグループに基づいて検討用に選択された特定の候補追加用語は、様々なやり方で、たとえば、最も関連し得ると決定される、各ドキュメントまたは全ドキュメントにある、他の指定量の用語を使うことによって(たとえば、TF−IDF値、用語出現頻度値、または他の個々のドキュメント用語関連性値を使うことによって)、各ドキュメントまたは全ドキュメントにある最も関連し得る他の指定された割合の用語を使うことによって、TF−IDF値(または他の個々のドキュメント用語関連性値)が、選択ドキュメントの少なくとも1つに対して、もしくは選択ドキュメントすべてに対して、もしくは最関連ドキュメントの一部の指定最小サブセットに対して、指定閾値(たとえば、最小用語関連性数値閾値など、予め定義された閾値や、同じような用語関連性数値値をもつグループ化用語により、最関連用語のグループと他の用語との間の閾値が自然に生じる場合などの動的に決定された閾値)を上回る他の用語の一部または全部を使うことによって識別することができる。他の実施形態では、候補追加用語および/または関連ドキュメントは、他のやり方で選択することができ、個々の用語関連性値および/または集約用語関連性値は他のやり方で決定することができる。用語関連性スコア例または他の値の生成に関連したこれ以上の詳細は、他で説明する。
図2Fは、図2A〜2Eの例の続きであり、選択および使用のための他の可能用語についての情報を含むように、ユーザに表示し、または代替的には提供することができる情報275の例を、図2Dに視覚的指示266とともに示されており、図2Fに視覚的指示276とともに示される先に示したクエリ用語265aとともに示す。前述したように、情報275の提供は、2Dの情報260の情報268における「Yes」というユーザ選択可能コントロールの選択に応答して、またはそれ以外のやり方など、様々なやり方で促すことができる。さらに、図2Dの情報260と同様に、例示する情報275は、たとえば、表示用にユーザのクライアント装置に生成され提供されるウェブページの一部として、または代替的にはユーザに提示される情報スクリーンの一部として(たとえば、DSRDサービスとともに使用するためにDSRDサービスのオペレータによって提供され、またはそうでなければサードパーティによって提供されるソフトウェアアプリケーションなど、ユーザのコンピューティング装置上で実行するソフトウェアアプリケーションのGUIの一部として)など、様々なやり方でユーザに提供することができる。
この例における情報スクリーン275は、たとえば、この例では図2Eの候補追加用語274の少なくとも一部に基づいて生成される、指定クエリ用語265aに対する他の可能な関連用語のリスト279を含む。具体的には、他の関連用語例279は、いくつかのエントリ279a〜279eを含み、図2Eの集約関連性スコア272eに基づく決定用語関連性の降順で示される。さらに、この例では、他の含まれる可能用語それぞれの用語関連性の指示が示されているが、他の実施形態では、このような用語関連性情報は、含まれなくてもよく、他のやり方で示してもよい。この例では、図2eの列272eにある決定用語関連性スコアは、0から10のスケールに変換されており、ここで最関連と決定される他の可能用語は10という可能値を有し、より関連しないと決定される他の可能用語はより低い値を有する。ここでは図示しないが、他の可能用語はそれぞれ、ユーザ選択可能リンクでよく、または代替的には、選択されたその用語を改正クエリの一部として含むように指定させるなど、その用語を関心あるものとしてユーザに選択させ、または代替的には指定させるための1つまたは複数の関連づけられたユーザ選択可能コントロールを有する。他の実施形態では、用語関連性情報は、図2Eにある実際の決定用語関連性スコア272eを示し、このような用語関連性スコアの正規化バージョンを表示する(ドキュメント関連性スコアに関して上で図2Dを参照して記載したのと同様に)など、他のやり方で表示することができる。さらに、用語関連性値のテキスト記述は、図2Dと同様に図2Fには示さないが、他の実施形態では、このような用語関連性値を示すことができる。
図2G、2Hは、図2A〜2Fの例の続きであり、具体的には、図2Fに示す追加関連用語を選択することによって、またはそうでなければ別のやり方などで、ユーザが指定し得る2つの代替テーマに対応する。具体的には、図2Gは、たとえば図2Fのリスト279のエントリ279a、279cの選択に基づく、拡張クエリ用語265bのグループの一部として先行用語「ボンズ」および「ステロイド」とともに使うために、ユーザが他の追加用語「本塁打」および「ハンク アーロン」を選択している例に対応する。図2Gは、図2Cの情報261aを参照して上で論じたのと同様にして、拡張クエリ用語265bへの様々なドキュメント例1〜5の関連性を示す付加情報261bも含む。図2Gの様々な情報261bは、(たとえば、図2Dの場合と同様に)ユーザに表示し、または代替的には提供することができる、拡張クエリ用語265bに最も関連するコーパスのドキュメントを含む新しい検索結果を決定するためなど、様々な用途に使うことができる。さらに、一部の実施形態では、このような情報261bの一部または全部が、拡張クエリ用語265bを指定したユーザに示され得るが、例示する実施形態では、情報261bはユーザに表示されない。
この例では、情報261bは、図2Cの情報261aに関連した追加エントリ264c、264dを含み、これらのエントリは、2つの追加クエリ用語に対応するように追加されている。したがって、その結果得られる、エントリ264y中の集約正規化ドキュメント関連性数値は、図2Cのエントリ264xの以前のドキュメント関連性数値に対して、2つの追加用語の追加を反映するように更新されている。この例では、エントリ264y中の集約正規化ドキュメント関連性情報は、4つの拡張クエリ用語265bそれぞれに関する個々の用語関連性数値の平均に依然として基づいているが、他の実施形態では、集約正規化ドキュメント関連性スコアは、他のやり方で(たとえば、重みづけされた平均を用いて)算出することができる。この例では、2つの追加検索用語の追加が、初期クエリ用語265aに対して図2Cで最関連ドキュメントであると先に決定されたドキュメント例3に関する決定関連性を低下させている。具体的には、情報261bの列262cおよびエントリ264yに示すように、ドキュメント3に関する改正ドキュメント関連性スコアは、以前の84%という値から現在の47%という値に低下している。さらに、ドキュメント例1、2の相対関連性は、情報261bの列262a、262bに示すように、図2Cの情報に相対して増大しており、この結果、ドキュメント1は、拡張クエリ用語265bに対する最関連ドキュメントであると決定され、ドキュメント2は、拡張クエリ用語265bに対して2番目に関連するドキュメントであると決定される。
この例では、ドキュメント関連性数値の変化は、拡張クエリ用語265bを使って指定されるドキュメント例およびテーマの全体的トピックに基づいて直観的に理解することができる。具体的には、図2Cの2つの初期クエリ用語265aに相対して、図2Gの拡張クエリ用語265bは、メジャーリーグ野球における全体的なステロイド関連論争にはあまり関連せず、バリー ボンズおよびボンズの本塁打記録達成に特有の情報により関連するようになっている。したがって、ボンズが本塁打記録を打ち立てたことに関連したドキュメント例1のニュース記事が、ここでは拡張クエリに対する最関連ドキュメントになっており、より全般的にステロイド論争に関連したドキュメント例4は、はるかに関連しないものとなっている。ドキュメント例2、3は依然として、拡張クエリ用語265bに少なくとも中程度に関連する。というのは、ボンズに関連したドキュメント例2の経歴およびボンズの起訴に関連したドキュメント例3は両方とも、本塁打記録の考察を含み、ドキュメント例2は、先行記録保持者のハンク アーロンに触れているからである。
図2Hは、図2Gに示したものへの代替物を示し、ここで、図2Cの初期クエリ用語265aは、追加クエリ用語「起訴」および「カンセコ」、ならびに先行用語「ボンズ」および「ステロイド」を含む拡張クエリ用語265cのグループを指定するように、異なるやり方で拡張されている。このような拡張クエリ用語265cは、たとえば、ユーザにとって関心ある、つまり、図2Gの拡張クエリ265bに関連して、ボンズのステロイド使用容疑およびメジャーリーグ野球における全体的ステロイド関連論争により関連し、ステロイド使用容疑に関連しない、ボンズについての特定の情報にはあまり関連しないテーマを反映し得る。したがって、図2Hの情報261cは、それぞれ図2C、2Gの情報261a、261bと同様であるが、2つの新規クエリ用語に対応する追加エントリ264g、264hを含み、新たなエントリ264zは、新規拡張クエリ用語265cに基づいて生成される改正ドキュメント関連性数値を反映する。直観的に予期されるように、ボンズのステロイド関連起訴およびカンセコのステロイド関連証言にそれぞれ関連したドキュメント例3、4は、ドキュメント例の中で最関連ドキュメントであり、ステロイド論争に特有でないドキュメント例1、2の関連性は、大幅に下がっている。
図2Gの場合と同様に、例示する情報261cは、少なくとも一部の実施形態では、ユーザに表示しなくてよいが、図2Dのものに類似している他の情報は、新規クエリ用語265cに基づく関連ドキュメントの改正リストを示すためにユーザに表示してよい。さらに、図2G、2Hに示す追加クエリ用語を選択することによってユーザによって提供されるフィードバックは、少なくとも一部の実施形態では、たとえば特定のドキュメントおよび/または特定の用語の決定関連性を図2Cの初期クエリ用語265aに相対して修正するためのフィードバックとして、他のやり方で使うことができる。
さらに、上で論じた例では、クエリ用語例265a〜265cは、比較的簡単なやり方で指定されており、用語は、論理結合演算(たとえば、AND、ORなど)も指示せずに、他の相対重みづけもしくは使用も指示せずに列挙される。他の実施形態では、他のタイプの情報が、このような検索クエリに対して指定されてよく、様々なやり方で使うことができる。たとえば、他の一部の実施形態では、ユーザは、関心あるクエリ用語を指示することが可能であり得るだけでなく、ある特定のクエリまたはテーマに関する関心のないクエリ用語を指示することも可能であり、初期クエリを他の様々なやり方で修正することも認められ得る。たとえば、図2E、2Fを参照して例示したのと同様に、情報は、初期クエリ用語265aに基づく最も関連しない他の用語を反映するように決定してよく、このような最も関連しない用語情報も同様に、拡張クエリから除外するための用語を選択させるためにユーザに対して表示してよい。このような状況において、関心ある用語は、除外されるように指示され、そうでなければ関心対象となっていない用語と様々なやり方で組み合わせることができる。たとえば、図2C、2Dの例を参照すると、クエリ用語「ボンズ」および「ステロイド」が、関心あるものとして指示され得るが、除外されるべきであると指示される用語「カンセコ」をもつ拡張クエリ用語が指定されてよい。図2Hの情報261cのエントリ264hに示すように、用語「カンセコ」は、ドキュメント例1〜5のドキュメント4にのみ関連し、具体的には、この例ではドキュメント4に対して0.97というドキュメント関連性数値をもつ。このような情報は、たとえばドキュメントへの除外用語の用語関連性値を、包含用語に対する用語関連性値の負数として扱うことによって(同時に、正規化ドキュメント関連性数値に対する可能値の範囲を−1から1となるように拡張する)、拡張クエリ用語に基づくドキュメントに関する全体としてのドキュメント関連性数値の低下として、ドキュメントそれぞれへの、除外用語「カンセコ」の関連性を扱うために、図2Cの情報261aと様々なやり方で組み合わせることができる。その場合、「カンセコ」に対して「−0.97」という負の用語関連性数値とともに、「ボンズ」および「ステロイド」に関する0.04および0.97という個々の用語関連性数値の平均をとることによって、この例におけるドキュメント4および拡張クエリ用語に対して0.01という改正ドキュメント関連性数値が生成され得る。除外用語に関する関連性情報および関心対象となっていない他の用語は、他の実施形態では他のやり方で使用され、関心ある用語に関する関連性情報と組み合わされ得ることが理解されよう。
さらに、図2Dの場合と同様に、一部の実施形態では、ユーザは、クエリ用語265aに特に関連するとユーザが見なす1つまたは複数のドキュメントを、(たとえば、指定ドキュメントに対する類似ドキュメントを要求するために)たとえばクエリ用語265aに関連する他の用語および/または指定ドキュメントに関連する他のドキュメントの決定に使用するために指定することが認められ得る。あるいは、図2Fに示すように特定の他の可能用語を列挙するのではなく、1つまたは複数の予め定義されたテーマが、それ以上の関連ドキュメントの識別における可能な選択および使用のために、代わりにユーザに表示されてもよい。このような他の定義テーマは、テキストラベル(たとえば、「ボンズ通算本塁打記録」)の包含および/またはその定義テーマの一部である特定の用語(たとえば、「ボンズ、ステロイド、本塁打、ハンク アーロン」)の使用という、様々なやり方で指定することができる。特定の定義テーマが、初期クエリ用語265aへのその関連性に基づいて選択される場合、定義テーマの少なくとも一部は、たとえば「ボンズ、本塁打、ハンク アーロン」などの用語に基づくが「ステロイド」を含まない定義テーマ、およびクエリ265cの用語に類似している別の定義テーマを示すような、最初に指定されたクエリ用語265aの少なくとも1つに基づかない場合がある。同様に、拡張クエリの一部として使うための追加クエリ用語をユーザが選択する状況では、ユーザは、そうすることが所望される場合は先行クエリ用語の1つまたは複数をさらに取り除き、たとえば図2Gの例では用語「ステロイド」を取り除き、または上で論じたようにこのような用語が除外されるべきであると指示することができる。決定された用語関連性およびドキュメント関連性情報は同様に、他の実施形態では他の様々なやり方で用いることができる。
別の例示的例として、クエリ用語拡張または他の修正に関して上述したものと類似した技術が、最初に指定されたクエリ用語がつづりを間違えられ、または代替的には(たとえば、単数もしくは複数形に基づいて、ある特定の時制の動詞に基づいて、異なる言語であることに基づいて)非標準もしくは非定型形である状況で用いられてもよい。したがって、たとえば、図2Fのクエリ用語276が、代わりに「ボンズ(bonds)」および「スタロイド(staroids)」(たとえば、ユーザによる用語の記入に基づくが、「ステロイド」を「スタロイド」とつづりを間違え、「ボンズ(bonds)」を大文字にしないことによって不正確になる)であった場合、他の候補用語279は、ユーザ指定用語の不正確への対処に関連した追加用語を含むように拡張し、または代替的には修正してよい。「スタロイド」に関して、たとえば、最関連追加用語の1つは、たとえば「スタロイド」の代わりに、またはそれに加えて使用するための用語「ステロイド」でよい。追加用語「ステロイド」は、一部の実施形態では、認識されない単語「スタロイド」を求める(たとえば、任意選択で、「小惑星(asteroids)」、「トロイド(toroids)」など、他の提案置換え用語とともに)辞書ルックアップのみに基づいて識別することができるが、他の実施形態では、上で論じた用語間関連技術は、「ステロイド」を、用語「スタロイド」と「ステロイド」との間の予め識別された関係に基づいて(たとえば、「スタロイド」がユーザによる「ステロイド」の共通のつづりミスである場合)、および/または用語「ボンズ(bonds)」と「ステロイド」との間の予め識別された関係に基づいて、置換えまたは補足用語に対する可能または有望候補として識別するのに用いることができる。同様にして、用語「ボンズ(bonds)」を明確にするための作業では、追加用語は、たとえば用語「ボンズ(bonds:債券)」と他の追加用語との間の予め識別された関係に基づいて、「バリー ボンズ」、「株」、「金利」、「ボビー ボンズ」などの選択肢を含み得る。
前述したように、一部の実施形態では、特定の用語の、特定のドキュメントへの、および/または特定の他の用語への関連性の初期決定は、TF−IDF値または用語出現頻度に関連した他の情報の使用に少なくとも部分的に基づいて行われ得る。他の実施形態では、このような関連性情報の決定は、他のやり方で行ってよい。一例として、1つまたは複数のドキュメントへのある特定の用語の関連性は、確率分布または他の分布として表すことができ、2つ以上のこのような用語に対するそれぞれの分布を比較して、これらの分布がどの程度類似しているかを、それぞれの用語がどの程度関連があるかの測度として決定することができる。同様に、特定のドキュメントはそれぞれ、複数の用語に渡る分布として表すことができ、2つ以上のこのようなドキュメントに対するそれぞれの分布を同様に比較して、これらのドキュメントがどの程度類似しているか決定することができる。したがって、たとえば、1つまたは複数の用語および1つのドキュメントをもつ検索クエリは、所望され含まれるドキュメント用語に及ぶ1対の確率分布として表すことができ、このような確率分布の比較は、コーパス中の一部または全部のドキュメントに対して実施され、そうすることによって、クエリに関連した最も統計的な情報を有するドキュメントが決定され得る。2つの分布の間のこのような比較の実施の一例として、カルバック−ライブラー拡散統計測度が、2つのこのような分布の間の類似の凸測度(convex measure)を与えるように算出され得るが、他の実施形態では、統計的情報エントロピーの相違が、2つのこのような分布を比較するのに用いられ得る。このような比較の例の実施に関するこれ以上の詳細が以下に記載されるので、このような比較は、他の実施形態では他のやり方で実施され得ることが理解されよう。
具体的には、2つのドキュメント関連分布または用語関連分布の間のカルバック−ライブラー拡散は、一部の実施形態では、2つの分布の間の類似度を決定するのに使用することができる。2つの分布P、Qに関するカルバック−ライブラー拡散は、以下のように表すことができる。
上式で、Pi、Qiは、離散確率分布P、Qの値である(たとえば、ドキュメントPに関するドキュメント関連分布の場合、各Piは、用語iと合致する、ドキュメント中の単語の割合を表すことができ、ドキュメントPへのある特定の用語iの関連度を表すことができ、その用語iがドキュメントPにおける最関連用語である確率を表すことができる)。他の実施形態は、たとえばカルバック−ライブラー拡散からの類似測度の代わりであるか、またはその測度に加えてに関わらず、2つの統計的情報エントロピー測定値の間の相違など、他の統計測定値を用いて、2つの分布を比較することができる。確率分布の統計的エントロピーは、確率分布の多様性の測定値である。確率分布Pの統計的エントロピーは、以下のように表すことができる。
上式で、Piは、離散確率分布Pの値である。2つの統計的エントロピー測定値の間の相違が次いで、エントロピー相違測定値を算出することによって測定され得る。2つの確率分布PとQとの間のエントロピー相違測定値は、以下のようにランダム変数の間の相互情報として表すことができる。
上式で、p(p)、p(q)は、それぞれP、Qの周辺分布を表し、p(p,q)は、P、Qの同時分布を表す。あるいは、2つの確率分布PとQとの間のエントロピー相違測定値は、以下のように表すこともできよう。
EM=||H(P)−H(Q)||2
上式で、H(P)およびH(Q)は、上述したように、それぞれ確率分布P、Qのエントロピーである。
さらに、上で論じたように、図2A〜2Hは、ある特定のドキュメントグループ例に関するドキュメントに関連づけられた関連性情報(ドキュメント関連関連性情報)およびテーマに関連づけられた関連性情報(テーマ関連関連性情報)を決定し、その関連性情報を様々なやり方で用いる例を示す。他の箇所で論られているように、一部の実施形態では、決定された関連性に関する情報(決定関連性関連情報)の少なくとも一部は、特定の様々なやり方表すことができ、ユーザフィードバックおよび他の変化を反映するように更新することができる。図2I〜2Lは、決定されたドキュメント関連性情報および用語関連関連性情報を様々なやり方で、具体的にはこうした例では、決定関連性関連情報を表すニューラルネットワークを生成し、更新することによって表し、改正する具体例を示す。
具体的には、図2Iは、特定の用語への特定のドキュメントの関連性を表すニューラルネットワーク例295aを示す。この例では、ニューラルネットワーク295aは、ドキュメントのコーパスに対して識別される用語に対応する様々な入力ノード280と、コーパス中のドキュメントを表す様々な出力ノード290と、特定の入力用語280に基づいて特定の出力ドキュメント290に関するドキュメント関連性数値を生成するように実施される算出を表す内部ノード285からなる1つまたは複数の層とを含む。簡略化のためにただ1組の内部ノード285が図2Iに示されているが、このようないくつかのニューラルネットワークが、追加内部ノードを有し得ることが理解されよう。さらに、ノードの間のリンクは、こうしたノードの間の関係を表し、後で論じる関連づけられた重みを含み得る。
図2Cを参照して上で論じたように、「ボンズ」および「ステロイド」という2つのクエリ用語265aを含む検索クエリが指定されている。図2Iのノード280a、280cは、こうした用語を生成ニューラルネットワークで表し、認識しやすくするために太字で示されている。さらに、図2Cの例では、正規化ドキュメント関連性数値264xが、ドキュメント例1〜4を含む、コーパス中の様々なドキュメントに関して決定され、ここで、こうしたドキュメント例1〜4は、この例において対応するノード291〜294をもつ。さらに、情報297が、こうした用語に対するノード280a、280cに対応する関連づけられた内部ノード285a、285cを反映するように、略して「AC」と呼ばれる、この例の2つのクエリ用語265aに基づく、こうしたドキュメント例1〜4に関する正規化ドキュメント関連性数値を示すために、この例において例示されている。したがって、たとえば、クエリ用語265aに基づく、ドキュメント1に関する、例示する正規化ドキュメント関連性値297aは、図2Cのエントリ264xに対して列262aに示したように、0.48の値である。同様の情報297b〜297dが、ドキュメント例2〜4用に例示されている。
この例では、生成ニューラルネットワークにおける出力ドキュメント290に関するドキュメント関連性数値の算出は、入力用語280と内部ノード285との間のリンク282、ならびに内部ノード285と出力ドキュメント290との間のリンク287に対応する2つの部分に分離される。さらに、情報287a、287bが、たとえば初期の決定ドキュメント関連性情報に基づいて各リンクに関連づけられた初期の重みを指示することによって、示してある様々なリンク287についての情報を反映するように例示されている。たとえば、ドキュメント例1に対応する内部ノードA 285aと出力ノード291との間のリンク(情報287aでは、略してリンク「A−D1」と言う)に関して、そのリンクは最初に、情報287bに示すように、0.000518、すなわち5.18×10-4の重みを与えられる。同様に、内部ノードC 285cと出力ノード291との間のリンク(情報287aでは、略してリンク「C−D1」と言う)に関して、そのリンクは最初に、情報287bにおいて0.000053の重みを与えられる。さらに、入力ノード280a、280cと内部ノード285a、285cとの間のリンク282は、それぞれ、図2Cに記載し、後でより詳細に記載する用語関連性情報例に基づいて、1,641および2,075という値をそれぞれ決定するのに用いることができる。したがって、クエリ用語280a、280cに基づく、ドキュメント例1に関する正規化ドキュメント関連性値297aは、こうした2つのリンクA−D1およびC−D1に基づいて、ならびに内部ノード285a、285cに基づいて、入力ノード280aと内部ノード285aとの間の、ならびに入力ノード280cと内部ノード285cとの間のリンク282に基づいて(たとえば、用語「ボンズ」に関するドキュメント関連性数値として1641*0.000518=0.85を算出し、用語「ステロイド」に関するドキュメント関連性数値として2075*0.000053=0.11を算出し、その平均を、図2Cの情報261aに示したように0.48とすることによって)ニューラルネットワークから決定することができる。このようなニューラルネットワークを生成する一実施形態例に関するこれ以上の詳細が、たとえば以下の式1〜5を参照してこれ以降に続く。
具体的には、特定のドキュメントへの特定の用語の関連性が決定される(たとえば、そうしたドキュメントおよびそうした用語の組合せに関するDRスコアに反映されるように)と、その情報は、ユーザフィードバックに基づいて更新することができるニューラルネットワークを用いて、および他のやり方を含む様々なやり方で表すことができる。同様に、1つまたは複数の用語からなる他のグループへの特定の用語の関連性が決定される(たとえば、そうした用語の一部または全部に対する関連ドキュメントに部分的に基づいて)と、その情報は、ユーザフィードバックに基づいて更新することができる類似ニューラルネットワークを用いて、および他のやり方を含む様々なやり方で表し、更新することもできる。このようなニューラルネットワーク(たとえば、特定のリンク)の重みおよび/または他の側面は次いで、時間の経過とともに取得されるフィードバックおよび他の付加情報を反映するように、たとえば取得され得るフィードバックおよび他の付加情報からの自動化学習を反映するように時間の経過とともにニューラルネットワークによって提供される関連性情報を向上させるように修正することができる。以下は、このようなニューラルネットワークを生成し、このようなニューラルネットワークにおける重みを更新する具体的な一例を示し、他の実施形態は、他の関連技術を用いることができる。
前述したように、1つまたは複数の指定用語iからなるグループgに相対するドキュメントdに関するDRスコア(以下では、「HDRスコア」とも言う)は、少なくとも一部の実施形態では以下のように決定することができる。
このDR式は同様に、以下のように、ある特定のドキュメントjに対応する1つまたは複数のこのような用語iからなるグループgをもつクエリ中の個々の用語iに対するTF.IDF値の、偏りを加えた一次結合を表す1組のニューラルネットワークの重みを表すのに使うことができる。
算出DRスコアに基づくこのようなニューラルネットワークの重みは、生成ニューラルネットワークを、算出DRスコアに対応するように初期化するのに用いることができる。
さらに、xijがドキュメントj中の用語iの用語出現頻度である、TF.IDFの定義を用いると、TF.IDF値は、以下のように表すことができる。
上式で、σ(x)は、ヘビサイド関数(引数xが負の場合、関数の値はゼロであり、引数xがゼロまたは正の場合、関数の値は1である)であり、Nは、コーパス中のドキュメントの数である。
したがって、HDR(j)に代入を行うと、以下の結果を得る。
1つまたは複数の用語tからなるグループgをもつクエリの場合、ドキュメントにおける用語出現頻度は、各ドキュメントに投影されたこうした用語の重みと見なすことができ、次いで、所与のクエリの場合、関連性ニューラルネットワークが概して以下のように表され得るように、1組の重みUij=βij*xijおよび係数αiを定義することができ、
ニューラルネットワークがTF.IDFクエリ関連性スコアづけを実装するように、重みで初期化することができる。ここで、
である。このような重みUは、概して内部ノード285と出力ドキュメントノード290との間のリンク287に対する図2Iの重み287bに対応する。
さらに、前述したように、このような生成ニューラルネットワークは、フィードバックおよび領域に関する追加関連性関連情報を示す他の情報を反映するように更新することができる。たとえば、以下のように、1組のトレーニング例[r,h]に対して二乗誤差関数が用いられ得る。
次いで、確率的勾配降下法(stochastic gradient descent)によってネットワークの重みを更新する逆伝播規則(Back-propagation rules)が導出され得る。したがって、モデルの重みに関するEという導関数が、以下のように算出され得る。
たとえばhjという目標値を、現在の最関連ドキュメントに対する値と等しく、またはそれより数パーセント大きく設定するための所与のドキュメントのユーザ選択を用いることによって、様々な実施形態において様々なやり方で、トレーニングケースが開発され得る。
生成ニューラルネットワークが、複数の重複または代替的には関連テーマの間を明確にするのに有用であり得るように、用語の間の相互関係を反映するように拡張されるとき、学習は、様々な実施形態において様々なやり方で実施することができる。図2Kのニューラルネットワーク例295cは、このような拡張ニューラルネットワークを示し、この中に、新しい用語に基づく出力ノード283が、ドキュメントに基づくノード290と新規用語に基づく出力ノード283との間の新しいリンク296を有して例示されている。たとえば、このような状況では、用語出現頻度の重みVを一定に保つか、またはそうでなければ両方の重みU、Vを逆伝播により適応させるかを選ぶことが可能である。前述したように、重みUは、概して内部ノード285とドキュメントノード290との間のリンク287に対応し、例示的な重み287bを図2Iに示してあり、重みVは、概してドキュメントノード290と用語に基づく出力ノード283との間のリンク296に対応し、例示的な重み296bを図2Kに示してある。
このような状況において、さらに1つのフィードフォワードステップが、ドキュメントに基づくノード290と新規用語に基づく出力ノード283との間のリンクに対して、以下のように曖昧性除去dの目的で用いられる。
Vij=xijで初期化する
重みVが固定される状況において、重みVは、逆数にし、新しいdに適用して、hという適切なフィードバック値を取得することができる。あるいは、重みU、Vおよびαi、γiは、以下のように、更新された誤差関数E(d)で修正すればよい。
したがって、勾配降下学習規則は、以下のような形をもつ。
さらに、学習されるパラメータの範囲は、少なくとも一部の実施形態では、「重み減衰」正規化を実装することによって制限することができる。したがって、その結果、U、V、αi、γi中のE、E(d)に二次項を加えることになる。異なる重みに対する導関数はしたがって、hまたはdという目標値との相違に基づくエラー信号が存在しない場合は重みにおけるE、E(d)の勾配中に一次項を生じ、勾配降下の効果および重みにおける指数減衰を引き起こす。このように、w(任意のネットワークの重みU、V、αi、γi)に対して、追加項
を勾配に追加することができ、ここでEはパラメータである。
このようなニューラルネットワークを生成し、更新する実施形態を参照して具体的な詳細が記載されたが、他の実施形態では他のやり方で他のニューラルネットワークが生成され、かつ/または更新され得ることが理解されよう。
図2A〜2Iを参照して上で記載した例に戻ると、図2Jはこうした例の続きであり、具体的には、コーパスに関する決定関連性情報の使用に関連したフィードバックに基づいて時間の経過とともに図2Iのニューラルネットワーク295aに関して起こり得る変化を示す。具体的には、修正ニューラルネットワーク295bが図2Jに示されており、この中で、修正は、クエリ用語280a、280cに対するドキュメント例1の正規化ドキュメント関連性値に対して行われている。このような変化は、たとえば、ドキュメント例1が、指定された用語に対応する最関連ドキュメントであるという暗黙のユーザフィードバック、またはそうでなければドキュメント例1のこのような関連性を示すユーザからの明示的フィードバックの反映など、クエリ用語280a、280cが指定された後の改正または他の使用のための、ドキュメント例1のユーザによる反復選択に基づき得る。したがって、この例では、ユーザフィードバックに基づいてドキュメント例すべての中でドキュメント1が最関連となるように、ドキュメント例1に対するドキュメント関連性数値297aは、たとえばこの例では、正規化ドキュメント関連性数値を、他の最関連ドキュメントと等しく、または指定された差だけ(たとえば、この例では0.01だけ)上回るように修正することによって、修正されている。さらに、より高い正規化ドキュメント関連性数値297aを反映するように、リンクA−D1、C−D1の値が、修正情報287cに示すように修正されている。この例では、修正されたリンク重みおよびドキュメント関連性数値297aは、便宜上太字で、ならびにリンクA−D1、C−D1を視覚的に表現するために示されている。ドキュメント関連性値の増大297aを反映するようなリンクA−D1、C−D1に対する重みの修正は、たとえばリンクの重みをドキュメント関連性数値の増大に対応するように等しく、または比例して増すことによって、様々なやり方でこうしたリンクに渡り得ることが理解されよう。あるいは、他の実施形態では、学習は、特定のリンク重みを更新させる場合があり、更新されたドキュメント関連性数値が、こうした更新されたリンク重みに対応するように代わりに生成され得る。
さらに、図2Jには示さないが、一部の実施形態では、ドキュメント例1に対するドキュメント関連性スコアの修正および/またはリンクA−D1、C−D1に対するリンク重みの修正は、他の生成ドキュメント関連性数値および/またはリンク重みの修正をさらに引き起こし得る。たとえば、ドキュメント例1の関連性が、指定用語280a、280cに対して増大されると、他のドキュメント例2〜4の関連性は、こうした指定用語280a、280cに関して、より低い相対関連性値を反映するように低下され得る。そうである場合、決定ドキュメント関連性数値297b〜297dは、様々なやり方で(たとえば、比例して)低下されてよく、内部ノード285aと285cとの間のリンクならびに他のドキュメント例2〜4に対する対応するリンク重みが低下されてよい。この例において低下され得るこのような他の情報が、便宜上斜体で示されているが、図2Jでは値例は調整されていない。さらに、一部の状況では、ある特定の用語が、図2Aのその用語およびドキュメントに対する行214jの値212eに反映されるように、入力ノード280eおよびドキュメント例1に表されるように用語「起訴」に関して、ある特定のドキュメント例への関連性がないと決定され得ることが理解されよう。そうである場合、内部ノード285eとドキュメント例1に対応するノード291との間のリンクは存在しなくてよく、またはそうでなければ、0の値の重みをもって存在し得る。この例では、0値の重みをもち、存在しなくてよいリンク287が、破線を用いて示されている。ただし、E−D1などのある特定のリンクが、最初に、0の重みをもち、ドキュメント例1などある特定のドキュメントへの関連性がないと決定され得るが、時間経過に伴う、領域に関する決定関連性情報の学習および他の修正は、その用語とそのドキュメントとの間にある程度の関連が実際に存在することを示すことができ、関連が存在する場合、修正ニューラルネットワークにおける対応するリンクおよび関連づけられた重みは、その修正決定関連性を反映するように修正され得ることが理解されよう。
さらに、ここでは図示しないが、一部の実施形態では、図2I、2Jの295a、295bなどのニューラルネットワークは、作成された後で、他のやり方で修正することができる。たとえば、コーパスに対するニューラルネットワークが生成され、かつ/または更新された後で、コーパスに対する追加ドキュメントが利用可能になった場合、一部の実施形態では、追加ドキュメントが、ニューラルネットワーク全体を生成し直すことなく、様々なやり方で既存のニューラルネットワークに組み込まれ得る。一例として、このような新しいドキュメントに対して新しい出力ノード290を作成することができ、内部ノード285と出力ドキュメントノード290との間に新しいリンク287を生成することができる。さらに、新しいリンク287に割り当てられるべき重みが、たとえば、新しいドキュメントへの既存の用語に対する初期の決定関連性値に基づいてこうした重みを初期化することによって、既にニューラルネットワーク内にある対応するリンク重みの平均をとり、または代替的には既存のリンク重みの一部または全部に基づいて新しいリンク重みを生成することによって、最も類似している他の既存ドキュメントを決定し(たとえば、上で論じたカルバック−ライブラー拡散統計測定値を用いてドキュメントの類似性を評価することによって、またはそうでなければ別のやり方で)、最も類似している他の既存ドキュメントに基づいて新しいドキュメントに対するリンク重みおよび/またはドキュメント関連性値を(たとえば、最も類似している他の既存ドキュメントに対する対応する値の平均をとるように)初期化することによって、様々なやり方で決定され得る。
図2Kは、図2Iのニューラルネットワーク295aに類似しているが、コーパスに対する追加決定テーマ関連関連性情報を反映するニューラルネットワーク例295cを示す。具体的には、この例では、ニューラルネットワーク295cは、用語に対応する類似入力ノード280、内部ノード285、および入力用語に基づく、ドキュメントに対する決定正規化関連性数値に対応するドキュメントノード290を含むが、コーパスの用語に対応する追加出力ノード283、ならびにドキュメント関連ノード290と新しい用語関連出力ノード283との間の追加リンク296をさらに含む。他の箇所でより詳細に論じるように、一部の実施形態では、1つまたは複数の第1の用語と他の1つまたは複数の用語との間の関連性の決定は、第1の用語に関連すると決定されるドキュメントに少なくとも部分的に基づいて、たとえばこうしたドキュメントを用いて他の可能関連性用語を識別し得る。この例では、付加情報296a、296bが、図2Iを参照して上で記載したのと同様のやり方で、リンク296の重みを反映するように示されている。
このニューラルネットワーク例295cの初期状態は、図2Eの例に対応し、ここで他の用語の関連性は、初期クエリ用語例265aに基づいて決定される。したがって、たとえば、図2Kの表示情報298は、図2Eのエントリ274cに関する情報272eに対応する用語「ハンク アーロン」に対する出力用語283bに関する用語関連性数値298bなど、入力用語280a、280c(便宜上、太字で示す)に基づく、他の特定の出力用語283の決定関連性の指示を含む。用語関連性数値298d、298eは同様に、入力用語280a、280cに基づく、出力用語「本塁打」283dおよび「起訴」283eに対して決定された用語関連性数値を示す。
図2Jの場合と同様に、図2Lは、特定の入力用語への特定の出力用語の関連性における学習された変化に対応する、図2Kのニューラルネットワーク295cの変化を示す修正ニューラルネットワーク295dを示す。この例では、現在関心のある入力用語は依然として、入力ノード280a、280cに対応するクエリ用語265aであり、出力用語「ハンク アーロン」283bおよび「本塁打」283dの決定関連性は、こうした入力用語に対するこうした出力用語の関連性における学習された増大を反映するように修正されている。たとえば、図2Gに示したように、いくつかのユーザが、図2Gの例を参照して上で論じたように、用語「ボンズ」および「ステロイド」をもつ拡張クエリで使用するために、追加用語「ハンク アーロン」および「本塁打」を選択している場合がある。この例では、改正用語関連性数値298b、298dが、それぞれ出力ノード283b、283dに対して選択されており、この例では、2つの入力用語に基づくこうした2つの出力用語に対する関連性数値の50%の増大に対応する。さらに、対応するリンク重みが、これに従って修正されており、この例では、入力用語280a、280cに最も関連すると決定されたドキュメント(この例では、図2C、2Dに記載したドキュメント例1〜4を含む)のサブセットそれぞれから、影響を受ける出力用語ノード283b、283dへのリンクに対応する。この例において修正されている用語関連性数値298およびリンク296が、便宜上太字で示されている。
さらに、一部の実施形態では、リンク287の一部に関連づけられた重みが、リンク296への修正の代わりに、またはそれに加えて、たとえば、入力用語280a、280cに対する出力用語283b、283dの関連性の増大の一部または全部を調節するために内部ノード285aと285cとの間のリンクならびにドキュメント例1〜4の1つまたは複数に対する重みを増大するように、同様に修正され得る。さらに、リンクD3−B、D4−Bの重みが、図2Kにおける0値をもつものから、この例における関連づけられた小さな重みをもつものに増大されているが、他の実施形態では、0値をもつこのような重みは、増大しなくてよいことに留意されたい。
ニューラルネットワーク例295a〜295dに関して例示される様々な重み、関連性数値、および他の情報は、例示のために挙げられ、他の形をしていてもよく、他の実施形態では他のやり方で修正され得ることが理解されよう。さらに、図2A〜2Lの例で例示する情報は、例示目的でのみ挙げられており、記載する活動の様々なものは、他の実施形態では他のやり方で実施され得ることが理解されよう。さらに、他の様々な詳細が、理解しやすくするために抽象的に示され、または図示されていない。さらに、他の様々なタイプの機能が、他の箇所でより詳細に論じるように、様々な実施形態においてDSRDサービスによって提供され、用いられ得る。少数の用語、ドキュメント、およびニューラルネットワークノードが例示されているが、実際の実施形態では、実際の量は、たとえば数十万の用語および数百万のドキュメントを、対応する数のニューラルネットワークノードとともに含むように、はるかに多くてよいことも理解されよう。
図2A〜2Lの例は、テキストドキュメントまたは他のコンテンツアイテムに存在する用語の分析に基づくが、本記載技術は、他のやり方で、他のタイプのコンテンツとともに用いられ得ることが理解されよう。具体的には、他のタイプのコンテンツを有するコンテンツアイテムのコーパスが、そうしたコンテンツアイテムのコンテンツの一部であり、またはそうでなければそうしたコンテンツアイテムに関連づけられた他の任意のタイプの認識可能な特徴もしくはプロパティまたは他の属性を識別するために分析されてよく、コンテンツおよび/または他のこのような属性への特定の属性の関連性が、テキスト用語に関して論じたのと同様のやり方で決定されてよい。このようなコンテンツアイテム属性の非排他的リストは、コンテンツアイテムのタイプ(たとえば、音声ストリームまたはファイル、映像ストリームまたはファイル、画像など)、コンテンツアイテムのソース、画像または映像コンテンツ中のある特定のオブジェクト、ストリームまたはファイルコンテンツアイテム中の情報のある特定のパターン、コンテンツアイテムに関連づけられた特定のタイプのメタデータなどを含む。このような属性は、指定された属性に関連する検索結果を与えるように、かつ/または1つもしくは複数の関連属性のテーマもしくは他のグループを定義するように、それぞれ用語として扱うことができる。
さらに、図2I〜2Lの例は、決定関連性情報を時間の経過とともに向上させるのに、ニューラルネットワークおよび逆伝播学習を用いるが、他の実施形態では、他のタイプの機械学習技術または適応システムが、代わりに用いられ得る。一例として、他の一部の実施形態では、初期の決定関連性情報は、図2I〜2Lの例で論じたのと同様の構造をもつが、ネットワーク内の先行するリンクノードからの対応する入力値に基づく条件的確率を表すノード値をもち、特定の関連性値を決定するのに用いられる確率的信念伝播(probabilistic belief propagation)を用い、時間経過に伴うフィードバックに対応するような条件的確率値の更新を伴う学習を用いる、確率的なベイズのニューラルネットワークを用いて表すことができる。
さらに、ユーザのクエリ用語または嗜好情報の指定を参照して上で例が論じられたが、他のタイプの情報が、様々な実施形態において様々なやり方で用いられ得る。たとえば、ユーザに特有の情報のグループは、そのユーザに関する嗜好情報を決定するために自動分析し、用いることができ、嗜好情報は次いで、その嗜好情報に関連する他のコンテンツを自動決定するのに用いることができる。分析され得るこのようなユーザ特有情報の非排他的例は、eメールおよび他の通信(たとえば、指定された期間にユーザが送り、かつ/または受け取っている全eメール)、様々なタイプのユーザ操作のログまたは履歴(たとえば、実施される検索および/または検索結果を伴う対話の履歴)、ユーザのソーシャルネットワークおよび他の関係についての情報のグループなどを含む。あるいは、1つまたは複数のこのようなユーザ特有情報グループが代わりに、一部の実施形態では、そのユーザ(および/またはそれ以外の人達)にとって関心のあり得るドキュメントのコーパスとして扱われて、たとえば、このようなユーザ特有情報に分析に基づいて、ユーザにとって関心あるテーマを自動決定し、かつ/またはユーザの現在の関心に関連する、このようなユーザ特有情報の特定の断片を取り出させることができる。
たとえば、ユーザは、ドキュメントにアクセス中である場合があり、そのドキュメントにある情報のコンテキストが、(たとえば、そのユーザのコンピューティングシステム、インターネットもしくは他の外部ネットワークまたはデータストアなどから)他の関連性コンテンツアイテムを識別するのに使われ得る。具体的な例示的一例として、ジョン ドウというユーザは、自分の履歴書を編集中である場合があり、ユーザのeメールストアおよびウェブから関連性職歴データまたは他の関連データの取得を望む場合がある。eメールストアは、たとえば、そのユーザが企業1および企業2において従事した過去の仕事に関連したeメールを有してよく、こうしたeメールのヘッダーは、それぞれの企業名を含む。ユーザ用のデータストアは(ローカルであってもリモートであっても)、ユーザの1つまたは複数の過去の履歴書または履歴書例も含んでよく、仕事関連のソーシャルネットワークサイトは、ユーザの過去の利用履歴を有し得る。このような状況において、特定のユーザが履歴書を公開させるコンテキストが、ユーザがクエリ用語「ドウ(Doe)」で指定する検索を、履歴書からの追加クエリ用語「ジョン」、「企業1」、「企業2」、「履歴書」、肩書きまたは説明情報、ユーザに関する履歴書または他の格納プロファイルまたは嗜好情報からのユーザに関する地理的位置情報などの1つまたは複数を追加するなど、自動的に拡張し、または補うのに使われ得る。拡張検索は次いで、たとえばユーザが企業1および企業2において従事した過去の仕事に関連したeメール、企業1および企業2に関連した他の格納ドキュメント、過去の履歴書または履歴書例、仕事関連のソーシャルネットワークサイトからの利用履歴情報など、様々なタイプの関連ドキュメントまたは他の情報を識別することができる。
さらに、他の箇所でより詳細に記載するように、本記載技術は、関連コンテンツアイテムの識別または取出し以外の状況で用いることができる。たとえば、第1のコンテンツアイテムグループの自動化分析は、第1のグループのコンテンツアイテム中のデータのタイプまたはカテゴリに対応するテーマを(たとえば、合致または類似パターンをもつデータに基づいて)識別するのに用いることができ、こうした識別テーマは、クエリ用語として使われる別のデータアイテムのタイプをカテゴリ化し、または代替的には決定するのに使うことができる。例示的な一例として、様々なタイプの暗号化データが、暗号化方式のタイプに対応するテーマが識別されるように分析され得る。暗号化ファイルまたは暗号化データの他の断片が後になって供給され、または代替的には指定された場合、DSRDサービスは、その指定データ断片を暗号化するのに使われる最も有望な暗号化方式の1つまたは複数を識別するのに自動的に利用することができる。より一般的に言うと、コンテンツアイテムの第1のグループからの識別テーマは、対象範囲に関連する有効なソリューションのタイプでよく、その結果、それ以降のクエリは、1つまたは複数の対応する識別テーマが可能ソリューションとして自動決定される何らかのタイプの数学的または他の問題を課し得る。本記載技術は、他の様々なやり方でも同様に用いられ得ることが理解されよう。
図3は、関心領域に関連した関連性情報を決定するための技術の実施に適したシステムの実施形態例を示すブロック図である。具体的には、図3は、DSRDシステム340、ならびに様々なユーザコンピューティングシステム350および他のコンピューティングシステム360、370、380の実施形態の実行に適したコンピューティングシステム300を示す。図示した実施形態では、コンピューティングシステム300は、CPU305、様々なI/O構成要素310、ストレージ320、およびメモリ330を含む構成要素を有する。例示するI/O構成要素は、ディスプレイ311、ネットワーク接続312、コンピュータ可読メディアドライブ313、および他のI/O装置315(たとえば、キーボード、マウス、スピーカなど)を含む。さらに、例示するユーザコンピューティングシステム350は、CPU351、I/O構成要素352、ストレージ354、およびメモリ357を含む、サーバコンピューティングシステム300の構成要素と同様の構成要素を有するが、一部の詳細は図示していない(たとえば、特定のI/O構成要素)。他のコンピューティングシステム360、370、380もそれぞれ、コンピューティングシステム300を参照して例示する構成要素の一部または全部と同様の構成要素を含み得るが、このような構成要素は、この例では簡潔にするために図示していない。
DSRDシステム340は、たとえばDSRDサービスの実施形態を実現するために、メモリ330において実行中である。具体的には、DSRDシステム340は、コンピューティングシステム350、360、370、380の一部または全部と、ネットワーク390を超えて(たとえば、インターネットおよび/またはワールドワイドウェブを介して、私設セルラーネットワークを介して、など)対話して、情報および要求を取得し、応答として情報を提供する。たとえば、この例におけるDSRDシステム340は、ユーザコンピューティングシステム350と対話中である様々なユーザ(図示せず)から要求、たとえば、ある領域に関する決定テーマについての要求検索結果および/または情報を提供するための要求を受け取り、それに従って応答する。さらに、ユーザコンピューティングシステム350の1つまたは複数は、DSRDシステム340と対話して、他の箇所でより詳細に論じるように、ユーザ操作に関する様々なタイプのフィードバックを提供するなど、他の様々なタイプのアクションを実施することができる。他のコンピューティングシステム350が、DSRDシステム340との対話の一部として様々なソフトウェアを実行中であってよい。たとえば、ユーザコンピューティングシステム350はそれぞれ、メモリ357内のウェブブラウザ358または他のソフトウェアを実行中であって、DSRDシステム340と対話して、たとえばDSRDシステム340によって提供されるDSRDサービスのウェブベースのGUIと対話している場合がある。
領域特定の関連性情報を決定するために、DSRDシステム340は、領域特定ドキュメントまたは他のコンテンツを1つまたは複数のソースから取得し、その情報を分析して、領域特定の関連性情報を自動決定する。領域特定コンテンツのソースは、たとえばローカルストレージ320上の領域関連情報322、他のコンピューティングシステム370上の任意選択の領域情報375、1または複数のユーザによる分析のためにユーザコンピューティングシステム350および/または他のコンピューティングシステム360上の任意選択の他のシステム365から供給される情報などを任意選択で含むように、様々な実施形態において変わり得る。他のコンピューティングシステム360上の任意選択の他のシステム365および/またはメモリ330内で実行する任意選択の他のシステム335は、DSRDシステム340から決定関連性情報を取得し、その取得情報を様々な用途に(たとえば、ユーザコンピューティングシステム350のユーザと対話するために)用いる系列サービス、および/またはDSRDシステムにコンテンツを分析用に提供するコンテンツ提供サービスなど、様々な実施形態において様々な形をもち得る。たとえば、ある特定の任意選択の他のシステム365は、領域情報を保有し、DSRDシステム340に分析用に提供し、DSRDシステム340から決定関連性情報結果を取得し使用することができるが、関連性情報の決定においてDSRDシステム340によって用いられる情報の少なくとも一部(たとえば、テキスト分析情報、生成ニューラルネットワークなど)は、コンピューティングシステム300上に格納され、他のシステム365には提供されない。あるいは、他の実施形態では、DSRDシステム340は、このような任意選択の他のどのサービスとも対話することなく、1つまたは複数の領域に関する決定関連性情報を生成し使用することができる。さらに、1つまたは複数の任意選択の他のサードパーティが、他のコンピューティングシステム380の1つまたは複数を使い、DSRDサービスと他の様々なやり方で対話することができる。
1つまたは複数の関心領域に関連した情報322(たとえば、分析されるべき、または既に分析済みの領域特定コンテンツ)、領域特定コンテンツの分析の結果に関連した情報324(たとえば、特定の用語、テーマおよびドキュメントなどに関連した生成ニューラルネットワーク、決定スコアおよび他の情報など、領域特定関連性情報)、様々な領域特定情報および他のフィードバック情報とのユーザ対話についての情報を反映する情報326、ならびに様々なユーザ情報328(たとえば、嗜好)など、DSRDシステム340の動作に関連した様々な情報は、ストレージ320または他の所に(たとえば、他の1つまたは複数のコンピューティングシステム380上にリモートに)格納することができる。他の実施形態では、DSRDシステム340によって用いられ、または生成される情報の一部または全部は、他のコンピューティングシステム380上または他の記憶ノード/システム(図示せず)上など、他のやり方で格納することができる。DSRDシステム340は、たとえば、ユーザとのDSRDシステム340の対話に基づく情報を生成することによって(たとえば、ユーザに決定関連性情報を提供するとき)、ユーザと対話し、DSRDシステム340からの決定関連性情報をユーザに提供する任意選択の他のシステム335および/または365から、フィードバック情報を生成する目的でユーザと対話する1つまたは複数のシステムによってなど、様々なやり方でフィードバック情報326を取得することができる。
コンピューティングシステム300、350、360、370、380は例示に過ぎず、本発明の範囲を限定することは意図していないことが理解されよう。コンピューティングシステムは代わりに、複数の対話コンピューティングシステムまたは装置をそれぞれ含んでもよく、コンピューティングシステムは、たとえば、インターネットなどの1つまたは複数のネットワークを介して、ウェブ経由で、または私設ネットワーク(たとえば、移動体通信ネットワークなど)経由で、図示していない他の装置に接続することもできる。より一般的に言うと、コンピューティングシステムは、記載するタイプの機能を対話し実施することができる、デスクトップまたは他のコンピュータ、データベースサーバ、ネットワーク記憶装置および他のネットワーク装置、PDA、セル電話、無線電話および他の電話システム、ページャ、電子手帳、インターネット製品、(たとえば、セットトップボックスおよび/またはパーソナル/デジタル映像レコーダを用いる)テレビベースのシステム、ブロードキャストシステム、ならびに適切な任意の通信プロトコルを用いる適切な通信能力を含む他の様々な消費者製品を制限なしで含むハードウェアまたはソフトウェアのどの組合せも備え得る。さらに、例示するDSRDシステム340によって提供される機能は、一部の実施形態では、様々なモジュールに分散してよい。同様に、一部の実施形態では、DSRDシステム340の機能の一部は提供されなくてよく、かつ/または他の追加機能が利用可能でよい。
様々なアイテムが、使用中にメモリまたはストレージに格納されるものとして例示されているが、こうしたアイテムまたはその一部は、メモリ管理目的およびデータ完全性のために、メモリと他の記憶装置との間でされ得ることも理解されよう。あるいは、他の実施形態では、ソフトウェアモジュールおよび/またはシステムの一部または全部は、別の装置上のメモリ内で実行し、例示するコンピューティングシステムとコンピュータ間通信により通信し得る。さらに、一部の実施形態では、システムおよび/またはモジュールの一部または全部は、少なくとも部分的には、1つまたは複数のASIC(特定用途向け集積回路)、標準集積回路、コントローラ(たとえば、適切な命令を実行し、マイクロコントローラおよび/または組込みコントローラを含むことによる)、FPGA(フィールドプログラム可能ゲートアレイ)、CPLD(複合プログラム可能論理素子)など、ならびにRFID技術を利用する装置を含むが、それに限定されないファームウェアおよび/またはハードウェアとしてなど、他のやり方で実装することも提供することもできる。モジュール、システムおよびデータ構造の一部または全部は、たとえば、1つまたは複数のこのようなコンピュータ可読媒体上に格納され、適切なリーダ装置によって可読である1つまたは複数のバーコードまたは他の関連コードとしてエンコードされた、適切なドライブによって、または適切な接続により読み取られるハードディスク、メモリ、ネットワーク、または可搬型メディア品などのコンピュータ可読媒体上に(たとえば、ソフトウェア命令や構造化データとして)格納することもできる。システム、モジュールおよびデータ構造は、無線ベースおよび有線/ケーブルベースの媒体を含み、様々な形をとり得る、またはより一般的に言うとどのコンピュータ可読媒体に載せても仲介され得る、様々なコンピュータ可読伝送媒体に載せて、生成データ信号として(たとえば、担体の一部として)伝送することもできる。このようなコンピュータプログラム製品は、他の実施形態では他の形もとり得る。したがって、本発明は、他のコンピュータシステム構成でも実施することができる。
図4は、DSRDサービスルーチン400の実施形態例のフロー図である。このルーチンは、たとえば、図1A、1BのDSRDサービス105および/または図3のDSRDシステム340の実行によって、たとえば、関心領域に関連した関連性情報の決定、ならびにユーザまたは他の存在との対応する対話を管理するように提供することができる。図示した実施形態では、ルーチンは、1つまたは複数の関心領域についての情報を様々なときに分析して、たとえば、(たとえば、DSRDサービスの人間オペレータによる命令に従って、サードパーティ実体による要求に従って、など)ある特定の領域についての情報を前処理して、少なくとも一部のタイプの領域特定の関連性情報を、このような情報に基づいて後の要求への応答に使用するために決定し、またはそうでなければ、少なくとも一部の状況ではユーザまたは他の存在からの要求に応答して少なくとも一部のタイプの領域特定の関連性情報を動的に生成する。
図示した実施形態では、ルーチンはブロック405で始まり、ここで、要求の指示または他の情報が受け取られる。ルーチンはブロック410に続き、指示領域に関する関連性に関する情報(関連性関連情報)を決定する要求が受け取られたかどうか、または分析されるべき領域特定のコンテンツが提供されたかどうか決定し、提供されている場合、ブロック415に続く。ブロック415〜450で、ルーチンは次いで、その領域に関する関連性関連情報を決定するために領域特定情報を分析し、その情報を後で使うために格納する。さらに、ブロック415〜450は、関心領域に関する関連性関連情報の初期決定を実施するものとして例示されているが、少なくとも一部の実施形態では、ブロック415〜450の一部または全部は同様に、予め決定された関連性情報を修正するように、たとえば予め決定された関連性情報をユーザフィードバックに基づいて改正するように、および/または予め決定された関連性情報を、新たに利用可能な領域特定コンテンツに基づいて拡張するように実施することができる。
具体的には、ルーチンはブロック415で、ドキュメントまたは分析されるべき領域に関する他の領域特定情報を、たとえば、現時点においてブロック405で受け取られているドキュメント、予め受け取られ、後で使うために格納されたドキュメント、ブロック405で受け取られた要求において指示される外部の場所から取り出されたドキュメントなどに基づいて取得する。ブロック415の後、ルーチンはブロック420に続き、領域分析マネージャルーチンを実施して、利用可能な領域特定コンテンツに関する用語情報を分析するが、このようなルーチンの一例は、図5を参照して図解する。ブロック420の後、ルーチンはブロック430に続き、関連テーマ決定マネージャルーチンを実施して、領域に関する関連テーマ関連情報を決定するが、このようなルーチンの一例は、図6を参照して図解する。ブロック430の後、ルーチンはブロック440に続き、関連ドキュメント決定マネージャルーチンを実施して、特定の用語およびテーマに関連する、その領域の特定のドキュメントを決定するが、このようなルーチンの一例は、図7を参照して図解する。ブロック440の後、ルーチンはブロック450に続き、決定関連性情報を格納し、かつ/または任意選択で、たとえば、情報が要求に応答して動的に決定され、または以前の要求を調節するように供給されている場合は、決定関連性情報を要求側に与える。
そうではなく、ブロック410で、別のタイプの要求または情報が受け取られたと決定された場合、ルーチンは、代わりにブロック460に続き、指示領域に関する決定した関連性情報を提供する要求が受け取られているかどうか決定する。このような決定した関連性情報は、たとえば、取り出し要求に応答して、または1つもしくは複数の関心テーマに関する情報を指定する際のユーザ支援の一部として、ならびに様々なやり方で(たとえば、ユーザのクライアント装置上での表示または他の提示のためにユーザに提供されるウェブページまたは他の情報スクリーンの一部として)、様々な理由で様々なときに提供することができる。ブロック460で、指示領域に関する決定関連性情報を提供するための要求が受け取られていると決定された場合、ルーチンはブロック465に続き、要求された関連性情報(要求関連性情報)が既に決定され、後でブロック415〜450で使うために格納されているかどうか、または要求関連性情報の一部もしくは全部が動的に生成されるべきかどうか決定する。他の実施形態では、このような決定は、このような要求に応答して提供される関連性情報が常に予め決定され、格納され、または常に動的に決定される場合などに行えばよい。図示した実施形態では、ブロック465で、格納された関連性情報を用いると決定された場合、ルーチンはブロック470に続き、予め決定され格納された情報から要求関連性情報を取得する。
さらに、ブロック470のアクションは、様々な実施形態において様々なやり方で実施することができる。たとえば、一部の実施形態では、少なくとも一部のタイプの決定関連性情報は、その情報を受け取ることが認められたユーザまたは他の存在のサブセットに対してのみ利用可能でよく、そうである場合、ブロック460〜475の1つまたは複数用のアクションは、要求側が要求情報を受け取ることを認められる(たとえば、情報への有料アクセスのための適切な料金を納めてある、機密要求情報を受け取ることを認められるものとして検証されるある特定の識別を有する、など)かどうか決定することをさらに含み得る。さらに、たとえば、電子メッセージに入れて、または系列サービスなどのDSRDサービスによって提供される1つもしくは複数のAPIを用いるプログラムによる対話により、様々なやり方で要求を受け取ることができ、情報を提供することができる。あるいは、ウェブベースの要求が、(たとえば、ウェブベースの情報検索GUIまたはDSRDサービスもしくは他の系列サービスによって提供される他のGUIに基づいて)ユーザから受け取られてよく、要求された情報は、要求に応答して送られる1つまたは複数の生成ウェブページの一部としてユーザに供給することができる。
そうではなく、ブロック465で、要求関連性情報の少なくとも一部を動的に取得すると決定された場合、ルーチンは、代わりにブロック475に続き、情報の動的な取得を実施する。具体的には、ルーチン例400に図解するように、ブロック475の実施は、ブロック420〜440に対応する他のルーチンの1つまたは複数を実行すること、およびルーチンの結果得られた情報を取得することを含み得る。さらに、ここでは図示しないが、一部の実施形態では、ブロック475の実施は、たとえばブロック415の実施を開始することによって、分析されるべきドキュメントまたは他のコンテンツを取得することもさらに含んでよく、またはそうでなければこのような使われるべきコンテンツは、ブロック405で受け取り、ブロック475の実施の一部としてブロック420〜440に対応するルーチンの1つまたは複数に与えることができる。ブロック470または475の後、ルーチンはブロック480に続き、取得した情報をユーザまたは他の要求側に与えるが、これは、他の箇所でより詳細に論じるように、様々な実施形態において様々なやり方で実施することができる。さらに、ブロック480の実施は、少なくとも一部の状況では、たとえば、最初に何らかの情報を提供し、後で付加情報を提供し、またはユーザもしくは他の要求側との他の対話を、初期情報提供後にユーザもしくは他の要求側によってとられるアクションに基づいて実施するための、ユーザまたは他の要求側との複数の対話を伴い得ることが理解されよう。ブロック475の後、ルーチンはブロック480に続き、ユーザまたは他の要求側による、提供関連性情報の使用からフィードバックを任意選択で取得し、または決定し、そうである場合、例示した実施形態では、フィードバックを、予め決定された関連性情報を向上させるための学習アクションの実施において後で使うために保持し、他の実施形態では、そうではなくルーチンは、このようなどの取得フィードバックも、少なくとも一部の状況では、たとえばフィードバック情報を用いてブロック420〜440の1つまたは複数に対応するルーチンを実施し直すのに直ちに使う場合がある。
そうではなく、ブロック460で、指示領域に関する決定関連性情報を提供するための要求が受け取られていないと決定された場合、ルーチンは、代わりにブロック490に続き、必要に応じて他の1つまたは複数の指示操作を実施する。たとえば、分析されるべき新しい領域に関する情報および/または関連性情報が予め決定された領域に関する新規もしくは更新情報などの領域特定コンテンツが、ブロック490で受け取られ、後の分析のために格納され得る。あるいは、予め決定された関連性情報の使用に関連したフィードバック情報など、他のタイプの情報がブロック490で受け取られ、使われる場合があり、様々なやり方で使われ得る。たとえば、1つまたは複数の予め定義された基準が、(たとえば、取得される最小または最大量のフィードバック、対応する関連性情報の以前の決定からの最小または最大時間量などに基づいて)ブロック490で受け取られ、かつ/またはブロック485で格納されたフィードバックによって満足される場合、ブロック490の実施は、他の箇所でより詳細に記載するように、予め決定された関連性情報を学習し、更新するために、フィードバック情報を用いるブロック420〜440の1つまたは複数に対応するルーチンの追加実施をトリガーし得る。さらに、(たとえば、後続フィードバック情報、利用可能な後続追加領域特定コンテンツなどに基づいて)予め決定された関連性情報を更新するための要求など、DSRDサービスと対話するユーザもしくは他の存在から、またはDSRDサービスの人間オペレータからの要求など、他のタイプの要求が、ブロック490で受け取られ、処理され得る。同様に、DSRDサービスの人間オペレータからの様々な管理要求が受け取られ、処理され得る。
ブロック450、485または490の後、ルーチンはブロック495に続き、たとえば終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック405に戻り、そうでない場合、ブロック499に続き、終了する。
図5は、領域分析マネージャルーチン500の実施形態例のフロー図である。このルーチンは、たとえば、図1AのDSRDサービス105の領域分析マネージャモジュール110および/または図3のDSRDシステム340のモジュールの実行によって、たとえば、特定のドキュメント中での、およびドキュメントすべてからなるグループに渡る特定の用語の使用を決定するために、ある領域に関する領域特定コンテンツを分析するように実施することができる。さらに、少なくとも一部の状況では、ルーチン500は、図4のブロック420の実行に基づいて実施することができる。この例では、ルーチン500は、ある領域に関する領域特定コンテンツの初期分析に関して実施されるが、他の実施形態では、他のドキュメントの先行分析が完了した後にある領域に対して利用可能になる追加ドキュメントの分析など、予め分析された情報を更新するように同様に実施することができる。さらに、他のルーチンの場合と同様に、ルーチン500は、決定されたその情報を使用する前に、ならびにこのような情報を求める要求に動的に応答して、ある領域に関する用語分析情報を決定することができる。
ルーチンの図示した実施形態はブロック505で始まり、ここで、ある領域に関して分析されるべきドキュメントの指示または別の要求が受け取られる。ルーチンはブロック510に続き、分析されるべきドキュメントが受け取られたかどうか決定する。受け取られた場合、ルーチンはブロック515に続き、ドキュメントそれぞれを分析して、ドキュメントに存在する用語を決定する。さらに、他の箇所でより詳細に論じるように、ドキュメントに対する用語の決定は、(たとえば、関連用語を組み合わせるための用語語幹処理を用いる)用語の標準化、共通用語(たとえば、「the」、「a」、「an」、「of」、「and」など)または他の指示用語の削除、後で分析するための複数の単語の単一用語への集約、ドキュメント中の用語の索引の生成など、様々な実施形態における様々なタイプの用語処理を含み得る。ブロック515の後、ルーチンはブロック520に続き、各ドキュメントの用語に対する用語出現頻度決定を実施し、ブロック530で、ドキュメントすべてに渡る各用語に対するドキュメント頻度逆数決定を実施する。ブロック540で、ルーチンは次いで、ブロック520、530で生成された情報に基づいて、各用語およびドキュメント結合に対するTF−IDFスコアを決定する。ブロック540の後、ルーチンはブロック560に続き、決定された情報を後で使うために格納し、任意選択で、決定された情報を出力として(たとえば、図4のブロック475に関して、決定情報を求めるルーチン500の動的呼出しへの応答として、または、たとえば図4のブロック430および/もしくは440に対応する、図6の関連テーマ決定マネージャルーチン600および/もしくは図7の関連ドキュメント決定マネージャルーチン700によって使用するために)提供する。
そうではなく、ブロック510で、その分析されるべきドキュメントが受け取られていないと決定された場合、ルーチンは、代わりにブロック585に続き、他の1つまたは複数の指示操作を必要に応じて実施する。たとえば、他の動作は、予め生成されたドキュメント用語分析情報を求める要求、予め決定されたドキュメント分析情報を、利用可能な新しい領域特定コンテンツを反映するように更新するための要求、DSRDサービスの人間オペレータからの管理要求などの受取りおよび応答を含み得る。
ブロック560または585の後、ルーチンはブロック595に続き、たとえば、終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック505に戻り、そうでない場合、ブロック599に続き、終了する。
図6は、関連テーマ決定マネージャルーチン600の実施形態例のフロー図である。このルーチンは、たとえば、図1Aの関連テーマ決定マネージャモジュール130および/または図3のDSRDシステム340のモジュールの実行によって、たとえば、ある領域のドキュメントに関するドキュメント用語分析情報を用いて、その領域に関する用語と可能テーマとの間の関係を決定するように実施することができる。ルーチン600は、たとえば、図4のブロック430の実行によって、またはそれ以外のやり方で開始することができる。さらに、図示したルーチンの実施形態は、ある領域に関する関連テーマ関連情報の初期決定を記述するとともに、予め決定されたテーマ関連関連性情報を、その領域に関する可能テーマについての後続フィードバックおよび/または他の情報を反映するように更新する。さらに、他のルーチンの場合と同様に、ルーチン600は、その決定関連性情報を使用する前に、ならびにこのような情報を求める要求に動的に応答して、ある領域に関するテーマ関連関連性情報を決定することができる。
さらに、図示した実施形態では、図6における、ある領域に関するテーマ関連関連性情報の決定は、図7における領域に関するドキュメント関連関連性情報の決定とは別に実施されるものとして例示されるが、他の実施形態では、このようなタイプの関連性情報の決定は、他のやり方で実施することができる。たとえば、テーマ関連関連性情報およびドキュメント関連関連性情報の一方のみが、特定の実施形態では決定されてよく、ある領域に関するテーマ関連およびドキュメント関連関連性情報両方の決定が、単一ルーチンの一部としてまとめて実施されてよく、両方のタイプの決定に共通の情報が、一度に実施され、次いで、2つの別個のルーチンの間で共有されてよい。
図示したルーチンの実施形態はブロック605で始まり、ここで、ある領域のドキュメントに関するドキュメント用語分析情報が、(たとえば、図5のルーチン500の出力として、動的決定要求の一部として供給される情報として、など)受け取られ、または別の要求が受け取られる。ルーチンはブロック610に続き、ドキュメント用語分析情報が受け取られたかどうか決定し、受け取られた場合、ブロック615に続く。図示した実施形態では、ブロック615〜650は、関心ある領域の1つまたは複数の用語からなる各グループに関するテーマ関連情報を決定するために実施される。分析されるべき用語は、たとえば、ドキュメントのいずれかに存在する各用語を使う(任意選択で、共通用語および/または他の指示用語を除外する)ことによって選択することができる。あるいは、分析されるべき用語のグループは、たとえば、その領域のドキュメントに存在する2つの用語または別の指示量の用語の各組合せ、互いに十分に関連し得る(たとえば、指定された閾値を上回る)と決定される2つの用語または別の指示量の用語の各組合せなどを含み得る。さらに、ブロック615〜650は、複数の用語の相互関係についての情報を評価し、改正するために、繰り返し実施することができ、たとえば、最初に各用語個々に対してブロック615〜650を実施し、次に2つの用語からなる少なくとも何らかの組合せに対する決定を(たとえば、こうした用語に対して個々にブロック615〜650の実施から利用可能な情報に基づいて)実施し、次に3つの用語からなる少なくとも何らかの組合せに対する決定を(たとえば、2つの用語からなる予め選択された組合せに十分に関連した特定の用語に対するブロック615〜650の実施から利用可能な情報に基づいて)実施する、などのようになる。
具体的には、図示した実施形態では、ルーチンはブロック615で、検討されるべき1つまたは複数の用語からなる次のグループを選択し、第1のこのようなグループで始め、ブロック620で、検討されるべき領域の次のドキュメントを同様に選択し、第1のドキュメントで始める。ブロック625で、ルーチンは次いで、選択ドキュメントへの選択用語(群)の正規化平均関連性を、たとえば、選択ドキュメントに対する各選択用語の標準化TF−IDFスコアの平均化または代替的には集約化に基づいて決定する。ブロック635で、ルーチンは次いで、分析されるべきドキュメントがまだあるかどうか決定し、ある場合はブロック620に戻る。ない場合、ルーチンはブロック640に続き、現在選択されている用語(群)に対する最関連ドキュメントを、ブロック625で決定された関連スコアに基づいて決定する。次に、ブロック645で、ルーチンは、決定された最関連ドキュメントの1つまたは複数を識別し、識別ドキュメントを使って、選択用語(群)に最も関連し得る他の用語を、たとえば、識別ドキュメント(群)中の他の用語の用語出現頻度または識別ドキュメント(群)への他の用語の他の関連性指示に基づいて決定する。
さらに、一部の実施形態では、選択用語(群)に最も関連すると決定された他の用語は、任意選択で、テーマとして使用する可能性があるために、および/またはこうした用語の組合せグループに対するブロック615〜650に関して後で起こり得る分析のために、選択用語(群)の1つまたは複数と組み合わせて、任意選択で、その用語の組合せグループに関連し得る他の追加用語を見つけることができる。このような、他の追加用語と現在選択されている用語との可能な関係の継続分析は、様々なやり方で、たとえば、選択用語のグループを個々に、他の最関連用語それぞれと、他の最関連用語すべてと、他の最関連用語の一部または全部からなる副次的組合せなどと組み合わせることによって実施することができる。あるいは、他の実施形態では、他の最関連用語の一部もしくは全部は、選択用語の一部もしくは全部と組み合わせて、可能テーマを他のやり方で識別することができ、かつ/またはユーザによる用語の一括使用から得た後のフィードバックが、どの用語グループが、領域に関するテーマとしてまとめて関連するかを絞り込むのに使われ得る。
ブロック645の後、ルーチンはブロック650に続き、検討するべき1つまたは複数の用語からなるグループがまだあるかどうか決定し、ある場合はブロック615に戻る。ない場合、ルーチンはブロック660に続き、図示した実施形態では、領域における用語の、領域における他の用語への関連性を、たとえば、ブロック625、640、645に関して生成された情報に部分的に基づいて反映するようにニューラルネットワークを生成する。ブロック680を参照して論じるように、このような生成ニューラルネットワークは後で、フィードバックに基づいて、領域に関する特定の用語の相互関係の決定を絞り込むように更新することもできる。ブロック660の後、ルーチンはブロック670に続き、決定関連テーマ関連情報および生成ニューラルネットワークを格納し、任意選択で、決定情報の一部または全部を、適切な場合は出力として(たとえば、その情報を動的に生成するための要求への応答として)提供する。
そうではなく、ブロック610で、ドキュメント用語分析情報が受け取られないと決定された場合、ルーチンは、代わりにブロック675に続き、たとえば、予め決定され提供された関連性情報の使用に基づいて、フィードバック情報が受け取られ、または決定可能であるか決定する。そうである場合、ルーチンはブロック680に続き、フィードバック情報を用いて、他の箇所でより詳細に論じるように、フィードバックに対応する予め生成されたニューラルネットワークを更新する。ブロック680の実施は、更新ニューラルネットワーク情報をさらに格納し、任意選択で、更新情報を要求側にルーチンの出力として提供する。そうではなく、ブロック675で、フィードバック情報が受け取られないと決定された場合、ルーチンは、代わりにブロック685に続き、他の1つまたは複数の指示操作を必要に応じて実施する。たとえば、このような他の指示操作は、領域に関する予め決定されたテーマ関連情報(たとえば、ニューラルネットワークが更新された後などの、領域に関するある特定の予め生成されたニューラルネットワークの現在のバージョンから得たテーマ関連情報)を供給するための要求を受け取ること、領域に関する決定テーマ関連情報を絞り込む際に後で使うためのユーザフィードバック情報(たとえば、テーマを表すためにまとめて選択される特定の用語グループ)を受け取ること、(たとえば、領域に関して利用可能なユーザフィードバックおよび/または追加領域特定コンテンツに基づいて)ユーザもしくは他の存在または他の人間オペレータから、予め決定されたテーマ関連情報への更新を実施するための要求を受け取ること、DSRDサービスの人間オペレータからの他の管理要求を受け取ることなどを含み得る。後で使うために受け取られるフィードバック情報は、様々なやり方で扱うことができる。たとえば、予め定義された1つまたは複数の基準が、(たとえば、取得される最小または最大フィードバック量、対応する関連性情報の以前の決定から経過した最小または最大時間量などに基づいて)フィードバックで満足される場合、ブロック685の実施は、そのフィードバック情報がブロック680で使用するために供給されるルーチン600の後続実施をトリガーし得る。
ブロック670、680または685の後、ルーチンはブロック695に続き、たとえば、終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック605に戻り、そうでない場合はブロック699に続き、終了する。
図7は、関連ドキュメント決定マネージャルーチン700の実施形態例のフロー図である。このルーチンは、たとえば、図1Aの関連ドキュメント決定マネージャモジュール120および/または図3のDSRDシステム340のモジュールの実行によって、たとえば領域のドキュメントに関するドキュメント用語分析情報を用いて、領域に関する用語とドキュメントとの間の関係を決定するように実施され得る。ルーチン700は、たとえば、図4のブロック440の実行によって、またはそれ以外のやり方で開始することができる。さらに、ルーチンの図示した実施形態は、領域に関する関連ドキュメント関連情報の初期決定を記述するとともに、予め決定されたドキュメント関連関連性情報を、後続フィードバックおよび/または領域に関するドキュメントについての他の情報を反映するように更新する。さらに、他のルーチンの場合と同様に、ルーチン700は、その決定関連性情報を使用する前に、ならびにこのような情報を求める要求に動的に応答して、領域に関するドキュメント関連関連性情報を決定することができる。
図示したルーチンの実施形態はブロック705で始まり、ここで、ある領域のドキュメントに関するドキュメント用語分析情報が、(たとえば、図5のルーチン500の出力として、動的決定要求の一部として供給される情報として、など)受け取られ、または別の要求が受け取られる。ルーチンはブロック710に続き、ドキュメント用語分析情報が受け取られたかどうか決定し、受け取られた場合はブロック715に続く。図示した実施形態では、ブロック715〜745は、たとえば、図6のブロック615〜650と同様に、関心領域の1つまたは複数の用語からなる各グループに関するドキュメント関連情報を決定するために実施される。分析されるべき用語は、たとえば、ドキュメントのいずれにも存在する各用語を使って(任意選択で、共通用語および/もしくは他の指示用語を除外して)、または図6を参照してより詳細に記載した他のやり方で選択することができる。
具体的には、図示した実施形態では、ルーチンは、ブロック715で、検討されるべき1つまたは複数の用語からなる次のグループを選択し、第1のこのようなグループで始め、ブロック720で、検討されるべき領域の次のドキュメントを同様に選択し、第1のドキュメントで始める。ブロック725で、ルーチンは次いで、選択ドキュメントへの選択用語(群)の正規化平均関連性を、たとえば、選択ドキュメントに対する各選択用語の標準化TF−IDFスコアの平均化または代替的には集約化に基づいて決定する。ブロック735で、ルーチンは次いで、分析されるべきドキュメントがまだあるかどうか決定し、ある場合はブロック720に戻る。ない場合、ルーチンはブロック740に続き、現在選択されている用語(群)に対する最関連ドキュメントを、ブロック725で決定された関連スコアに基づいて決定する。次に、ブロック745で、ルーチンは、検討するべき1つまたは複数の用語からなるグループがまだあるかどうか決定し、ある場合はブロック715に戻る。
グループがそれ以上ない場合、ルーチンはブロック750に続き、図示した実施形態では、たとえば、ブロック725、740に関して生成された情報に部分的に基づいて、領域における用語の、領域におけるドキュメントへの関連性を反映するようにニューラルネットワークを生成する。ブロック780を参照して論じるように、このような生成ニューラルネットワークは後で、領域に関する特定の用語の、領域の特定のドキュメントとの関連性の決定を絞り込むように、フィードバックに基づいて更新することもできる。ブロック750の後、ルーチンはブロック755に続き、決定関連ドキュメント関連情報および生成ニューラルネットワークを格納し、任意選択で、決定情報の一部または全部を、適切な場合は出力として(たとえば、その情報を動的に生成するための要求への応答として)与える。
そうではなく、ブロック710で、ドキュメント用語分析情報が受け取られないと決定された場合、ルーチンは、代わりにブロック775に続き、たとえば、予め決定され提供された関連性情報の使用に基づいて、フィードバック情報が受け取られ、または決定可能であるか決定する。そうである場合、ルーチンはブロック780に続き、フィードバック情報を用いて、他の箇所でより詳細に論じるように、フィードバックに対応する予め生成されたニューラルネットワークを更新する。ブロック780の実施は、更新ニューラルネットワーク情報をさらに格納し、任意選択で、更新情報を要求側にルーチンの出力として提供する。そうではなく、ブロック775で、フィードバック情報が受け取られないと決定された場合、ルーチンは、代わりにブロック785に続き、他の1つまたは複数の指示操作を必要に応じて実施する。たとえば、このような他の指示操作は、領域に関する予め決定されたドキュメント関連情報(たとえば、ニューラルネットワークが更新された後などの、領域に関するある特定の予め生成されたニューラルネットワークの現在のバージョンから得たドキュメント関連情報)を供給するための要求を受け取ること、領域に関する決定ドキュメント関連情報を絞り込む際に後で使うためのユーザフィードバック情報(たとえば、指定されたテーマまたは他の用語グループに対応する、使用するために選択される特定のドキュメント)を受け取ること、(たとえば、領域に関して利用可能なユーザフィードバックおよび/または追加領域特定コンテンツに基づいて)ユーザもしくは他の存在または他の人間オペレータから、予め決定されたドキュメント関連情報への更新を実施するための要求を受け取ること、DSRDサービスの人間オペレータからの他の管理要求を受け取ることなどを含み得る。後で使うために受け取られるフィードバック情報は、様々なやり方で扱うことができる。たとえば、予め定義された1つまたは複数の基準が、(たとえば、取得される最小または最大フィードバック量、対応する関連性情報の以前の決定から経過した最小または最大時間量などに基づいて)フィードバックで満足される場合、ブロック785の実施は、そのフィードバック情報がブロック780で使用するために供給されるルーチン700の後続実施をトリガーし得る。
ブロック755、780または785の後、ルーチンはブロック795に続き、たとえば、終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック705に戻り、そうでない場合はブロック799に続き、終了する。
一部の実施形態では、上で論じたルーチンによって提供される機能は、たとえば、より多くのルーチンに分けられ、またはより少ないルーチンに統合されて代替的に提供され得ることが理解されよう。同様に、一部の実施形態では、例示したルーチンは、たとえば、他の例示ルーチンがそれぞれこのような機能を欠き、もしくは含むとき、または提供される機能の量が変更されたときは、記載よりも多い機能も少ない機能も提供し得る。さらに、様々な動作が、ある特定のやり方で(たとえば、直列もしくは並列に)および/またはある特定の順序で実施されるものとして例示され得るが、他の実施形態では、他の順序および他のやり方で動作が実施され得ることが当業者には理解されよう。上で論じたデータ構造は、たとえば、単一データ構造を複数のデータ構造に分けさせることによって、または複数のデータ構造を単一データ構造に統合させることによって、異なるやり方で構築され得ることも当業者には理解されよう。同様に、一部の実施形態では、例示したデータ構造は、たとえば、他の例示データ構造がこのような情報をそれぞれ欠き、もしくは含むとき、または格納情報の量もしくはタイプが変更されたときは、記載よりも多くの情報または少ない情報を格納し得る。
上記から、本明細書において説明のために具体的な実施形態が記載されたが、本発明の精神および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、本発明は、指定請求項およびそこで列挙される要素以外によって限定されるものではない。さらに、特定の本発明の態様が、特定の請求項の形で提示される場合があるが、本発明者は、本発明の様々な態様を、利用可能などの請求項の形でも企図している。たとえば、ある特定の場合には、本発明の一部の態様のみが、コンピュータ可読媒体で実施されるものとして列挙されている場合があるが、他の態様も同様にそのように実施することができる。