JP2013218727A

JP2013218727A - 関心領域についての関連情報の決定

Info

Publication number: JP2013218727A
Application number: JP2013134081A
Authority: JP
Inventors: B Downs Oliver; ビー．ダウンズオリバー; Sandoval Michael; サンドヴァルマイケル; Alin Branzan Claudiu; アリンブランザンクラウディウ; Mircea Iovanov Vlad; ミルチアイワノフヴラド; Singh Khalsa Sopurkh; シンカルサソポルク; Ioan Bisca Radu; ローンビスカラドゥ; Teodor Milos Catalin; テオドルミロスカタリン
Original assignee: Atigeo LLC
Current assignee: Atigeo LLC
Priority date: 2008-02-25
Filing date: 2013-06-26
Publication date: 2013-10-24
Anticipated expiration: 2029-02-25
Also published as: JP2011514995A; US20130066887A1; CN102016787B; US8190541B2; WO2009108726A1; US8706664B2; JP5351182B2; CA2716062C; EP2260373A4; CN102016787A; EP2260373A1; US20090216696A1; JP5612731B2; CA2716062A1

Abstract

【課題】関心領域に関する関連情報を決定し、用いる技術が記載される。
【解決手段】少なくとも一部の状況では、こうした技術は、領域内の関連テーマについての、および／またはこのようなテーマに関連したコンテンツをどのドキュメントがもつかについての情報を自動的に決定するための、関心領域に関連したドキュメント、用語および他の情報の自動分析を含む。領域に関連したこのような自動決定情報は次いで、ユーザが、関心あるテーマを指定すること、かつ／または指定されたテーマに関連するコンテンツをもつドキュメントおよび／またはドキュメントの断片を取得するのを支援するためなど、様々な用途に使うことができる。さらに、自動的に決定された情報がユーザによってどのように使われるかについての情報が、たとえば、自動化機械学習技術を用いることによって、領域において関連するテーマおよび関連するドキュメントの決定の向上を学習するためのフィードバックとして追跡され使用され得る。
【選択図】図１Ａ

Description

ある領域における関連テーマについての、および／またはこのようなテーマにコンテンツが関連するドキュメントについての情報など、関心領域に関連した関連情報の決定に関する。

本出願は、それぞれが参照によりその全体が本明細書に組み込まれている、２００８年１２月１２日に出願した、「Determining Relevant Information For Domains Of Interest」という名称の米国特許仮出願第６１／１２２，２８２号、および２００８年２月２５日に出願した、「Platforms, Systems and Methods for Data Handling」という名称の米国特許仮出願第６１／０６７，１６２号の利益を主張する。

おびただしい量の情報が、非常に様々なトピックに関して様々なソースからユーザにとって利用可能である。たとえば、ワールドワイドウェブ（「ウェブ」）の構成部分は、インターネットを介して分散されたドキュメントおよび他のデータ資源の電子ライブラリに似ており、数十億のドキュメントが利用可能である。さらに、他の様々な情報が、他の通信媒体を介して利用可能である。

米国特許出願第１２／３３４，３８９号明細書米国特許出願第１２／３３４，４１６号明細書

おびただしい量の情報が利用可能なので、ユーザの特定の関心に合致するドキュメントおよび他の情報を見つけることは難しい場合がある。ドキュメントを見つけることを試みる１つの選択肢は、様々なウェブベースの検索エンジンを用いる検索の実施を必要とする。典型的なウェブ検索は、１つまたは複数の検索用語を含む検索クエリをユーザが検索エンジンに与えることを必要とし、検索クエリは、いくつかの状況では、検索用語の１つまたは複数にそれぞれが関連した１つまたは複数の論理検索演算子（たとえば、「ＡＮＤ」、「ＯＲ」、「ＮＯＴ」、ある特定の検索用語が求められる指示など）も含む。このような検索クエリを受け取った後、検索エンジンは通常、検索クエリとコンテンツが合致する少なくとも一部の入手可能ドキュメントを識別し（たとえば、コンテンツが、求められる検索用語それぞれを含む）、識別したドキュメントの１つまたは複数へのリンクを含む１つまたは複数のウェブページを生成し、生成されたウェブページの１つまたは複数を、検索クエリに対する検索結果としてユーザに与える。さらに、同じ検索文字列を入力した異なるユーザは通常、同じ検索結果を受け取る。

様々な技術が、検索エンジンによって、特定の検索用語とコンテンツが合致するドキュメントを識別するのに用いられる。たとえば、いくつかの検索エンジンは、用語を、こうした用語をコンテンツが含むウェブページにマップする索引を作成するために、検索要求の受取りに先立って、自動化された前処理を行う。このような前処理は通常、ウェブをクローリングする「ウェブスパイダ」と呼ばれる自動化プログラムを使って、索引をつけるべきドキュメントを、たとえば既知のウェブページから新規ウェブページへのリンクを辿りトラバースすることによって識別する。さらに、いくつかの検索エンジンは、ドキュメントの手動カテゴリ化を用いて、指定カテゴリおよび／または用語にどのウェブページが関連するかを、たとえばカテゴリおよびサブカテゴリの階層ディレクトリを介して追跡する。したがって、検索エンジンからの検索結果は、一部のケースでは、自動的に事前生成された索引および／または手作業で事前生成されたカテゴリディレクトリからの情報に基づき得る。

ただし、既存の検索エンジンおよび関心ある情報を識別する他の技術は、様々な問題を被る。

関心領域に関連する関連性情報を決定する技術の例を示す図である。関心領域に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域例に関連する関連性情報を決定する技術の例を示す図である。関心領域に関連する関連性情報の決定において使用するためのコンピューティングシステムの例を示すブロック図である。領域特定関連性決定サービスルーチンの実施形態例を示すフロー図である。領域分析マネージャルーチンの実施形態例を示すフロー図である。関連テーマ決定マネージャルーチンの実施形態例を示すフロー図である。関連ドキュメント決定マネージャルーチンの実施形態例を示すフロー図である。

本明細書において関心領域とも呼ばれる、関心あるトピックおよび対象範囲に関連した関連情報を決定し、使用する技術が記載される。少なくとも一部の実施形態では、こうした技術は、領域内の関連テーマについての情報および／またはどのコンテンツアイテムが、このようなテーマに関連するコンテンツを有しているかについての情報を自動決定するために、１つまたは複数の関心ある関連領域に関連したドキュメントおよび他のコンテンツアイテムを自動的に分析することを含む。このような、領域（群）について自動的に決定された関連性情報（自動決定関連性情報）は次いで、ユーザが、関心あるテーマを指定し、かつ／または指定されたテーマに関連するコンテンツを有するコンテンツアイテムを取得する際の支援を含む、様々な用途に用いることができる。さらに、少なくとも一部の実施形態では、ユーザおよび他の存在によって情報がどのように使われるかについての情報が、追跡され、たとえば自動化された機械学習技術を用いて、領域（群）内の関連テーマおよび／または関連コンテンツアイテムについての改良された決定（改良決定）を学習するフィードバックとして使われ得る。さらに、少なくとも一部の状況では、こうした技術は、関心領域に関連した関連性情報を自動決定し、以下で詳述するように、このような情報を他者による使用のために提供するコンピュータで実施する領域特定関連性決定（「ＤＳＲＤ（Domain-Specific Relevance Determination）」）サービスの実施形態と併用することができる。

前述したように、少なくとも一部の実施形態では、本記載の技術は、特定のコンテンツアイテムを特定の用語および／またはテーマに関連づける索引を生成することなどによって、領域内の関連テーマについての情報および／またはどのコンテンツアイテムが、このようなテーマに関連するコンテンツを有するかについての情報を自動決定するために、関心領域に関連したドキュメントおよび他のコンテンツアイテムを自動分析することを含む。以下の様々な説明は、コンテンツアイテムを「ドキュメント」と呼ぶが、本記載の技術は、たとえば、テキストドキュメント（たとえば、ウェブページ、文書処理ドキュメント、スライドショーおよび他のプレゼンテーション、ｅメールおよび他の電子メッセージなど）、画像、映像ファイル、音声ファイル、ソフトウェアコード、ファームウェアおよび他の論理コード、１つまたは複数の遺伝情報配列、他の生物データなどをそれぞれが伴う遺伝コードを含む、非常に様々なタイプのコンテンツアイテムとともに用いられ得ることが理解されよう。さらに、コンテンツアイテムは、ドキュメントフラグメントまたはより大きいドキュメントもしくは他のコンテンツアイテムの他の断片もしくは部分を含む、１つまたは複数のファイルタイプまたは他のデータ構造（たとえば、ストリーミングデータ）のものでよく、このようなコンテンツアイテムのコンテンツは、テキストおよび／または他の様々なタイプのデータ（たとえば、音声情報の２進符号化、映像情報の２進符号化、画像情報の２進符号化、数学方程式および数学的データ構造、他のタイプの英数字データ構造ならびに／または記号データ構造、暗号化データなど）を含み得る。少なくとも一部の実施形態では、領域に特有の複数のドキュメントからなるグループが、ＤＳＲＤサービスの実施形態によって選択され、自動分析される。ドキュメントのグループは、たとえば、ある特定の領域に関する全利用可能ドキュメントを含むコーパスまたは領域を表すのに十分なドキュメントを含むコーパスでよい。さらに、分析されるべきドキュメントは、１つまたは複数の領域に特有の包括的情報を含むウェブサイト（たとえば、野球についての包括的情報を含む仮想「ａｌｌ−ｂａｓｅｂａｌｌ−ｎｏｗ．ｃｏｍ」ウェブサイト、様々なスポーツについての雑多な情報を含む「ｅｓｐｎ．ｃｏｍ」ウェブサイト、多数の領域についての雑多な情報を含む「ｗｉｋｉｐｅｄｉａ．ｏｒｇ」でのＷｉｋｉｐｅｄｉａ百科事典ウェブサイトおよび「ｃｏｍｍｏｎｓ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ」でのＷｉｋｉｐｅｄｉａＣｏｍｍｏｎｓメディアコレクションウェブサイトおよび「ｗｉｋｉｎｅｗｓ．ｏｒｇ」でのＷｉｋｉｎｅｗｓニュースソースウェブサイトなど）からなど、１つまたは複数のソースから取得することができる。一部の実施形態では、ドキュメントはそれぞれ、分析されるテキスト情報であるコンテンツを少なくとも部分的には有し、他の実施形態では、少なくとも一部のドキュメントまたは他のコンテンツアイテムは、他のタイプのコンテンツ（たとえば、画像、映像情報、音声情報など）を含み得る。

ある領域に関するドキュメントの自動化分析は、少なくとも一部の実施形態では、データマイニング技術または他の技術を用いることなどによって、その領域に関連するテーマを決定するために、ドキュメントのコンテンツを分析することを含み得る。たとえば、分析されるドキュメントが、野球という領域に関連する場合、決定され得るテーマは、特定の選手、特定のチーム、特定のリーグ（たとえば、メジャーリーグ野球、大学野球１部など）、特定のイベント（たとえば、ある特定の年のオールスターゲームやワールドシリーズ、ステロイド使用論争など）、特定のシーズン、特定の記録（たとえば、累積本塁打記録）などに特有のテーマを含む。少なくとも一部の実施形態では、自動化分析は、ドキュメントそれぞれにどのような用語が存在するか決定するために、ドキュメントに索引をつけ、次いで、このような一部または全部の用語の、ドキュメントに対する重要度を分析することを含む。たとえば、少なくとも一部の実施形態では、ドキュメント中の各用語がそのドキュメントに関連している度合い（関連度）についての初期決定が、用語出現頻度−ドキュメント頻度逆数（「ＴＦ−ＩＤＦ（Term frequency-inverse document frequency）」）分析を用いることなどによる、ドキュメントのコンテンツに対する用語の区別性（distinctiveness）に基づいて行われる。さらに、ドキュメントのグループを通じて使われる１つまたは複数の関連用語の組合せが、たとえば最も関連性のある用語（最関連用語）のようなものが、その領域のテーマを表すように選択され、テーマに関する１つまたは複数の関連用語の、１つまたは複数のドキュメントへの決定された関連度（決定関連度）は、１つまたは複数のドキュメントの、テーマへの関連度を決定するのに使うことができるが、これについては後でより詳細に論じる。さらに、他の箇所でより詳細に論じるように、ドキュメントまたは他のコンテンツアイテムに関連づけられ、関連テーマを決定するために分析される用語または他の情報は、一部の実施形態では、コンテンツアイテムに関連づけられたメタデータおよび／またはコンテンツアイテムと対応する、１または複数のユーザに関連づけられた情報など、コンテンツアイテムのコンテンツに含まれない情報を含む他のタイプの情報を含み得る。

上述したように、ドキュメント用語分析情報の生成は、様々な実施形態において様々なやり方で実施することができ、一部の実施形態では、ＴＦ−ＩＤＦ分析を用いる。このようなＴＦ−ＩＤＦ分析は、分析されるべきドキュメントのベクトル空間表現を使用し、この表現において各ドキュメントは、ドキュメントにおける用語の役割を考慮せず（たとえば、文法、文構造、パラグラフ構造、句読点などを考慮せず）、「単語集合（bag of words）」に類似するものとして扱われる。このような状況において、ドキュメント表現は、ドキュメント中での用語の用語出現頻度（「ＴＦ（Term frequency）」）を大きく反映し、またはＴＦだけを反映すればよく、こうすることによって、数学的に明らかな高次ベクトル空間へのドキュメントの効率的マッピングが可能になる。さらに、ある特定の用語がコーパスのドキュメントまたは他のドキュメントグループ中にどの程度分布しているかを考慮することなどによって、ドキュメントへの用語の関連性を決定するとき、ある領域に関する様々なドキュメントに関連する、ある特定の用語の区別性が考慮され、用いられ得る。具体的には、ドキュメントｄでの用語ｉの用語出現頻度およびある領域の複数のドキュメントに渡る用語ｉのドキュメント頻度逆数（「ＩＤＦ（Inverse Document frequency）」）は、少なくとも一部の実施形態では以下のように表すことができる。

用語およびドキュメントに関する用語出現頻度−ドキュメント頻度逆数（「ＴＦ−ＩＤＦ」または「ＴＦ．ＩＤＦ」）スコアは次いで、用語およびドキュメントに関するＴＦスコアと用語に関するＩＤＦスコアとを乗算することによって決定することができる。ある特定の用語ｉおよびある特定のドキュメントｄに関するこのようなＴＦ−ＩＤＦ（ｉ，ｄ）スコア（「ＴＦ−ＩＤＦ_i,d」または「ＴＦ．ＩＤＦ_i,d」とも表記する）は、ベクトル空間表現におけるその用語が、コーパス中のそのドキュメントのフィンガープリントを記述する際にどの程度重要であるかの測定値として使われて、そのドキュメントへのその用語の関連度を反映することができる。このスコアは、ある特定のドキュメントには頻繁に出現するが、全体的としてコーパスにはほとんど出現しない単語を高く順位づける基準値である。その領域に関連するテーマまたは複数の領域に渡るテーマを決定するための、ある領域のドキュメントの分析に関連して、詳細が以下でさらに記載される。

ある領域に関するドキュメントの自動化分析は、少なくとも一部の実施形態では、どのドキュメントが、その領域に関する決定されたテーマに関連するコンテンツを有するか決定するために、ドキュメントのコンテンツを分析することも含み得る。たとえば、少なくとも一部の実施形態では、後でより詳細に論じるように、ドキュメントの関連性の初期決定は、たとえばある特定のドキュメントのコンテンツへのあるテーマにおける特定の用語の関連性に基づいて、一部または全部のテーマそれぞれへの各ドキュメントの関連度を決定するように実施することができる。さらに、一部の実施形態では、ドキュメント関連性の決定の一部として分析されるドキュメントは、関連テーマを決定するために分析される同じドキュメントであり、他の実施形態では、ドキュメント関連性決定ドキュメントの一部または全部は、テーマ関連性決定ドキュメントとは別個のものである（たとえば、ドキュメント関連性決定ドキュメントが、先行するテーマ関連性決定中に利用可能でなかった新しいドキュメントを含む場合、テーマ関連性決定ドキュメントが、たとえばある領域を表すために、トレーニング目的で選択されるドキュメントの特化されたサブセットである場合など）。さらに、少なくとも一部の実施形態および状況では、複数の関連ドキュメントからなる複数のグループは、分析目的のために複数の関連ドキュメントを１つのドキュメントとして扱うことなどによって、一部または全部のテーマに関して一緒に分析することができ、他の状況では、ある特定のドキュメントは、分析目的のために一部または全部のテーマに関してそれぞれ別個のドキュメントとして扱われる複数の部分に分割することができる。決定されたテーマに関連するドキュメントを決定するためのある領域のドキュメントの分析に関連して、詳細が以下でさらに記載される。

１つもしくは複数の領域内もしくはそうした領域に渡る関連テーマに関する関連性情報、および／またはこのようなテーマに関連するコンテンツをもつ特定のドキュメントについての関連性情報がＤＳＲＤサービスによって自動決定された後、このような自動決定された関連性情報（自動決定関連性情報）は次いで、様々な実施形態において様々な用途に、たとえば、人間ユーザおよび他の存在が、関心あるテーマを指定し、かつ／または指定されたテーマに関連するコンテンツを有するドキュメントを取得するのを支援するのに用いることができる。たとえば、後でより詳細に記載するように、１つまたは複数の領域内またはそうした領域に渡る関連テーマに関する自動決定関連性情報は、ＤＳＲＤサービスまたは他の系列サービスによって、ＤＳＲＤサービス外部の人間ユーザまたは他の存在（たとえば、自動化プログラム）が、たとえば検索クエリの一部として使用し、ユーザの嗜好を識別するなど、１つまたは複数の関心あるテーマを指定するのを支援するのに用いることができる。自動決定されたテーマ情報（自動決定テーマ情報）は、たとえばユーザから１つまたは複数の用語を受け取り、ユーザに関連情報（たとえば、受け取った用語を含むテーマ、受け取った用語に関連した他の用語など）を提示し、自動決定テーマのリストをブラウジングまたは選択用にユーザに提示するなど、様々な実施形態において様々なやり方で用いることができる。同様に、後でより詳細に記載するように、ある領域内の関連ドキュメントに関する自動決定関連性情報は、ＤＳＲＤサービスまたは他の系列サービスによって、ＤＳＲＤサービス外部の人間ユーザまたは他の存在（たとえば、自動化プログラム）が、たとえば検索クエリに応答して、明示的には要求されない関連情報を（たとえば、予め指定されたテーマ嗜好に基づいて）ユーザにプッシュし、または代替的には提供するなど、１つまたは複数の関心あるテーマに関連したコンテンツを取得するのを支援するのに用いることができる。さらに、様々な用語および／またはテーマの相互関係についての情報は、様々な実施形態において様々なやり方でユーザに対して表示することができる。関心領域に関連した決定された関連情報の可能な使用例に関連した詳細は、２００８年１２月１２日に出願した「Electronic Profile Development, Storage, Use, and Systems Therefor」という名称の特許文献１、および２００８年１２月１２日に出願した「Advertising Selection and Display Based on Electronic Profile Information」という名称の特許文献２にさらに見ることができ、こうした特許はそれぞれ、参照によりその全体が本明細書に組み込まれている。

さらに、少なくとも一部の実施形態では、自動決定されたテーマおよび／またはドキュメント関連性情報がユーザまたは他の存在によってどのように使われるかについての情報は、様々なやり方で追跡され、使われる。たとえば、少なくとも一部の実施形態では、自動決定されたテーマおよび／またはドキュメント情報の使用についての情報は、ＤＳＲＤサービスによって、自動決定テーマおよび／またはドキュメント関連性情報に関連したフィードバックとして用いることができる。このようなフィードバックは、たとえば、決定されたテーマとして使うことができる特定の用語および用語の組合せの関連性の初期決定を改正し、かつ／または決定されたテーマへの特定のドキュメントの関連性の初期決定を改正するのに使うことができ、この改正され決定された関連性情報（改正決定関連性情報）は次いで、ＤＳＲＤサービスまたは他の系列サービスによって、最初に決定された関連性情報と同様に使うことができる。このようにして、継続的または他の反復フィードバックループが、ＤＳＲＤサービスによって実施される自動的に関連性の決定を繰り返し向上させるのに用いられ得る。後でより詳細に記載するように、一部の実施形態では、フィードバックは、構成済みニューラルネットワークまたは他の適応モデルまたはシステムを使用するなどして、自動決定されたテーマおよび／またはドキュメント情報を学習し、または改正するのに使われる。さらに、少なくとも一部の実施形態および状況では、構成済みニューラルネットワークまたは他の適応システムは、利用可能になった新規ドキュメントおよび／または決定された新規テーマについての情報を用いるように、様々なやり方で自動拡張することができる。

例示目的のために、いくつかの例および実施形態が後で説明されるが、具体的タイプの情報が、具体的に分析され、ある特定の領域に関連した決定情報が、具体的に使われる。こうした例は、例示目的で挙げられ、簡潔にするために簡略化され、本発明の技術は、その一部が後でより詳細に記載される、他の非常に様々な状況で用いられ得ることが理解されよう。たとえば、特定のテキストドキュメントの分析が後で説明されるが、他の形の情報も同様に分析し、用いることができる。さらに、特定のアルゴリズムおよび技術が、１つまたは複数の領域における、またはそうした領域に渡る関連テーマを決定し、あるテーマに関連する特定のドキュメントを決定し、使用および他のフィードバックに基づくテーマおよび／またはドキュメントの向上した関連性を学習するのに使われるものとして例示されるが、他のアルゴリズムおよび技術も、他のやり方で用いられ得る。

図１Ａ、１Ｂは、本記載技術を用いて、関心領域に関連した関連性情報を決定し、ユーザまたは他の存在に関連情報および機能を提供する自動化された領域特定の関連性決定サービスの例を示す。具体的には、図１Ｂは、ＤＳＲＤサービス１０５の実施形態を、関連領域特定情報の決定および使用の一部として、ＤＳＲＤサービス１０５への、およびサービス１０５からのデータフロー例の高水準記述とともに示す。この例では、ＤＳＲＤサービス１０５は、領域それぞれに関連した関連性情報を決定するために、１つまたは複数の関心領域に関連した様々なドキュメント１６０にアクセスし、分析する。この例における、ＤＳＲＤサービス１０５によって生成される、決定関連性情報は、１つまたは複数の領域それぞれにおける関連テーマについての情報１７０、およびどのドキュメントがこのようなテーマに関連するコンテンツを有するかについての情報１８０を含むが、他の実施形態では、ただ１つのタイプの関連性情報が決定され得る。この例では、ＤＳＲＤサービス１０５は、決定関連テーマ情報１７０の少なくとも一部および／または決定関連ドキュメント情報１８０の少なくとも一部を、様々なユーザ１４０に使用のために提供する。ここでは例示しないが、他の実施形態では、ＤＳＲＤサービス１０５は代わりに、決定関連テーマ情報１７０および／または決定関連ドキュメント情報１８０をユーザ１４０に他の１つまたは複数のやり方で、たとえば他の１つまたは複数の中間サービス（たとえば、ＤＳＲＤサービス１０５から関連領域特定情報を取得し、様々なやり方で用いる他のサービス）により提供することもできる。さらに、この例では、ＤＳＲＤサービス１０５は、決定関連領域特定情報１７０および／または１８０の、ユーザ１４０による使用に関連した様々なフィードバックまたは他の情報１９０を取得することができ、そのフィードバックを使って、決定関連領域特定情報１７０および／または１８０を絞り込むことができる。ＤＳＲＤサービス１０５の様々なデータフローおよびアクションに関連したこれ以上の詳細は、たとえば図２Ａ〜２Ｌで論じる実施形態例を参照して、他の箇所でより詳細に記載される。

図１Ａは、図１ＢのＤＳＲＤサービス１０５の一実施形態に関するこれ以上の詳細例を示す。具体的には、図１Ａの例において、ＤＳＲＤサービス例１０５によってアクセスされ分析されるドキュメントは、ネットワーク１００を介してアクセス可能（たとえば、１つもしくは複数のウェブサイトもしくは他の情報ソースから広くアクセス可能）な領域ドキュメント１６０および／またはＤＳＲＤサービス１０５がそれに対する特殊アクセスを有する任意選択の領域ドキュメント１３５（たとえば、サービス１０５によって生成され、または代替的には提供される領域ドキュメント、有料アクセスにとって利用可能な場合や、サービス１０５とサードパーティソースとの間の定義済み関係に基づいて、サードパーティソースからは利用可能であるが広くアクセス可能ではない領域ドキュメントなど）を含み得る。さらに、１つまたは複数の領域に関する関連性情報を決定した後、ＤＳＲＤサービス１０５は、様々なユーザ１４０および／または任意選択の他の１つもしくは複数のサービス１５０（たとえば、ユーザ１４０と対話し、ＤＳＲＤサービス１０５によって提供される情報を用いる他の系列サービス）とネットワーク１００を介してさらに対話する。

さらに、この例では、ＤＳＲＤサービス１０５は、領域分析マネージャモジュール１１０、関連ドキュメント決定マネージャモジュール１２０、および関連テーマ決定マネージャモジュール１３０を含む、ＤＳＲＤサービス１０５の機能の一部をそれぞれが提供するいくつかのモジュールを含む。具体的には、領域分析マネージャモジュール１１０は、領域関連ドキュメントのコンテンツを取得し、自動分析するための様々なアクションを実施して、たとえば、このような分析情報を、モジュール１２０、１３０による使用のために利用可能にする。関連ドキュメント決定マネージャモジュール１２０は、分析されたドキュメント情報を用いて、特定の用語または他のテーマに関連するドキュメントを決定して、たとえば、図１Ｂの領域ドキュメント関連性情報１８０（図１Ａには示さず。ただし、やはり図１Ａには示さない１つまたは複数の記憶装置に格納することができる）を生成する。同様に、関連テーマ決定マネージャモジュール１３０は、分析されたドキュメント情報を用いて、領域に関連するテーマを決定して、たとえば、図１Ｂの領域テーマ関連性情報１７０（図１Ａには示さず。ただし、やはり図１Ａには示さない１つまたは複数の記憶装置に格納することができる）を生成する。図示したこの実施形態では、モジュール１２０および／または１３０は次いで、ユーザが対話により使うことができる提供ＧＵＩ（「グラフィカルユーザインタフェース」）を介して、および／またはソフトウェアプログラムがそれを介してプログラムにより対話することができる提供ＡＰＩ（「アプリケーションプログラミングインタフェース」）を介するなどして、生成された領域特定関連性情報をユーザ１４０または任意選択の他のサービス１５０に提供することができる。他の実施形態では、ＤＳＲＤサービス１０５の他の１つまたは複数のモジュール（図示せず）は代わりに、ＤＳＲＤサービス１０５によって提供される１つもしくは複数のＧＵＩおよび／または１つもしくは複数のＡＰＩを介してユーザ１４０および／または任意選択の他のサービス１５０と対話することもできる。

図１Ａ、１Ｂには示さないが、ＤＳＲＤサービス１０５は、たとえば１つまたは複数のコンピューティングシステム（図示せず）上で実行する１つまたは複数のソフトウェアモジュールを有して、様々なやり方で実装することができ、１つまたは複数のローカルまたはリモート記憶装置（図示せず）上に様々な情報を格納することができる。同様に、ユーザ１４０、他のサービス１５０、および領域ドキュメント１６０は、コンピューティング装置またはシステム（図示せず）を使って、記載する様々な対話を実施し、かつ／または記載する様々な情報を格納することができる。さらに、ＤＳＲＤサービス１０５および他のサービス１５０は、一部の実施形態では独立実体によって提供することができるが、他の実施形態では、ＤＳＲＤサービス１０５および他のサービス１５０の１つまたは複数は代わりに、（たとえば、互いと一緒に）１つのオペレータによって提供することができる。さらに、図１Ａに示すネットワーク１００は、たとえば、別個の様々な当事者によって操作される可能性のある、リンクされたネットワークからなる広くアクセス可能なネットワーク（たとえば、インターネット）など、様々な形を有し得る。他の実施形態では、ネットワーク１００は、たとえば、特権のないユーザには全体的または部分的にアクセス不可能な企業ネットワークや大学ネットワークなどの私設ネットワークでよい。さらにそれ以外の実施形態では、ネットワーク１００は、インターネットへの、および／またはインターネットからのアクセスを有する１つまたは複数の私設ネットワークを含んでよく、ネットワーク１００の一部または全部は、少なくとも一部の実施形態では、ブロードバンドまたはブロードキャスト有線または無線リンク（たとえば、セルラー電話接続、Ｗｉ−Ｆｉ、Ｗｉ−ＭＡＸ、ブルートゥース、ブロードキャストアナログもしくはデジタルテレビ、ＥＶＤＯ、衛星もしくは他の無線ネットワークもしくは通信プロトコルを用いる無線コンピュータ接続など）をさらに含み得る。

さらに、様々なユーザ１４０および他の存在は、ＤＳＲＤサービス１０５と様々なやり方で対話して、要求を行い、様々な情報を指定することができる。たとえば、ユーザは、ＤＳＲＤサービス１０５および／または任意選択の他のサービス１５０に登録し、または加入して、たとえば、それ以降の要求において用いることができる様々な嗜好および他の情報を供給することができる。このような実施形態では、ユーザがＤＳＲＤサービス１０５と対話して登録した後、ユーザには、ユーザに関連づけられ、指定されたクエリに関する検索結果を求める要求など、他の要求が行われるときに後で使われる１つまたは複数の識別子（たとえば、キー、トークン、ユーザ名など）が発行され得る。さらに、一部の実施形態では、任意選択の他のサービス１５０が、所属関係を確立するためにＤＳＲＤサービス１０５に登録し、または代替的には対話して、たとえば、ＤＳＲＤサービス１０５によって生成された少なくとも一部の領域特定関連性情報へのアクセスを他のサービス１５０に取得させることができる。さらに、ＤＳＲＤサービスが、要求側によって支払われる料金と引換えに少なくとも一部の要求に応じて、たとえば他のサービス１５０からの料金と引換えに任意選択の他のサービス１５０に領域特定関連性情報を提供し、またはユーザからの料金と引換えにユーザ１４０に領域特定関連性情報を提供し得るように、様々な料金が、ＤＳＲＤサービスの使用に関連づけられ得る。他の実施形態では、ＤＳＲＤサービス１０５は、他のやり方で、たとえば領域特定ドキュメントおよび他のコンテンツのプロバイダや、（たとえば、少なくとも数人のユーザ１４０に広告または他の指示コンテンツを提供する）広告主および小売業者などの他のサードパーティから料金を得て、そのコンテンツに関連した関連性決定を実施することができる。

図２Ａ〜２Ｌは、たとえばＤＳＲＤサービスの実施形態によって自動的に実施することができる、関心領域例に関連した関連性情報を決定する技術の例を示す。

たとえば、図２Ａ、２Ｂは、ある特定の関心領域例の一部であるいくつかのドキュメントについての抄録情報の例を、その領域に関連したドキュメントに対してＤＳＲＤサービスの実施形態によって生成することができる用語分析情報例とともに示す。具体的には、抄録情報例２００を参照して示すように、関心領域例は、野球に関し、この例においてその領域に関して利用可能な領域特定ドキュメントのコーパスは、１０００個のドキュメント（たとえば、ニュース記事、選手経歴、チーム概要など）を含む。

この例における情報２００は、コーパスに存在するいくつかの用語例の抄録を、そうした用語に関するＩＤＦ情報とともに含む。具体的には、いくつかの用語２０２ａが、一意の用語ＩＤ２０２ｂと、その用語を含む、コーパス中のドキュメント数２０２ｃの指示と、用語およびコーパスドキュメントに対応するＩＤＦ値２０２ｄとをそれぞれがもって示されている。他の様々な抄録情報も生成し格納することができるが、この例には示していない。さらに、テーブル例２００中の各行２０４は、別個の用語を反映し、たとえば共通用語「ｔｈｅ」に対応する行２０４ａの場合、用語「ｔｈｅ」はコーパス中の１０００個のドキュメントすべてに存在するので、ゼロのＩＤＦ値をもつ。この例では、行２０４は、後続用語のＩＤＦ値が増大していくように、ＩＤＦ値に基づいてソートされ、先行用語より少ないコーパスのドキュメントでのその存在を反映するので、後続用語が存在するそうしたドキュメントに関してより特徴的である。ＩＤＦ値の算出に関する詳細がさらに、他の箇所で記載される。さらに、一部の実施形態では、いくつかの共通用語または他の指示用語（たとえば、用語「ｔｈｅ」）は、ドキュメント用語分析の一部として除いてよいので、このような抄録情報２００には示さなくても、それ以降の関連性関連情報の決定で使わなくてもよい。さらに、この例における用語２０２ａのいくつかは、「本塁打」および「ハンクアーロン」など、複数の関連単語を含むフレーズであり、時として一緒に使われ得る他の用語（たとえば、「バリーボンズ」および「ボビーボンズ」）は、別々の用語として示されている。このような複数単語用語は、様々なやり方で、たとえばその用語が一緒に繰り返し使用されること、および別々に使用されないことに自動的に基づいて、このような用語が領域または他の同様の情報に関する共通用語の辞書に含まれることに自動的に基づいて、ＤＳＲＤサービスのオペレータからの入力に基づいて少なくとも部分的には手動で決定され得ることが理解されよう。他の実施形態では、各単語は、少なくとも最初は別々の用語として扱うことができ、任意選択で、ユーザによって一緒に繰り返し使われる用語から、そうした用語の相互関係の学習された関連性に基づいて共通テーマの一部として後でまとめてグループ化することができるが、これについては他の箇所でより詳細に論じる。

図２Ａ、２Ｂに示す他のテーブル例２１０、２２０、２３０、２４０、２５０はそれぞれ、コーパス中のドキュメント例を反映し、こうしたドキュメント中の用語例についての様々な情報と、こうした用語およびこうしたドキュメントに関する対応する用語関連性情報とを含む。具体的には、情報２１０はドキュメント例１に対応し、この例ではこのドキュメントは、バリーボンズが、サンフランシスコジャイアンツでプレーしている間、２００７年に通算本塁打（「ＨＲ」）記録を打ち立て、ハンクアーロンが保持していたそれまでの記録を超えたことに関連したニュース記事である。ボンズが本塁打記録を追い求めていた間、メジャーリーグ野球の選手の間でのステロイド論争に関連した重大なニュースも継続して報道されており、ボンズは後に、ステロイド使用容疑に関連した罪で起訴された。

テーブル２１０中の様々なエントリ２１４、たとえば用語エントリ２１４ａ中の「ボンズ」、エントリ２１４ｃ中の用語「ハンクアーロン」などはそれぞれ、１５００語のドキュメント１に存在する用語２１２ａのサブセット例に対応する。ドキュメント１における各用語の出現数２１２ｂも示されており、対応する用語出現頻度値２１２ｃが示されている。ＩＤＦ値２１２ｄがここでも用語に対して複写され、情報２００中の同じ値２０２ｄに対応する。さらに、各エントリ２１４は、用語出現頻度値２１２ｃおよびＩＤＦ値２１２ｄに基づくＴＦ−ＩＤＦ値２１２ｅを含む。たとえば、エントリ２１４ａにおける用語「ボンズ」は、ドキュメント１に３５回出現することが示されており、この結果、ドキュメントの１５００語の中で２．３３％の頻度ということになる。用語「ボンズ」に対するＩＤＦ値２１２ｄは、情報２００のエントリ２０４ｄの情報２０２ｄに対応するので１．１０であり、この例でのエントリ２１４ａ中のボンズに対するＴＦ−ＩＤＦ値２１２ｅは２．５５９である。エントリ２１４は、この例ではＴＦ−ＩＤＦ値の値降順で示してあるが、これは、例示してあるこのドキュメントに対して、用語「ボンズ」が最も記述的な用語であり、それぞれエントリ２１４ｉ、２１４ｊ中の「ｔｈｅ」および「起訴」など他の用語は、（たとえば、用語「ｔｈｅ」は、コーパスのドキュメントすべてに存在するので、ゼロのＩＤＦ値をもつことにより、かつ用語「起訴」は、このドキュメント例に出現しないのでゼロの用語出現頻度値２１２ｃをもつことにより）このドキュメントを記述していないことを示している。ＴＦおよびＴＦ−ＩＤＦ値の算出に関するこれ以上の詳細は、他の箇所で記載される。

テーブル２２０、２３０、２４０、２５０は、類似情報、たとえばそれぞれドキュメント２、３、４、５を含む。具体的には、ドキュメント例２は、バリーボンズの略歴であり、ボンズの様々な成績に着目し、様々なエントリ２２４に示される対応する用語２２２ａを含む。ドキュメント例３は、ステロイド関連の不正使用の可能性に関するボンズの起訴に対応するニュース記事であり、様々なエントリ２３４に示される対応する用語２３２ａを含む。ドキュメント例４は、ボンズの起訴に先立って起き、メジャーリーグ野球におけるステロイド関連論争の一部のきっかけとなった出来事に対応し、具体的には、過去のメジャーリーグ野球選手であるホセカンセコがメジャーリーグ野球におけるステロイド使用容疑に関連して議会で証言したことに対応し、対応する用語２４２ａが様々なエントリ２４４に示されている。ドキュメント例５は、２００８年メジャーリーグ野球シーズン最中のニュース記事であり、ボンズが２００７年シーズン後にプレーするのをやめたサンフランシスコジャイアンツチームの現在の状況に着目しており、対応する用語２５２ａが様々なエントリ２５４に示されている。図２Ｃ〜２Ｌを参照してより詳細に論じるように、こうしたドキュメント例に関する用語情報例は、この野球関連領域の例に対する関連テーマおよび特定のテーマに関する関連ドキュメントの決定に関して、本記載技術の一部を示すのに使われることになる。

図２Ｃ、２Ｄは、ユーザによって指定される検索クエリの例を示し、この例では、コーパスのドキュメント例１〜５に関する、図２Ａ、２Ｂに示す用語分析情報例が、ＤＳＲＤサービスによって、クエリに関連する特定の情報を決定するのに使われ得る。具体的には、図２Ｃは、ユーザによって指定されているクエリを示し、このクエリはこの例では、クエリ用語２６５ａ「ボンズ」および「ステロイド」を含む。２つのクエリ用語それぞれの、ドキュメント例１〜５それぞれに対する評価された関連度を示す様々な情報２６１ａが示されており、ドキュメント例２６２それぞれに関する生成され正規化され集約されたドキュメント関連性スコアまたは数値２６４ｘを含む。後でより詳細に記載するように、標準化ドキュメント関連性数値は、各用語２６４および各ドキュメント２６２ごとに生成することができ、ドキュメントの各用語に関する正規化スコアは、この例では、２つのクエリ用語の組合せに基づいてドキュメントに関するドキュメント関連性数値２６４ｘを生成するように平均化される。具体的には、この例では、ドキュメントに対する用語の関連性は、その用語およびドキュメントに関するＴＦ−ＩＤＦ値に部分的に基づき、部分的にはコーパス中のドキュメントすべてに渡るその用語に関する最大ＴＦ−ＩＤＦ値および最小ＴＦ−ＩＤＦ値を使って標準化される。２つのクエリ用語に関する最小ＴＦ−ＩＤＦ値および最大ＴＦ−ＩＤＦ値例が、この例では情報２６７ａ〜２６７ｄに示されているが、このような情報２６７および／またはテーブル２６１ａは、少なくとも一部の実施形態では、クエリを指定したユーザには示されなくてもよい。ドキュメント関連性数値例の生成に関連したこれ以上の詳細は、以下で記載される。

この例では、ドキュメント例３は、クエリ用語に関する最も高い生成ドキュメント関連性値をもつ。というのは、ボンズのステロイド関連起訴に関連したドキュメント３のコンテンツが、両方のクエリ用語２６５ａに高く関連するからである。ドキュメント例１、４はそれぞれ、情報２６１ａにおけるエントリ２６４ａ、２６４ｂにおけるドキュメント１の列２６２ａおよびドキュメント４の列２６２ｄに示すように、こうしたドキュメント例それぞれが、クエリ用語の１つに高く関連し、他のクエリ用語にはごくわずかに関連する（すなわち、ドキュメント例１は、「ボンズ」という用語に高く関連し、「ステロイド」という用語にごくわずかに関連し、ドキュメント例４は、「ステロイド」という用語に高く関連し、「ボンズ」という用語にごくわずかに関連する）ことに基づいて、クエリ用語２６５ａの組合せに中程度に関連する。他のドキュメント例２、５は、クエリ用語２６５ａに他の３つのドキュメント例よりも関連しない。

前述したように、テーマの一部である複数の関連用語など、１つまたは複数の指定用語（たとえば、検索クエリの一部である用語）へのある特定のドキュメントの関連性の決定は、様々な実施形態において様々なやり方で実施することができる。１つの具体例として、指定された用語それぞれおよびドキュメントに関するＴＦ−ＩＤＦスコアは、たとえば平均または和を生じるように、様々なやり方で組み合わせることができる。具体的には、少なくとも一部の実施形態では、様々な指定用語に関するＴＦ−ＩＤＦスコアの平均が生成され、ドキュメントの間の比較を容易にし、標準化ドキュメント関連性（「ＤＲ」）スコアを人間が理解しやすくする、指定用語に関するＤＲスコアを生じるように、（たとえば、適合率または０と１の間の他の数値を表すように）さらに正規化することができる。１つまたは複数の指定用語ｉからなるグループｇに対するドキュメントｄに関するＤＲスコアは、少なくとも一部の実施形態では以下のように決定することができる。

上式で、求和（summation）はｇの中の用語ｉそれぞれに対して実施され、ＮＴｅｒｍｓ（ｇ）はグループｇ中の用語ｉの量を反映し、ある特定の用語ｉに関する最小ＴＦ−ＩＤＦ_iスコアおよび最大ＴＦ−ＩＤＦ_iスコアは、それぞれ、ある領域に関するドキュメントｋすべてに渡るその用語に関する最低スコアおよび最高スコアを反映する。

図２Ｄは、図２Ｃに示すクエリ用語２６５ａ「ボンズ」および「ステロイド」に応答してユーザに表示し、または代替的には提供することができる情報２６０の例を示す。情報２６０は、たとえば、生成され、ユーザのクライアント装置に表示用に提供されるウェブページの一部でもよく、そうでなければユーザに提示される情報スクリーンの一部でもよい。

具体的には、この例では、情報２６０は、指定クエリ用語２６５ａの視覚的指示２６６を含み、対応する検索結果のリスト２６９が、生成されたドキュメント関連性の順で示される。さらに、この例では、リスト２６９中のエントリはそれぞれ、対応する関連ドキュメントの指示（indication）（たとえば、ドキュメントにアクセスするためにユーザによって選択することができるユーザ選択可能リンクとして表示することができる、ドキュメントの名称または他の識別子）だけでなく、ドキュメントに関する対応する生成され正規化されたドキュメント関連性数値の指示も含み、たとえば、ある特定のドキュメントについての情報をさらに取得するべきか、または代替的にドキュメントをクエリ用語２６５ａに関連するものとして選択するべきかを評価しているユーザに情報を提供する。この例における示された正規化されたドキュメント関連性数値はそれぞれ、正規化されたドキュメント関連性数値の関連度合いのテキスト評価も含むが、他の実施形態では、標準化ドキュメント関連性数値および関連テキスト評価の一方のみが見せられ得る（またはどちらも見せなくてよい）。さらに、特定の検索結果の選択および表示は、様々な実施形態において、指定された量のクエリ結果を見せ、指定された最小ドキュメント関連性値を上回る一部または全部のクエリ結果を見せるなど、様々なやり方で実施することができる。

さらに、この例では、付加情報およびユーザ選択可能コントロール２６８が、ユーザによる起こり得る選択のために設けられるが、他の実施形態では、このような付加情報は示さなくてよい。この例では、付加情報２６８は、予め指定された検索クエリを、領域に関する関連テーマをさらに記述するように、たとえばクエリ用語２６５ａよりユーザの関心を表すより具体的または代替的には異なるテーマを指定することによって検索結果の正確さを向上させるように拡張したいかどうかをユーザに尋ねる。１つの可能な例として、それぞれが指定クエリ用語の１つには良く関連するが他の指定クエリ用語には少しだけ関連するドキュメント例１、４を参照して上で論じたように、ユーザは、ユーザが主にメジャーリーグ野球における（たとえば、ボンズだけでなく他の選手にも関する）ステロイド関連論争に関心をもっているのか、またはそうでなければ主にボンズのステロイド使用容疑にごくわずかに関連したボンズ関連情報（たとえば、ボンズによって打ち立てられた通算本塁打記録）に関心をもっているのかを明らかにすることによって、検索結果の正確さを向上させることが可能であり得る。より一般的に言うと、ユーザが現在関心をもっている１つまたは複数のテーマに特に関連する追加用語を識別することによって、その結果得られる拡張クエリ用語は、初期クエリ中の用語に関連づけられ得る様々な可能テーマをより明確にすることができる。

図２Ｄの情報２６８におけるユーザ選択可能な「Ｙｅｓ」コントロールの選択は、ＤＳＲＤサービスによる様々な追加アクションを促し得るが、このような一例は、図２Ｅ、２Ｆを参照してより詳細に記載する。具体的には、図２Ｅは、指定クエリ用語２６５ａ「ボンズ」および「ステロイド」に関連し得る他の用語２７４についての情報２７０を、決定された指定クエリ用語２６５ａへの他の用語の評価関連度の指示とともに示す。他の実施形態では、テーマ関連用語関連情報の使用は、たとえば、一部または全部の状況において一部または全部のユーザに対して（たとえば、付加情報を、情報２６８の代わりに表示するか、または情報２６８に加えて表示するかに関わらず、他の１つまたは複数の用語の可能関連性に関する図２Ｄの情報２６０とともに表示するように）自動的に実施される場合には、他のやり方で促すこともできる。

図２Ｅの様々な情報２７０は、たとえば、最初に指定されたクエリ用語２６５ａに部分的に基づく絞り込まれた検索クエリにおいて使用するために、ある特定のテーマをさらに定義することの一部として、様々なやり方で用いることができる。たとえば、一部の実施形態では、このような情報２７０の一部または全部は、クエリ用語２６５ａを指定したユーザに示すことができるが、例示する実施形態では、情報２７０は、ユーザに表示されない。この例では、情報２７０は、クエリ用語２６５ａとの可能な組合せのために候補追加用語にそれぞれが対応するいくつかの用語エントリ２７４ａ〜２７４ｆを含み、ドキュメント列２７２ａ〜２７２ｄは、こうした用語のドキュメント例１〜４についての評価された関連度を示す。列２７２ｅは、クエリ用語２６５ａに関する、各エントリ２７４中の候補用語に関する集約用語関連性スコアを示し、たとえばクエリ用語２６５ａによって表される可能テーマへの、候補用語の評価関連度を反映している。様々なドキュメント例２７２および候補追加用語２７４は、様々な実施形態において様々なやり方で選択することができる。たとえば、候補追加用語は、たとえば図２Ｃに示す正規化ドキュメント関連性数値２６４ｘに基づいて、クエリ用語２６５ａに最も関連すると決定された、コーパスのドキュメントのサブセットを最初に選択することによって選択することができる。最関連ドキュメントは、たとえばドキュメント感染性数値が最も高い、指定量のドキュメントを選択し、ドキュメント関連性数値が最も高い、指定された割合のドキュメントを選択し、ドキュメント関連性数値が指定閾値（たとえば、最小ドキュメント関連性数値閾値など、予め定義された閾値や、同じようなドキュメント関連性数値をもつグループ化ドキュメントが、最関連ドキュメントのグループと他のドキュメントとの間の閾値点を自然に生じる場合などの動的に決定された閾値）を上回るドキュメントの一部または全部を選択するなど、様々なやり方で選択することができる。この図２Ｅの例では、ドキュメント例５は、図２Ｃのエントリ２６４ｘ用の列２６２ｅに示すように、２％という低いドキュメント関連性数値に基づいて、この例においてさらに使用するための最関連ドキュメントとして選択されておらず、他のドキュメント例１〜４が、関連ドキュメントとして使用するために選択されている。

この例では、クエリ用語２６５ａに対して最関連ドキュメントが選択されると、選択ドキュメントに少なくとも部分的に基づいて、クエリ用語２６５ａに対して候補追加用語が選択される。たとえば、候補追加用語は、たとえば、選択ドキュメントに関する他の用語のＴＦ−ＩＤＦ値に基づいて、および／または選択ドキュメントに対する他の用語に関する用語出現頻度値に基づいて、選択ドキュメントに最も関連するクエリ用語２６５ａ以外の、選択ドキュメント中の用語に基づいて選択することができる。この例では、各用語エントリ２７４およびドキュメント例２７２に関する情報２７０に示す数値は、その用語およびドキュメントに関するＴＦ−ＩＤＦ値を反映する。たとえば、ドキュメント例１に対する用語「本塁打」に対応するエントリ２７４ａを参照すると、その用語の用語関連性値２７２ａは、（図２Ａの情報２１０のエントリ２１４ｂおよび列２１２ｅにおいて上で示した通り）ＴＦ−ＩＤＦ値１．３３３であると示されており、ドキュメント例２に対するエントリ２７４ａ中の用語「本塁打」に関する用語関連性値２７２ｂは、（図２Ａの情報２２０の行２２４ｂおよび列２２２ｅにおいて上で示した通り）１．１２５というＴＦ−ＩＤＦ値であると示されている。

さらに、この例では、用語２７４それぞれに関する用語関連性値が次いで、たとえば個々のＴＦ−ＩＤＦドキュメント固有値を平均することによって、選択ドキュメントに渡って集約され、その結果得られる、各候補追加用語２７４に関する決定集約用語関連性スコアまたは数値が、列２７２ｅに反映される。この例では、候補用語２７４は、クエリ用語２６５ａに対する決定集約関連性値の降順で示されており、こうすることによって、エントリ２７４ａにある候補用語「本塁打」が、指定クエリ用語に対する最関連候補追加用語であると決定され、エントリ２７４ｆにある候補追加用語「カンセコ」が、示してある指定クエリ用語に対する最も関連しない候補追加用語であると決定される。選択されたドキュメントのグループに基づいて検討用に選択された特定の候補追加用語は、様々なやり方で、たとえば、最も関連し得ると決定される、各ドキュメントまたは全ドキュメントにある、他の指定量の用語を使うことによって（たとえば、ＴＦ−ＩＤＦ値、用語出現頻度値、または他の個々のドキュメント用語関連性値を使うことによって）、各ドキュメントまたは全ドキュメントにある最も関連し得る他の指定された割合の用語を使うことによって、ＴＦ−ＩＤＦ値（または他の個々のドキュメント用語関連性値）が、選択ドキュメントの少なくとも１つに対して、もしくは選択ドキュメントすべてに対して、もしくは最関連ドキュメントの一部の指定最小サブセットに対して、指定閾値（たとえば、最小用語関連性数値閾値など、予め定義された閾値や、同じような用語関連性数値値をもつグループ化用語により、最関連用語のグループと他の用語との間の閾値が自然に生じる場合などの動的に決定された閾値）を上回る他の用語の一部または全部を使うことによって識別することができる。他の実施形態では、候補追加用語および／または関連ドキュメントは、他のやり方で選択することができ、個々の用語関連性値および／または集約用語関連性値は他のやり方で決定することができる。用語関連性スコア例または他の値の生成に関連したこれ以上の詳細は、他で説明する。

図２Ｆは、図２Ａ〜２Ｅの例の続きであり、選択および使用のための他の可能用語についての情報を含むように、ユーザに表示し、または代替的には提供することができる情報２７５の例を、図２Ｄに視覚的指示２６６とともに示されており、図２Ｆに視覚的指示２７６とともに示される先に示したクエリ用語２６５ａとともに示す。前述したように、情報２７５の提供は、２Ｄの情報２６０の情報２６８における「Ｙｅｓ」というユーザ選択可能コントロールの選択に応答して、またはそれ以外のやり方など、様々なやり方で促すことができる。さらに、図２Ｄの情報２６０と同様に、例示する情報２７５は、たとえば、表示用にユーザのクライアント装置に生成され提供されるウェブページの一部として、または代替的にはユーザに提示される情報スクリーンの一部として（たとえば、ＤＳＲＤサービスとともに使用するためにＤＳＲＤサービスのオペレータによって提供され、またはそうでなければサードパーティによって提供されるソフトウェアアプリケーションなど、ユーザのコンピューティング装置上で実行するソフトウェアアプリケーションのＧＵＩの一部として）など、様々なやり方でユーザに提供することができる。

この例における情報スクリーン２７５は、たとえば、この例では図２Ｅの候補追加用語２７４の少なくとも一部に基づいて生成される、指定クエリ用語２６５ａに対する他の可能な関連用語のリスト２７９を含む。具体的には、他の関連用語例２７９は、いくつかのエントリ２７９ａ〜２７９ｅを含み、図２Ｅの集約関連性スコア２７２ｅに基づく決定用語関連性の降順で示される。さらに、この例では、他の含まれる可能用語それぞれの用語関連性の指示が示されているが、他の実施形態では、このような用語関連性情報は、含まれなくてもよく、他のやり方で示してもよい。この例では、図２ｅの列２７２ｅにある決定用語関連性スコアは、０から１０のスケールに変換されており、ここで最関連と決定される他の可能用語は１０という可能値を有し、より関連しないと決定される他の可能用語はより低い値を有する。ここでは図示しないが、他の可能用語はそれぞれ、ユーザ選択可能リンクでよく、または代替的には、選択されたその用語を改正クエリの一部として含むように指定させるなど、その用語を関心あるものとしてユーザに選択させ、または代替的には指定させるための１つまたは複数の関連づけられたユーザ選択可能コントロールを有する。他の実施形態では、用語関連性情報は、図２Ｅにある実際の決定用語関連性スコア２７２ｅを示し、このような用語関連性スコアの正規化バージョンを表示する（ドキュメント関連性スコアに関して上で図２Ｄを参照して記載したのと同様に）など、他のやり方で表示することができる。さらに、用語関連性値のテキスト記述は、図２Ｄと同様に図２Ｆには示さないが、他の実施形態では、このような用語関連性値を示すことができる。

図２Ｇ、２Ｈは、図２Ａ〜２Ｆの例の続きであり、具体的には、図２Ｆに示す追加関連用語を選択することによって、またはそうでなければ別のやり方などで、ユーザが指定し得る２つの代替テーマに対応する。具体的には、図２Ｇは、たとえば図２Ｆのリスト２７９のエントリ２７９ａ、２７９ｃの選択に基づく、拡張クエリ用語２６５ｂのグループの一部として先行用語「ボンズ」および「ステロイド」とともに使うために、ユーザが他の追加用語「本塁打」および「ハンクアーロン」を選択している例に対応する。図２Ｇは、図２Ｃの情報２６１ａを参照して上で論じたのと同様にして、拡張クエリ用語２６５ｂへの様々なドキュメント例１〜５の関連性を示す付加情報２６１ｂも含む。図２Ｇの様々な情報２６１ｂは、（たとえば、図２Ｄの場合と同様に）ユーザに表示し、または代替的には提供することができる、拡張クエリ用語２６５ｂに最も関連するコーパスのドキュメントを含む新しい検索結果を決定するためなど、様々な用途に使うことができる。さらに、一部の実施形態では、このような情報２６１ｂの一部または全部が、拡張クエリ用語２６５ｂを指定したユーザに示され得るが、例示する実施形態では、情報２６１ｂはユーザに表示されない。

この例では、情報２６１ｂは、図２Ｃの情報２６１ａに関連した追加エントリ２６４ｃ、２６４ｄを含み、これらのエントリは、２つの追加クエリ用語に対応するように追加されている。したがって、その結果得られる、エントリ２６４ｙ中の集約正規化ドキュメント関連性数値は、図２Ｃのエントリ２６４ｘの以前のドキュメント関連性数値に対して、２つの追加用語の追加を反映するように更新されている。この例では、エントリ２６４ｙ中の集約正規化ドキュメント関連性情報は、４つの拡張クエリ用語２６５ｂそれぞれに関する個々の用語関連性数値の平均に依然として基づいているが、他の実施形態では、集約正規化ドキュメント関連性スコアは、他のやり方で（たとえば、重みづけされた平均を用いて）算出することができる。この例では、２つの追加検索用語の追加が、初期クエリ用語２６５ａに対して図２Ｃで最関連ドキュメントであると先に決定されたドキュメント例３に関する決定関連性を低下させている。具体的には、情報２６１ｂの列２６２ｃおよびエントリ２６４ｙに示すように、ドキュメント３に関する改正ドキュメント関連性スコアは、以前の８４％という値から現在の４７％という値に低下している。さらに、ドキュメント例１、２の相対関連性は、情報２６１ｂの列２６２ａ、２６２ｂに示すように、図２Ｃの情報に相対して増大しており、この結果、ドキュメント１は、拡張クエリ用語２６５ｂに対する最関連ドキュメントであると決定され、ドキュメント２は、拡張クエリ用語２６５ｂに対して２番目に関連するドキュメントであると決定される。

この例では、ドキュメント関連性数値の変化は、拡張クエリ用語２６５ｂを使って指定されるドキュメント例およびテーマの全体的トピックに基づいて直観的に理解することができる。具体的には、図２Ｃの２つの初期クエリ用語２６５ａに相対して、図２Ｇの拡張クエリ用語２６５ｂは、メジャーリーグ野球における全体的なステロイド関連論争にはあまり関連せず、バリーボンズおよびボンズの本塁打記録達成に特有の情報により関連するようになっている。したがって、ボンズが本塁打記録を打ち立てたことに関連したドキュメント例１のニュース記事が、ここでは拡張クエリに対する最関連ドキュメントになっており、より全般的にステロイド論争に関連したドキュメント例４は、はるかに関連しないものとなっている。ドキュメント例２、３は依然として、拡張クエリ用語２６５ｂに少なくとも中程度に関連する。というのは、ボンズに関連したドキュメント例２の経歴およびボンズの起訴に関連したドキュメント例３は両方とも、本塁打記録の考察を含み、ドキュメント例２は、先行記録保持者のハンクアーロンに触れているからである。

図２Ｈは、図２Ｇに示したものへの代替物を示し、ここで、図２Ｃの初期クエリ用語２６５ａは、追加クエリ用語「起訴」および「カンセコ」、ならびに先行用語「ボンズ」および「ステロイド」を含む拡張クエリ用語２６５ｃのグループを指定するように、異なるやり方で拡張されている。このような拡張クエリ用語２６５ｃは、たとえば、ユーザにとって関心ある、つまり、図２Ｇの拡張クエリ２６５ｂに関連して、ボンズのステロイド使用容疑およびメジャーリーグ野球における全体的ステロイド関連論争により関連し、ステロイド使用容疑に関連しない、ボンズについての特定の情報にはあまり関連しないテーマを反映し得る。したがって、図２Ｈの情報２６１ｃは、それぞれ図２Ｃ、２Ｇの情報２６１ａ、２６１ｂと同様であるが、２つの新規クエリ用語に対応する追加エントリ２６４ｇ、２６４ｈを含み、新たなエントリ２６４ｚは、新規拡張クエリ用語２６５ｃに基づいて生成される改正ドキュメント関連性数値を反映する。直観的に予期されるように、ボンズのステロイド関連起訴およびカンセコのステロイド関連証言にそれぞれ関連したドキュメント例３、４は、ドキュメント例の中で最関連ドキュメントであり、ステロイド論争に特有でないドキュメント例１、２の関連性は、大幅に下がっている。

図２Ｇの場合と同様に、例示する情報２６１ｃは、少なくとも一部の実施形態では、ユーザに表示しなくてよいが、図２Ｄのものに類似している他の情報は、新規クエリ用語２６５ｃに基づく関連ドキュメントの改正リストを示すためにユーザに表示してよい。さらに、図２Ｇ、２Ｈに示す追加クエリ用語を選択することによってユーザによって提供されるフィードバックは、少なくとも一部の実施形態では、たとえば特定のドキュメントおよび／または特定の用語の決定関連性を図２Ｃの初期クエリ用語２６５ａに相対して修正するためのフィードバックとして、他のやり方で使うことができる。

さらに、上で論じた例では、クエリ用語例２６５ａ〜２６５ｃは、比較的簡単なやり方で指定されており、用語は、論理結合演算（たとえば、ＡＮＤ、ＯＲなど）も指示せずに、他の相対重みづけもしくは使用も指示せずに列挙される。他の実施形態では、他のタイプの情報が、このような検索クエリに対して指定されてよく、様々なやり方で使うことができる。たとえば、他の一部の実施形態では、ユーザは、関心あるクエリ用語を指示することが可能であり得るだけでなく、ある特定のクエリまたはテーマに関する関心のないクエリ用語を指示することも可能であり、初期クエリを他の様々なやり方で修正することも認められ得る。たとえば、図２Ｅ、２Ｆを参照して例示したのと同様に、情報は、初期クエリ用語２６５ａに基づく最も関連しない他の用語を反映するように決定してよく、このような最も関連しない用語情報も同様に、拡張クエリから除外するための用語を選択させるためにユーザに対して表示してよい。このような状況において、関心ある用語は、除外されるように指示され、そうでなければ関心対象となっていない用語と様々なやり方で組み合わせることができる。たとえば、図２Ｃ、２Ｄの例を参照すると、クエリ用語「ボンズ」および「ステロイド」が、関心あるものとして指示され得るが、除外されるべきであると指示される用語「カンセコ」をもつ拡張クエリ用語が指定されてよい。図２Ｈの情報２６１ｃのエントリ２６４ｈに示すように、用語「カンセコ」は、ドキュメント例１〜５のドキュメント４にのみ関連し、具体的には、この例ではドキュメント４に対して０．９７というドキュメント関連性数値をもつ。このような情報は、たとえばドキュメントへの除外用語の用語関連性値を、包含用語に対する用語関連性値の負数として扱うことによって（同時に、正規化ドキュメント関連性数値に対する可能値の範囲を−１から１となるように拡張する）、拡張クエリ用語に基づくドキュメントに関する全体としてのドキュメント関連性数値の低下として、ドキュメントそれぞれへの、除外用語「カンセコ」の関連性を扱うために、図２Ｃの情報２６１ａと様々なやり方で組み合わせることができる。その場合、「カンセコ」に対して「−０．９７」という負の用語関連性数値とともに、「ボンズ」および「ステロイド」に関する０．０４および０．９７という個々の用語関連性数値の平均をとることによって、この例におけるドキュメント４および拡張クエリ用語に対して０．０１という改正ドキュメント関連性数値が生成され得る。除外用語に関する関連性情報および関心対象となっていない他の用語は、他の実施形態では他のやり方で使用され、関心ある用語に関する関連性情報と組み合わされ得ることが理解されよう。

さらに、図２Ｄの場合と同様に、一部の実施形態では、ユーザは、クエリ用語２６５ａに特に関連するとユーザが見なす１つまたは複数のドキュメントを、（たとえば、指定ドキュメントに対する類似ドキュメントを要求するために）たとえばクエリ用語２６５ａに関連する他の用語および／または指定ドキュメントに関連する他のドキュメントの決定に使用するために指定することが認められ得る。あるいは、図２Ｆに示すように特定の他の可能用語を列挙するのではなく、１つまたは複数の予め定義されたテーマが、それ以上の関連ドキュメントの識別における可能な選択および使用のために、代わりにユーザに表示されてもよい。このような他の定義テーマは、テキストラベル（たとえば、「ボンズ通算本塁打記録」）の包含および／またはその定義テーマの一部である特定の用語（たとえば、「ボンズ、ステロイド、本塁打、ハンクアーロン」）の使用という、様々なやり方で指定することができる。特定の定義テーマが、初期クエリ用語２６５ａへのその関連性に基づいて選択される場合、定義テーマの少なくとも一部は、たとえば「ボンズ、本塁打、ハンクアーロン」などの用語に基づくが「ステロイド」を含まない定義テーマ、およびクエリ２６５ｃの用語に類似している別の定義テーマを示すような、最初に指定されたクエリ用語２６５ａの少なくとも１つに基づかない場合がある。同様に、拡張クエリの一部として使うための追加クエリ用語をユーザが選択する状況では、ユーザは、そうすることが所望される場合は先行クエリ用語の１つまたは複数をさらに取り除き、たとえば図２Ｇの例では用語「ステロイド」を取り除き、または上で論じたようにこのような用語が除外されるべきであると指示することができる。決定された用語関連性およびドキュメント関連性情報は同様に、他の実施形態では他の様々なやり方で用いることができる。

別の例示的例として、クエリ用語拡張または他の修正に関して上述したものと類似した技術が、最初に指定されたクエリ用語がつづりを間違えられ、または代替的には（たとえば、単数もしくは複数形に基づいて、ある特定の時制の動詞に基づいて、異なる言語であることに基づいて）非標準もしくは非定型形である状況で用いられてもよい。したがって、たとえば、図２Ｆのクエリ用語２７６が、代わりに「ボンズ（bonds）」および「スタロイド（staroids）」（たとえば、ユーザによる用語の記入に基づくが、「ステロイド」を「スタロイド」とつづりを間違え、「ボンズ（bonds）」を大文字にしないことによって不正確になる）であった場合、他の候補用語２７９は、ユーザ指定用語の不正確への対処に関連した追加用語を含むように拡張し、または代替的には修正してよい。「スタロイド」に関して、たとえば、最関連追加用語の１つは、たとえば「スタロイド」の代わりに、またはそれに加えて使用するための用語「ステロイド」でよい。追加用語「ステロイド」は、一部の実施形態では、認識されない単語「スタロイド」を求める（たとえば、任意選択で、「小惑星（asteroids）」、「トロイド（toroids）」など、他の提案置換え用語とともに）辞書ルックアップのみに基づいて識別することができるが、他の実施形態では、上で論じた用語間関連技術は、「ステロイド」を、用語「スタロイド」と「ステロイド」との間の予め識別された関係に基づいて（たとえば、「スタロイド」がユーザによる「ステロイド」の共通のつづりミスである場合）、および／または用語「ボンズ（bonds）」と「ステロイド」との間の予め識別された関係に基づいて、置換えまたは補足用語に対する可能または有望候補として識別するのに用いることができる。同様にして、用語「ボンズ（bonds）」を明確にするための作業では、追加用語は、たとえば用語「ボンズ（bonds：債券）」と他の追加用語との間の予め識別された関係に基づいて、「バリーボンズ」、「株」、「金利」、「ボビーボンズ」などの選択肢を含み得る。

前述したように、一部の実施形態では、特定の用語の、特定のドキュメントへの、および／または特定の他の用語への関連性の初期決定は、ＴＦ−ＩＤＦ値または用語出現頻度に関連した他の情報の使用に少なくとも部分的に基づいて行われ得る。他の実施形態では、このような関連性情報の決定は、他のやり方で行ってよい。一例として、１つまたは複数のドキュメントへのある特定の用語の関連性は、確率分布または他の分布として表すことができ、２つ以上のこのような用語に対するそれぞれの分布を比較して、これらの分布がどの程度類似しているかを、それぞれの用語がどの程度関連があるかの測度として決定することができる。同様に、特定のドキュメントはそれぞれ、複数の用語に渡る分布として表すことができ、２つ以上のこのようなドキュメントに対するそれぞれの分布を同様に比較して、これらのドキュメントがどの程度類似しているか決定することができる。したがって、たとえば、１つまたは複数の用語および１つのドキュメントをもつ検索クエリは、所望され含まれるドキュメント用語に及ぶ１対の確率分布として表すことができ、このような確率分布の比較は、コーパス中の一部または全部のドキュメントに対して実施され、そうすることによって、クエリに関連した最も統計的な情報を有するドキュメントが決定され得る。２つの分布の間のこのような比較の実施の一例として、カルバック−ライブラー拡散統計測度が、２つのこのような分布の間の類似の凸測度（convex measure）を与えるように算出され得るが、他の実施形態では、統計的情報エントロピーの相違が、２つのこのような分布を比較するのに用いられ得る。このような比較の例の実施に関するこれ以上の詳細が以下に記載されるので、このような比較は、他の実施形態では他のやり方で実施され得ることが理解されよう。

具体的には、２つのドキュメント関連分布または用語関連分布の間のカルバック−ライブラー拡散は、一部の実施形態では、２つの分布の間の類似度を決定するのに使用することができる。２つの分布Ｐ、Ｑに関するカルバック−ライブラー拡散は、以下のように表すことができる。

上式で、Ｐ_i、Ｑ_iは、離散確率分布Ｐ、Ｑの値である（たとえば、ドキュメントＰに関するドキュメント関連分布の場合、各Ｐ_iは、用語ｉと合致する、ドキュメント中の単語の割合を表すことができ、ドキュメントＰへのある特定の用語ｉの関連度を表すことができ、その用語ｉがドキュメントＰにおける最関連用語である確率を表すことができる）。他の実施形態は、たとえばカルバック−ライブラー拡散からの類似測度の代わりであるか、またはその測度に加えてに関わらず、２つの統計的情報エントロピー測定値の間の相違など、他の統計測定値を用いて、２つの分布を比較することができる。確率分布の統計的エントロピーは、確率分布の多様性の測定値である。確率分布Ｐの統計的エントロピーは、以下のように表すことができる。

上式で、Ｐ_iは、離散確率分布Ｐの値である。２つの統計的エントロピー測定値の間の相違が次いで、エントロピー相違測定値を算出することによって測定され得る。２つの確率分布ＰとＱとの間のエントロピー相違測定値は、以下のようにランダム変数の間の相互情報として表すことができる。

上式で、ｐ（ｐ）、ｐ（ｑ）は、それぞれＰ、Ｑの周辺分布を表し、ｐ（ｐ，ｑ）は、Ｐ、Ｑの同時分布を表す。あるいは、２つの確率分布ＰとＱとの間のエントロピー相違測定値は、以下のように表すこともできよう。
ＥＭ＝｜｜Ｈ（Ｐ）−Ｈ（Ｑ）｜｜²
上式で、Ｈ（Ｐ）およびＨ（Ｑ）は、上述したように、それぞれ確率分布Ｐ、Ｑのエントロピーである。

さらに、上で論じたように、図２Ａ〜２Ｈは、ある特定のドキュメントグループ例に関するドキュメントに関連づけられた関連性情報（ドキュメント関連関連性情報）およびテーマに関連づけられた関連性情報（テーマ関連関連性情報）を決定し、その関連性情報を様々なやり方で用いる例を示す。他の箇所で論られているように、一部の実施形態では、決定された関連性に関する情報（決定関連性関連情報）の少なくとも一部は、特定の様々なやり方表すことができ、ユーザフィードバックおよび他の変化を反映するように更新することができる。図２Ｉ〜２Ｌは、決定されたドキュメント関連性情報および用語関連関連性情報を様々なやり方で、具体的にはこうした例では、決定関連性関連情報を表すニューラルネットワークを生成し、更新することによって表し、改正する具体例を示す。

具体的には、図２Ｉは、特定の用語への特定のドキュメントの関連性を表すニューラルネットワーク例２９５ａを示す。この例では、ニューラルネットワーク２９５ａは、ドキュメントのコーパスに対して識別される用語に対応する様々な入力ノード２８０と、コーパス中のドキュメントを表す様々な出力ノード２９０と、特定の入力用語２８０に基づいて特定の出力ドキュメント２９０に関するドキュメント関連性数値を生成するように実施される算出を表す内部ノード２８５からなる１つまたは複数の層とを含む。簡略化のためにただ１組の内部ノード２８５が図２Ｉに示されているが、このようないくつかのニューラルネットワークが、追加内部ノードを有し得ることが理解されよう。さらに、ノードの間のリンクは、こうしたノードの間の関係を表し、後で論じる関連づけられた重みを含み得る。

図２Ｃを参照して上で論じたように、「ボンズ」および「ステロイド」という２つのクエリ用語２６５ａを含む検索クエリが指定されている。図２Ｉのノード２８０ａ、２８０ｃは、こうした用語を生成ニューラルネットワークで表し、認識しやすくするために太字で示されている。さらに、図２Ｃの例では、正規化ドキュメント関連性数値２６４ｘが、ドキュメント例１〜４を含む、コーパス中の様々なドキュメントに関して決定され、ここで、こうしたドキュメント例１〜４は、この例において対応するノード２９１〜２９４をもつ。さらに、情報２９７が、こうした用語に対するノード２８０ａ、２８０ｃに対応する関連づけられた内部ノード２８５ａ、２８５ｃを反映するように、略して「ＡＣ」と呼ばれる、この例の２つのクエリ用語２６５ａに基づく、こうしたドキュメント例１〜４に関する正規化ドキュメント関連性数値を示すために、この例において例示されている。したがって、たとえば、クエリ用語２６５ａに基づく、ドキュメント１に関する、例示する正規化ドキュメント関連性値２９７ａは、図２Ｃのエントリ２６４ｘに対して列２６２ａに示したように、０．４８の値である。同様の情報２９７ｂ〜２９７ｄが、ドキュメント例２〜４用に例示されている。

この例では、生成ニューラルネットワークにおける出力ドキュメント２９０に関するドキュメント関連性数値の算出は、入力用語２８０と内部ノード２８５との間のリンク２８２、ならびに内部ノード２８５と出力ドキュメント２９０との間のリンク２８７に対応する２つの部分に分離される。さらに、情報２８７ａ、２８７ｂが、たとえば初期の決定ドキュメント関連性情報に基づいて各リンクに関連づけられた初期の重みを指示することによって、示してある様々なリンク２８７についての情報を反映するように例示されている。たとえば、ドキュメント例１に対応する内部ノードＡ２８５ａと出力ノード２９１との間のリンク（情報２８７ａでは、略してリンク「Ａ−Ｄ１」と言う）に関して、そのリンクは最初に、情報２８７ｂに示すように、０．０００５１８、すなわち５．１８×１０^-4の重みを与えられる。同様に、内部ノードＣ２８５ｃと出力ノード２９１との間のリンク（情報２８７ａでは、略してリンク「Ｃ−Ｄ１」と言う）に関して、そのリンクは最初に、情報２８７ｂにおいて０．００００５３の重みを与えられる。さらに、入力ノード２８０ａ、２８０ｃと内部ノード２８５ａ、２８５ｃとの間のリンク２８２は、それぞれ、図２Ｃに記載し、後でより詳細に記載する用語関連性情報例に基づいて、１，６４１および２，０７５という値をそれぞれ決定するのに用いることができる。したがって、クエリ用語２８０ａ、２８０ｃに基づく、ドキュメント例１に関する正規化ドキュメント関連性値２９７ａは、こうした２つのリンクＡ−Ｄ１およびＣ−Ｄ１に基づいて、ならびに内部ノード２８５ａ、２８５ｃに基づいて、入力ノード２８０ａと内部ノード２８５ａとの間の、ならびに入力ノード２８０ｃと内部ノード２８５ｃとの間のリンク２８２に基づいて（たとえば、用語「ボンズ」に関するドキュメント関連性数値として１６４１＊０．０００５１８＝０．８５を算出し、用語「ステロイド」に関するドキュメント関連性数値として２０７５＊０．００００５３＝０．１１を算出し、その平均を、図２Ｃの情報２６１ａに示したように０．４８とすることによって）ニューラルネットワークから決定することができる。このようなニューラルネットワークを生成する一実施形態例に関するこれ以上の詳細が、たとえば以下の式１〜５を参照してこれ以降に続く。

具体的には、特定のドキュメントへの特定の用語の関連性が決定される（たとえば、そうしたドキュメントおよびそうした用語の組合せに関するＤＲスコアに反映されるように）と、その情報は、ユーザフィードバックに基づいて更新することができるニューラルネットワークを用いて、および他のやり方を含む様々なやり方で表すことができる。同様に、１つまたは複数の用語からなる他のグループへの特定の用語の関連性が決定される（たとえば、そうした用語の一部または全部に対する関連ドキュメントに部分的に基づいて）と、その情報は、ユーザフィードバックに基づいて更新することができる類似ニューラルネットワークを用いて、および他のやり方を含む様々なやり方で表し、更新することもできる。このようなニューラルネットワーク（たとえば、特定のリンク）の重みおよび／または他の側面は次いで、時間の経過とともに取得されるフィードバックおよび他の付加情報を反映するように、たとえば取得され得るフィードバックおよび他の付加情報からの自動化学習を反映するように時間の経過とともにニューラルネットワークによって提供される関連性情報を向上させるように修正することができる。以下は、このようなニューラルネットワークを生成し、このようなニューラルネットワークにおける重みを更新する具体的な一例を示し、他の実施形態は、他の関連技術を用いることができる。

前述したように、１つまたは複数の指定用語ｉからなるグループｇに相対するドキュメントｄに関するＤＲスコア（以下では、「ＨＤＲスコア」とも言う）は、少なくとも一部の実施形態では以下のように決定することができる。

このＤＲ式は同様に、以下のように、ある特定のドキュメントｊに対応する１つまたは複数のこのような用語ｉからなるグループｇをもつクエリ中の個々の用語ｉに対するＴＦ．ＩＤＦ値の、偏りを加えた一次結合を表す１組のニューラルネットワークの重みを表すのに使うことができる。

算出ＤＲスコアに基づくこのようなニューラルネットワークの重みは、生成ニューラルネットワークを、算出ＤＲスコアに対応するように初期化するのに用いることができる。

さらに、ｘ_ijがドキュメントｊ中の用語ｉの用語出現頻度である、ＴＦ．ＩＤＦの定義を用いると、ＴＦ．ＩＤＦ値は、以下のように表すことができる。

上式で、σ（ｘ）は、ヘビサイド関数（引数ｘが負の場合、関数の値はゼロであり、引数ｘがゼロまたは正の場合、関数の値は１である）であり、Ｎは、コーパス中のドキュメントの数である。

したがって、ＨＤＲ（ｊ）に代入を行うと、以下の結果を得る。

１つまたは複数の用語ｔからなるグループｇをもつクエリの場合、ドキュメントにおける用語出現頻度は、各ドキュメントに投影されたこうした用語の重みと見なすことができ、次いで、所与のクエリの場合、関連性ニューラルネットワークが概して以下のように表され得るように、１組の重みＵ_ij＝β_ij＊ｘ_ijおよび係数α_iを定義することができ、

ニューラルネットワークがＴＦ．ＩＤＦクエリ関連性スコアづけを実装するように、重みで初期化することができる。ここで、

である。このような重みＵは、概して内部ノード２８５と出力ドキュメントノード２９０との間のリンク２８７に対する図２Ｉの重み２８７ｂに対応する。

さらに、前述したように、このような生成ニューラルネットワークは、フィードバックおよび領域に関する追加関連性関連情報を示す他の情報を反映するように更新することができる。たとえば、以下のように、１組のトレーニング例［ｒ，ｈ］に対して二乗誤差関数が用いられ得る。

次いで、確率的勾配降下法（stochastic gradient descent）によってネットワークの重みを更新する逆伝播規則（Back-propagation rules）が導出され得る。したがって、モデルの重みに関するＥという導関数が、以下のように算出され得る。

たとえばｈ_jという目標値を、現在の最関連ドキュメントに対する値と等しく、またはそれより数パーセント大きく設定するための所与のドキュメントのユーザ選択を用いることによって、様々な実施形態において様々なやり方で、トレーニングケースが開発され得る。

生成ニューラルネットワークが、複数の重複または代替的には関連テーマの間を明確にするのに有用であり得るように、用語の間の相互関係を反映するように拡張されるとき、学習は、様々な実施形態において様々なやり方で実施することができる。図２Ｋのニューラルネットワーク例２９５ｃは、このような拡張ニューラルネットワークを示し、この中に、新しい用語に基づく出力ノード２８３が、ドキュメントに基づくノード２９０と新規用語に基づく出力ノード２８３との間の新しいリンク２９６を有して例示されている。たとえば、このような状況では、用語出現頻度の重みＶを一定に保つか、またはそうでなければ両方の重みＵ、Ｖを逆伝播により適応させるかを選ぶことが可能である。前述したように、重みＵは、概して内部ノード２８５とドキュメントノード２９０との間のリンク２８７に対応し、例示的な重み２８７ｂを図２Ｉに示してあり、重みＶは、概してドキュメントノード２９０と用語に基づく出力ノード２８３との間のリンク２９６に対応し、例示的な重み２９６ｂを図２Ｋに示してある。

このような状況において、さらに１つのフィードフォワードステップが、ドキュメントに基づくノード２９０と新規用語に基づく出力ノード２８３との間のリンクに対して、以下のように曖昧性除去ｄの目的で用いられる。

Ｖ_ij＝ｘ_ijで初期化する

重みＶが固定される状況において、重みＶは、逆数にし、新しいｄに適用して、ｈという適切なフィードバック値を取得することができる。あるいは、重みＵ、Ｖおよびα_i、γ_iは、以下のように、更新された誤差関数Ｅ^(d)で修正すればよい。

したがって、勾配降下学習規則は、以下のような形をもつ。

さらに、学習されるパラメータの範囲は、少なくとも一部の実施形態では、「重み減衰」正規化を実装することによって制限することができる。したがって、その結果、Ｕ、Ｖ、α_i、γ_i中のＥ、Ｅ^(d)に二次項を加えることになる。異なる重みに対する導関数はしたがって、ｈまたはｄという目標値との相違に基づくエラー信号が存在しない場合は重みにおけるＥ、Ｅ^(d)の勾配中に一次項を生じ、勾配降下の効果および重みにおける指数減衰を引き起こす。このように、ｗ（任意のネットワークの重みＵ、Ｖ、α_i、γ_i）に対して、追加項

を勾配に追加することができ、ここでＥはパラメータである。

このようなニューラルネットワークを生成し、更新する実施形態を参照して具体的な詳細が記載されたが、他の実施形態では他のやり方で他のニューラルネットワークが生成され、かつ／または更新され得ることが理解されよう。

図２Ａ〜２Ｉを参照して上で記載した例に戻ると、図２Ｊはこうした例の続きであり、具体的には、コーパスに関する決定関連性情報の使用に関連したフィードバックに基づいて時間の経過とともに図２Ｉのニューラルネットワーク２９５ａに関して起こり得る変化を示す。具体的には、修正ニューラルネットワーク２９５ｂが図２Ｊに示されており、この中で、修正は、クエリ用語２８０ａ、２８０ｃに対するドキュメント例１の正規化ドキュメント関連性値に対して行われている。このような変化は、たとえば、ドキュメント例１が、指定された用語に対応する最関連ドキュメントであるという暗黙のユーザフィードバック、またはそうでなければドキュメント例１のこのような関連性を示すユーザからの明示的フィードバックの反映など、クエリ用語２８０ａ、２８０ｃが指定された後の改正または他の使用のための、ドキュメント例１のユーザによる反復選択に基づき得る。したがって、この例では、ユーザフィードバックに基づいてドキュメント例すべての中でドキュメント１が最関連となるように、ドキュメント例１に対するドキュメント関連性数値２９７ａは、たとえばこの例では、正規化ドキュメント関連性数値を、他の最関連ドキュメントと等しく、または指定された差だけ（たとえば、この例では０．０１だけ）上回るように修正することによって、修正されている。さらに、より高い正規化ドキュメント関連性数値２９７ａを反映するように、リンクＡ−Ｄ１、Ｃ−Ｄ１の値が、修正情報２８７ｃに示すように修正されている。この例では、修正されたリンク重みおよびドキュメント関連性数値２９７ａは、便宜上太字で、ならびにリンクＡ−Ｄ１、Ｃ−Ｄ１を視覚的に表現するために示されている。ドキュメント関連性値の増大２９７ａを反映するようなリンクＡ−Ｄ１、Ｃ−Ｄ１に対する重みの修正は、たとえばリンクの重みをドキュメント関連性数値の増大に対応するように等しく、または比例して増すことによって、様々なやり方でこうしたリンクに渡り得ることが理解されよう。あるいは、他の実施形態では、学習は、特定のリンク重みを更新させる場合があり、更新されたドキュメント関連性数値が、こうした更新されたリンク重みに対応するように代わりに生成され得る。

さらに、図２Ｊには示さないが、一部の実施形態では、ドキュメント例１に対するドキュメント関連性スコアの修正および／またはリンクＡ−Ｄ１、Ｃ−Ｄ１に対するリンク重みの修正は、他の生成ドキュメント関連性数値および／またはリンク重みの修正をさらに引き起こし得る。たとえば、ドキュメント例１の関連性が、指定用語２８０ａ、２８０ｃに対して増大されると、他のドキュメント例２〜４の関連性は、こうした指定用語２８０ａ、２８０ｃに関して、より低い相対関連性値を反映するように低下され得る。そうである場合、決定ドキュメント関連性数値２９７ｂ〜２９７ｄは、様々なやり方で（たとえば、比例して）低下されてよく、内部ノード２８５ａと２８５ｃとの間のリンクならびに他のドキュメント例２〜４に対する対応するリンク重みが低下されてよい。この例において低下され得るこのような他の情報が、便宜上斜体で示されているが、図２Ｊでは値例は調整されていない。さらに、一部の状況では、ある特定の用語が、図２Ａのその用語およびドキュメントに対する行２１４ｊの値２１２ｅに反映されるように、入力ノード２８０ｅおよびドキュメント例１に表されるように用語「起訴」に関して、ある特定のドキュメント例への関連性がないと決定され得ることが理解されよう。そうである場合、内部ノード２８５ｅとドキュメント例１に対応するノード２９１との間のリンクは存在しなくてよく、またはそうでなければ、０の値の重みをもって存在し得る。この例では、０値の重みをもち、存在しなくてよいリンク２８７が、破線を用いて示されている。ただし、Ｅ−Ｄ１などのある特定のリンクが、最初に、０の重みをもち、ドキュメント例１などある特定のドキュメントへの関連性がないと決定され得るが、時間経過に伴う、領域に関する決定関連性情報の学習および他の修正は、その用語とそのドキュメントとの間にある程度の関連が実際に存在することを示すことができ、関連が存在する場合、修正ニューラルネットワークにおける対応するリンクおよび関連づけられた重みは、その修正決定関連性を反映するように修正され得ることが理解されよう。

さらに、ここでは図示しないが、一部の実施形態では、図２Ｉ、２Ｊの２９５ａ、２９５ｂなどのニューラルネットワークは、作成された後で、他のやり方で修正することができる。たとえば、コーパスに対するニューラルネットワークが生成され、かつ／または更新された後で、コーパスに対する追加ドキュメントが利用可能になった場合、一部の実施形態では、追加ドキュメントが、ニューラルネットワーク全体を生成し直すことなく、様々なやり方で既存のニューラルネットワークに組み込まれ得る。一例として、このような新しいドキュメントに対して新しい出力ノード２９０を作成することができ、内部ノード２８５と出力ドキュメントノード２９０との間に新しいリンク２８７を生成することができる。さらに、新しいリンク２８７に割り当てられるべき重みが、たとえば、新しいドキュメントへの既存の用語に対する初期の決定関連性値に基づいてこうした重みを初期化することによって、既にニューラルネットワーク内にある対応するリンク重みの平均をとり、または代替的には既存のリンク重みの一部または全部に基づいて新しいリンク重みを生成することによって、最も類似している他の既存ドキュメントを決定し（たとえば、上で論じたカルバック−ライブラー拡散統計測定値を用いてドキュメントの類似性を評価することによって、またはそうでなければ別のやり方で）、最も類似している他の既存ドキュメントに基づいて新しいドキュメントに対するリンク重みおよび／またはドキュメント関連性値を（たとえば、最も類似している他の既存ドキュメントに対する対応する値の平均をとるように）初期化することによって、様々なやり方で決定され得る。

図２Ｋは、図２Ｉのニューラルネットワーク２９５ａに類似しているが、コーパスに対する追加決定テーマ関連関連性情報を反映するニューラルネットワーク例２９５ｃを示す。具体的には、この例では、ニューラルネットワーク２９５ｃは、用語に対応する類似入力ノード２８０、内部ノード２８５、および入力用語に基づく、ドキュメントに対する決定正規化関連性数値に対応するドキュメントノード２９０を含むが、コーパスの用語に対応する追加出力ノード２８３、ならびにドキュメント関連ノード２９０と新しい用語関連出力ノード２８３との間の追加リンク２９６をさらに含む。他の箇所でより詳細に論じるように、一部の実施形態では、１つまたは複数の第１の用語と他の１つまたは複数の用語との間の関連性の決定は、第１の用語に関連すると決定されるドキュメントに少なくとも部分的に基づいて、たとえばこうしたドキュメントを用いて他の可能関連性用語を識別し得る。この例では、付加情報２９６ａ、２９６ｂが、図２Ｉを参照して上で記載したのと同様のやり方で、リンク２９６の重みを反映するように示されている。

このニューラルネットワーク例２９５ｃの初期状態は、図２Ｅの例に対応し、ここで他の用語の関連性は、初期クエリ用語例２６５ａに基づいて決定される。したがって、たとえば、図２Ｋの表示情報２９８は、図２Ｅのエントリ２７４ｃに関する情報２７２ｅに対応する用語「ハンクアーロン」に対する出力用語２８３ｂに関する用語関連性数値２９８ｂなど、入力用語２８０ａ、２８０ｃ（便宜上、太字で示す）に基づく、他の特定の出力用語２８３の決定関連性の指示を含む。用語関連性数値２９８ｄ、２９８ｅは同様に、入力用語２８０ａ、２８０ｃに基づく、出力用語「本塁打」２８３ｄおよび「起訴」２８３ｅに対して決定された用語関連性数値を示す。

図２Ｊの場合と同様に、図２Ｌは、特定の入力用語への特定の出力用語の関連性における学習された変化に対応する、図２Ｋのニューラルネットワーク２９５ｃの変化を示す修正ニューラルネットワーク２９５ｄを示す。この例では、現在関心のある入力用語は依然として、入力ノード２８０ａ、２８０ｃに対応するクエリ用語２６５ａであり、出力用語「ハンクアーロン」２８３ｂおよび「本塁打」２８３ｄの決定関連性は、こうした入力用語に対するこうした出力用語の関連性における学習された増大を反映するように修正されている。たとえば、図２Ｇに示したように、いくつかのユーザが、図２Ｇの例を参照して上で論じたように、用語「ボンズ」および「ステロイド」をもつ拡張クエリで使用するために、追加用語「ハンクアーロン」および「本塁打」を選択している場合がある。この例では、改正用語関連性数値２９８ｂ、２９８ｄが、それぞれ出力ノード２８３ｂ、２８３ｄに対して選択されており、この例では、２つの入力用語に基づくこうした２つの出力用語に対する関連性数値の５０％の増大に対応する。さらに、対応するリンク重みが、これに従って修正されており、この例では、入力用語２８０ａ、２８０ｃに最も関連すると決定されたドキュメント（この例では、図２Ｃ、２Ｄに記載したドキュメント例１〜４を含む）のサブセットそれぞれから、影響を受ける出力用語ノード２８３ｂ、２８３ｄへのリンクに対応する。この例において修正されている用語関連性数値２９８およびリンク２９６が、便宜上太字で示されている。

さらに、一部の実施形態では、リンク２８７の一部に関連づけられた重みが、リンク２９６への修正の代わりに、またはそれに加えて、たとえば、入力用語２８０ａ、２８０ｃに対する出力用語２８３ｂ、２８３ｄの関連性の増大の一部または全部を調節するために内部ノード２８５ａと２８５ｃとの間のリンクならびにドキュメント例１〜４の１つまたは複数に対する重みを増大するように、同様に修正され得る。さらに、リンクＤ３−Ｂ、Ｄ４−Ｂの重みが、図２Ｋにおける０値をもつものから、この例における関連づけられた小さな重みをもつものに増大されているが、他の実施形態では、０値をもつこのような重みは、増大しなくてよいことに留意されたい。

ニューラルネットワーク例２９５ａ〜２９５ｄに関して例示される様々な重み、関連性数値、および他の情報は、例示のために挙げられ、他の形をしていてもよく、他の実施形態では他のやり方で修正され得ることが理解されよう。さらに、図２Ａ〜２Ｌの例で例示する情報は、例示目的でのみ挙げられており、記載する活動の様々なものは、他の実施形態では他のやり方で実施され得ることが理解されよう。さらに、他の様々な詳細が、理解しやすくするために抽象的に示され、または図示されていない。さらに、他の様々なタイプの機能が、他の箇所でより詳細に論じるように、様々な実施形態においてＤＳＲＤサービスによって提供され、用いられ得る。少数の用語、ドキュメント、およびニューラルネットワークノードが例示されているが、実際の実施形態では、実際の量は、たとえば数十万の用語および数百万のドキュメントを、対応する数のニューラルネットワークノードとともに含むように、はるかに多くてよいことも理解されよう。

図２Ａ〜２Ｌの例は、テキストドキュメントまたは他のコンテンツアイテムに存在する用語の分析に基づくが、本記載技術は、他のやり方で、他のタイプのコンテンツとともに用いられ得ることが理解されよう。具体的には、他のタイプのコンテンツを有するコンテンツアイテムのコーパスが、そうしたコンテンツアイテムのコンテンツの一部であり、またはそうでなければそうしたコンテンツアイテムに関連づけられた他の任意のタイプの認識可能な特徴もしくはプロパティまたは他の属性を識別するために分析されてよく、コンテンツおよび／または他のこのような属性への特定の属性の関連性が、テキスト用語に関して論じたのと同様のやり方で決定されてよい。このようなコンテンツアイテム属性の非排他的リストは、コンテンツアイテムのタイプ（たとえば、音声ストリームまたはファイル、映像ストリームまたはファイル、画像など）、コンテンツアイテムのソース、画像または映像コンテンツ中のある特定のオブジェクト、ストリームまたはファイルコンテンツアイテム中の情報のある特定のパターン、コンテンツアイテムに関連づけられた特定のタイプのメタデータなどを含む。このような属性は、指定された属性に関連する検索結果を与えるように、かつ／または１つもしくは複数の関連属性のテーマもしくは他のグループを定義するように、それぞれ用語として扱うことができる。

さらに、図２Ｉ〜２Ｌの例は、決定関連性情報を時間の経過とともに向上させるのに、ニューラルネットワークおよび逆伝播学習を用いるが、他の実施形態では、他のタイプの機械学習技術または適応システムが、代わりに用いられ得る。一例として、他の一部の実施形態では、初期の決定関連性情報は、図２Ｉ〜２Ｌの例で論じたのと同様の構造をもつが、ネットワーク内の先行するリンクノードからの対応する入力値に基づく条件的確率を表すノード値をもち、特定の関連性値を決定するのに用いられる確率的信念伝播（probabilistic belief propagation）を用い、時間経過に伴うフィードバックに対応するような条件的確率値の更新を伴う学習を用いる、確率的なベイズのニューラルネットワークを用いて表すことができる。

さらに、ユーザのクエリ用語または嗜好情報の指定を参照して上で例が論じられたが、他のタイプの情報が、様々な実施形態において様々なやり方で用いられ得る。たとえば、ユーザに特有の情報のグループは、そのユーザに関する嗜好情報を決定するために自動分析し、用いることができ、嗜好情報は次いで、その嗜好情報に関連する他のコンテンツを自動決定するのに用いることができる。分析され得るこのようなユーザ特有情報の非排他的例は、ｅメールおよび他の通信（たとえば、指定された期間にユーザが送り、かつ／または受け取っている全ｅメール）、様々なタイプのユーザ操作のログまたは履歴（たとえば、実施される検索および／または検索結果を伴う対話の履歴）、ユーザのソーシャルネットワークおよび他の関係についての情報のグループなどを含む。あるいは、１つまたは複数のこのようなユーザ特有情報グループが代わりに、一部の実施形態では、そのユーザ（および／またはそれ以外の人達）にとって関心のあり得るドキュメントのコーパスとして扱われて、たとえば、このようなユーザ特有情報に分析に基づいて、ユーザにとって関心あるテーマを自動決定し、かつ／またはユーザの現在の関心に関連する、このようなユーザ特有情報の特定の断片を取り出させることができる。

たとえば、ユーザは、ドキュメントにアクセス中である場合があり、そのドキュメントにある情報のコンテキストが、（たとえば、そのユーザのコンピューティングシステム、インターネットもしくは他の外部ネットワークまたはデータストアなどから）他の関連性コンテンツアイテムを識別するのに使われ得る。具体的な例示的一例として、ジョンドウというユーザは、自分の履歴書を編集中である場合があり、ユーザのｅメールストアおよびウェブから関連性職歴データまたは他の関連データの取得を望む場合がある。ｅメールストアは、たとえば、そのユーザが企業１および企業２において従事した過去の仕事に関連したｅメールを有してよく、こうしたｅメールのヘッダーは、それぞれの企業名を含む。ユーザ用のデータストアは（ローカルであってもリモートであっても）、ユーザの１つまたは複数の過去の履歴書または履歴書例も含んでよく、仕事関連のソーシャルネットワークサイトは、ユーザの過去の利用履歴を有し得る。このような状況において、特定のユーザが履歴書を公開させるコンテキストが、ユーザがクエリ用語「ドウ（Doe）」で指定する検索を、履歴書からの追加クエリ用語「ジョン」、「企業１」、「企業２」、「履歴書」、肩書きまたは説明情報、ユーザに関する履歴書または他の格納プロファイルまたは嗜好情報からのユーザに関する地理的位置情報などの１つまたは複数を追加するなど、自動的に拡張し、または補うのに使われ得る。拡張検索は次いで、たとえばユーザが企業１および企業２において従事した過去の仕事に関連したｅメール、企業１および企業２に関連した他の格納ドキュメント、過去の履歴書または履歴書例、仕事関連のソーシャルネットワークサイトからの利用履歴情報など、様々なタイプの関連ドキュメントまたは他の情報を識別することができる。

さらに、他の箇所でより詳細に記載するように、本記載技術は、関連コンテンツアイテムの識別または取出し以外の状況で用いることができる。たとえば、第１のコンテンツアイテムグループの自動化分析は、第１のグループのコンテンツアイテム中のデータのタイプまたはカテゴリに対応するテーマを（たとえば、合致または類似パターンをもつデータに基づいて）識別するのに用いることができ、こうした識別テーマは、クエリ用語として使われる別のデータアイテムのタイプをカテゴリ化し、または代替的には決定するのに使うことができる。例示的な一例として、様々なタイプの暗号化データが、暗号化方式のタイプに対応するテーマが識別されるように分析され得る。暗号化ファイルまたは暗号化データの他の断片が後になって供給され、または代替的には指定された場合、ＤＳＲＤサービスは、その指定データ断片を暗号化するのに使われる最も有望な暗号化方式の１つまたは複数を識別するのに自動的に利用することができる。より一般的に言うと、コンテンツアイテムの第１のグループからの識別テーマは、対象範囲に関連する有効なソリューションのタイプでよく、その結果、それ以降のクエリは、１つまたは複数の対応する識別テーマが可能ソリューションとして自動決定される何らかのタイプの数学的または他の問題を課し得る。本記載技術は、他の様々なやり方でも同様に用いられ得ることが理解されよう。

図３は、関心領域に関連した関連性情報を決定するための技術の実施に適したシステムの実施形態例を示すブロック図である。具体的には、図３は、ＤＳＲＤシステム３４０、ならびに様々なユーザコンピューティングシステム３５０および他のコンピューティングシステム３６０、３７０、３８０の実施形態の実行に適したコンピューティングシステム３００を示す。図示した実施形態では、コンピューティングシステム３００は、ＣＰＵ３０５、様々なＩ／Ｏ構成要素３１０、ストレージ３２０、およびメモリ３３０を含む構成要素を有する。例示するＩ／Ｏ構成要素は、ディスプレイ３１１、ネットワーク接続３１２、コンピュータ可読メディアドライブ３１３、および他のＩ／Ｏ装置３１５（たとえば、キーボード、マウス、スピーカなど）を含む。さらに、例示するユーザコンピューティングシステム３５０は、ＣＰＵ３５１、Ｉ／Ｏ構成要素３５２、ストレージ３５４、およびメモリ３５７を含む、サーバコンピューティングシステム３００の構成要素と同様の構成要素を有するが、一部の詳細は図示していない（たとえば、特定のＩ／Ｏ構成要素）。他のコンピューティングシステム３６０、３７０、３８０もそれぞれ、コンピューティングシステム３００を参照して例示する構成要素の一部または全部と同様の構成要素を含み得るが、このような構成要素は、この例では簡潔にするために図示していない。

ＤＳＲＤシステム３４０は、たとえばＤＳＲＤサービスの実施形態を実現するために、メモリ３３０において実行中である。具体的には、ＤＳＲＤシステム３４０は、コンピューティングシステム３５０、３６０、３７０、３８０の一部または全部と、ネットワーク３９０を超えて（たとえば、インターネットおよび／またはワールドワイドウェブを介して、私設セルラーネットワークを介して、など）対話して、情報および要求を取得し、応答として情報を提供する。たとえば、この例におけるＤＳＲＤシステム３４０は、ユーザコンピューティングシステム３５０と対話中である様々なユーザ（図示せず）から要求、たとえば、ある領域に関する決定テーマについての要求検索結果および／または情報を提供するための要求を受け取り、それに従って応答する。さらに、ユーザコンピューティングシステム３５０の１つまたは複数は、ＤＳＲＤシステム３４０と対話して、他の箇所でより詳細に論じるように、ユーザ操作に関する様々なタイプのフィードバックを提供するなど、他の様々なタイプのアクションを実施することができる。他のコンピューティングシステム３５０が、ＤＳＲＤシステム３４０との対話の一部として様々なソフトウェアを実行中であってよい。たとえば、ユーザコンピューティングシステム３５０はそれぞれ、メモリ３５７内のウェブブラウザ３５８または他のソフトウェアを実行中であって、ＤＳＲＤシステム３４０と対話して、たとえばＤＳＲＤシステム３４０によって提供されるＤＳＲＤサービスのウェブベースのＧＵＩと対話している場合がある。

領域特定の関連性情報を決定するために、ＤＳＲＤシステム３４０は、領域特定ドキュメントまたは他のコンテンツを１つまたは複数のソースから取得し、その情報を分析して、領域特定の関連性情報を自動決定する。領域特定コンテンツのソースは、たとえばローカルストレージ３２０上の領域関連情報３２２、他のコンピューティングシステム３７０上の任意選択の領域情報３７５、１または複数のユーザによる分析のためにユーザコンピューティングシステム３５０および／または他のコンピューティングシステム３６０上の任意選択の他のシステム３６５から供給される情報などを任意選択で含むように、様々な実施形態において変わり得る。他のコンピューティングシステム３６０上の任意選択の他のシステム３６５および／またはメモリ３３０内で実行する任意選択の他のシステム３３５は、ＤＳＲＤシステム３４０から決定関連性情報を取得し、その取得情報を様々な用途に（たとえば、ユーザコンピューティングシステム３５０のユーザと対話するために）用いる系列サービス、および／またはＤＳＲＤシステムにコンテンツを分析用に提供するコンテンツ提供サービスなど、様々な実施形態において様々な形をもち得る。たとえば、ある特定の任意選択の他のシステム３６５は、領域情報を保有し、ＤＳＲＤシステム３４０に分析用に提供し、ＤＳＲＤシステム３４０から決定関連性情報結果を取得し使用することができるが、関連性情報の決定においてＤＳＲＤシステム３４０によって用いられる情報の少なくとも一部（たとえば、テキスト分析情報、生成ニューラルネットワークなど）は、コンピューティングシステム３００上に格納され、他のシステム３６５には提供されない。あるいは、他の実施形態では、ＤＳＲＤシステム３４０は、このような任意選択の他のどのサービスとも対話することなく、１つまたは複数の領域に関する決定関連性情報を生成し使用することができる。さらに、１つまたは複数の任意選択の他のサードパーティが、他のコンピューティングシステム３８０の１つまたは複数を使い、ＤＳＲＤサービスと他の様々なやり方で対話することができる。

１つまたは複数の関心領域に関連した情報３２２（たとえば、分析されるべき、または既に分析済みの領域特定コンテンツ）、領域特定コンテンツの分析の結果に関連した情報３２４（たとえば、特定の用語、テーマおよびドキュメントなどに関連した生成ニューラルネットワーク、決定スコアおよび他の情報など、領域特定関連性情報）、様々な領域特定情報および他のフィードバック情報とのユーザ対話についての情報を反映する情報３２６、ならびに様々なユーザ情報３２８（たとえば、嗜好）など、ＤＳＲＤシステム３４０の動作に関連した様々な情報は、ストレージ３２０または他の所に（たとえば、他の１つまたは複数のコンピューティングシステム３８０上にリモートに）格納することができる。他の実施形態では、ＤＳＲＤシステム３４０によって用いられ、または生成される情報の一部または全部は、他のコンピューティングシステム３８０上または他の記憶ノード／システム（図示せず）上など、他のやり方で格納することができる。ＤＳＲＤシステム３４０は、たとえば、ユーザとのＤＳＲＤシステム３４０の対話に基づく情報を生成することによって（たとえば、ユーザに決定関連性情報を提供するとき）、ユーザと対話し、ＤＳＲＤシステム３４０からの決定関連性情報をユーザに提供する任意選択の他のシステム３３５および／または３６５から、フィードバック情報を生成する目的でユーザと対話する１つまたは複数のシステムによってなど、様々なやり方でフィードバック情報３２６を取得することができる。

コンピューティングシステム３００、３５０、３６０、３７０、３８０は例示に過ぎず、本発明の範囲を限定することは意図していないことが理解されよう。コンピューティングシステムは代わりに、複数の対話コンピューティングシステムまたは装置をそれぞれ含んでもよく、コンピューティングシステムは、たとえば、インターネットなどの１つまたは複数のネットワークを介して、ウェブ経由で、または私設ネットワーク（たとえば、移動体通信ネットワークなど）経由で、図示していない他の装置に接続することもできる。より一般的に言うと、コンピューティングシステムは、記載するタイプの機能を対話し実施することができる、デスクトップまたは他のコンピュータ、データベースサーバ、ネットワーク記憶装置および他のネットワーク装置、ＰＤＡ、セル電話、無線電話および他の電話システム、ページャ、電子手帳、インターネット製品、（たとえば、セットトップボックスおよび／またはパーソナル／デジタル映像レコーダを用いる）テレビベースのシステム、ブロードキャストシステム、ならびに適切な任意の通信プロトコルを用いる適切な通信能力を含む他の様々な消費者製品を制限なしで含むハードウェアまたはソフトウェアのどの組合せも備え得る。さらに、例示するＤＳＲＤシステム３４０によって提供される機能は、一部の実施形態では、様々なモジュールに分散してよい。同様に、一部の実施形態では、ＤＳＲＤシステム３４０の機能の一部は提供されなくてよく、かつ／または他の追加機能が利用可能でよい。

様々なアイテムが、使用中にメモリまたはストレージに格納されるものとして例示されているが、こうしたアイテムまたはその一部は、メモリ管理目的およびデータ完全性のために、メモリと他の記憶装置との間でされ得ることも理解されよう。あるいは、他の実施形態では、ソフトウェアモジュールおよび／またはシステムの一部または全部は、別の装置上のメモリ内で実行し、例示するコンピューティングシステムとコンピュータ間通信により通信し得る。さらに、一部の実施形態では、システムおよび／またはモジュールの一部または全部は、少なくとも部分的には、１つまたは複数のＡＳＩＣ（特定用途向け集積回路）、標準集積回路、コントローラ（たとえば、適切な命令を実行し、マイクロコントローラおよび／または組込みコントローラを含むことによる）、ＦＰＧＡ（フィールドプログラム可能ゲートアレイ）、ＣＰＬＤ（複合プログラム可能論理素子）など、ならびにＲＦＩＤ技術を利用する装置を含むが、それに限定されないファームウェアおよび／またはハードウェアとしてなど、他のやり方で実装することも提供することもできる。モジュール、システムおよびデータ構造の一部または全部は、たとえば、１つまたは複数のこのようなコンピュータ可読媒体上に格納され、適切なリーダ装置によって可読である１つまたは複数のバーコードまたは他の関連コードとしてエンコードされた、適切なドライブによって、または適切な接続により読み取られるハードディスク、メモリ、ネットワーク、または可搬型メディア品などのコンピュータ可読媒体上に（たとえば、ソフトウェア命令や構造化データとして）格納することもできる。システム、モジュールおよびデータ構造は、無線ベースおよび有線／ケーブルベースの媒体を含み、様々な形をとり得る、またはより一般的に言うとどのコンピュータ可読媒体に載せても仲介され得る、様々なコンピュータ可読伝送媒体に載せて、生成データ信号として（たとえば、担体の一部として）伝送することもできる。このようなコンピュータプログラム製品は、他の実施形態では他の形もとり得る。したがって、本発明は、他のコンピュータシステム構成でも実施することができる。

図４は、ＤＳＲＤサービスルーチン４００の実施形態例のフロー図である。このルーチンは、たとえば、図１Ａ、１ＢのＤＳＲＤサービス１０５および／または図３のＤＳＲＤシステム３４０の実行によって、たとえば、関心領域に関連した関連性情報の決定、ならびにユーザまたは他の存在との対応する対話を管理するように提供することができる。図示した実施形態では、ルーチンは、１つまたは複数の関心領域についての情報を様々なときに分析して、たとえば、（たとえば、ＤＳＲＤサービスの人間オペレータによる命令に従って、サードパーティ実体による要求に従って、など）ある特定の領域についての情報を前処理して、少なくとも一部のタイプの領域特定の関連性情報を、このような情報に基づいて後の要求への応答に使用するために決定し、またはそうでなければ、少なくとも一部の状況ではユーザまたは他の存在からの要求に応答して少なくとも一部のタイプの領域特定の関連性情報を動的に生成する。

図示した実施形態では、ルーチンはブロック４０５で始まり、ここで、要求の指示または他の情報が受け取られる。ルーチンはブロック４１０に続き、指示領域に関する関連性に関する情報（関連性関連情報）を決定する要求が受け取られたかどうか、または分析されるべき領域特定のコンテンツが提供されたかどうか決定し、提供されている場合、ブロック４１５に続く。ブロック４１５〜４５０で、ルーチンは次いで、その領域に関する関連性関連情報を決定するために領域特定情報を分析し、その情報を後で使うために格納する。さらに、ブロック４１５〜４５０は、関心領域に関する関連性関連情報の初期決定を実施するものとして例示されているが、少なくとも一部の実施形態では、ブロック４１５〜４５０の一部または全部は同様に、予め決定された関連性情報を修正するように、たとえば予め決定された関連性情報をユーザフィードバックに基づいて改正するように、および／または予め決定された関連性情報を、新たに利用可能な領域特定コンテンツに基づいて拡張するように実施することができる。

具体的には、ルーチンはブロック４１５で、ドキュメントまたは分析されるべき領域に関する他の領域特定情報を、たとえば、現時点においてブロック４０５で受け取られているドキュメント、予め受け取られ、後で使うために格納されたドキュメント、ブロック４０５で受け取られた要求において指示される外部の場所から取り出されたドキュメントなどに基づいて取得する。ブロック４１５の後、ルーチンはブロック４２０に続き、領域分析マネージャルーチンを実施して、利用可能な領域特定コンテンツに関する用語情報を分析するが、このようなルーチンの一例は、図５を参照して図解する。ブロック４２０の後、ルーチンはブロック４３０に続き、関連テーマ決定マネージャルーチンを実施して、領域に関する関連テーマ関連情報を決定するが、このようなルーチンの一例は、図６を参照して図解する。ブロック４３０の後、ルーチンはブロック４４０に続き、関連ドキュメント決定マネージャルーチンを実施して、特定の用語およびテーマに関連する、その領域の特定のドキュメントを決定するが、このようなルーチンの一例は、図７を参照して図解する。ブロック４４０の後、ルーチンはブロック４５０に続き、決定関連性情報を格納し、かつ／または任意選択で、たとえば、情報が要求に応答して動的に決定され、または以前の要求を調節するように供給されている場合は、決定関連性情報を要求側に与える。

そうではなく、ブロック４１０で、別のタイプの要求または情報が受け取られたと決定された場合、ルーチンは、代わりにブロック４６０に続き、指示領域に関する決定した関連性情報を提供する要求が受け取られているかどうか決定する。このような決定した関連性情報は、たとえば、取り出し要求に応答して、または１つもしくは複数の関心テーマに関する情報を指定する際のユーザ支援の一部として、ならびに様々なやり方で（たとえば、ユーザのクライアント装置上での表示または他の提示のためにユーザに提供されるウェブページまたは他の情報スクリーンの一部として）、様々な理由で様々なときに提供することができる。ブロック４６０で、指示領域に関する決定関連性情報を提供するための要求が受け取られていると決定された場合、ルーチンはブロック４６５に続き、要求された関連性情報（要求関連性情報）が既に決定され、後でブロック４１５〜４５０で使うために格納されているかどうか、または要求関連性情報の一部もしくは全部が動的に生成されるべきかどうか決定する。他の実施形態では、このような決定は、このような要求に応答して提供される関連性情報が常に予め決定され、格納され、または常に動的に決定される場合などに行えばよい。図示した実施形態では、ブロック４６５で、格納された関連性情報を用いると決定された場合、ルーチンはブロック４７０に続き、予め決定され格納された情報から要求関連性情報を取得する。

さらに、ブロック４７０のアクションは、様々な実施形態において様々なやり方で実施することができる。たとえば、一部の実施形態では、少なくとも一部のタイプの決定関連性情報は、その情報を受け取ることが認められたユーザまたは他の存在のサブセットに対してのみ利用可能でよく、そうである場合、ブロック４６０〜４７５の１つまたは複数用のアクションは、要求側が要求情報を受け取ることを認められる（たとえば、情報への有料アクセスのための適切な料金を納めてある、機密要求情報を受け取ることを認められるものとして検証されるある特定の識別を有する、など）かどうか決定することをさらに含み得る。さらに、たとえば、電子メッセージに入れて、または系列サービスなどのＤＳＲＤサービスによって提供される１つもしくは複数のＡＰＩを用いるプログラムによる対話により、様々なやり方で要求を受け取ることができ、情報を提供することができる。あるいは、ウェブベースの要求が、（たとえば、ウェブベースの情報検索ＧＵＩまたはＤＳＲＤサービスもしくは他の系列サービスによって提供される他のＧＵＩに基づいて）ユーザから受け取られてよく、要求された情報は、要求に応答して送られる１つまたは複数の生成ウェブページの一部としてユーザに供給することができる。

そうではなく、ブロック４６５で、要求関連性情報の少なくとも一部を動的に取得すると決定された場合、ルーチンは、代わりにブロック４７５に続き、情報の動的な取得を実施する。具体的には、ルーチン例４００に図解するように、ブロック４７５の実施は、ブロック４２０〜４４０に対応する他のルーチンの１つまたは複数を実行すること、およびルーチンの結果得られた情報を取得することを含み得る。さらに、ここでは図示しないが、一部の実施形態では、ブロック４７５の実施は、たとえばブロック４１５の実施を開始することによって、分析されるべきドキュメントまたは他のコンテンツを取得することもさらに含んでよく、またはそうでなければこのような使われるべきコンテンツは、ブロック４０５で受け取り、ブロック４７５の実施の一部としてブロック４２０〜４４０に対応するルーチンの１つまたは複数に与えることができる。ブロック４７０または４７５の後、ルーチンはブロック４８０に続き、取得した情報をユーザまたは他の要求側に与えるが、これは、他の箇所でより詳細に論じるように、様々な実施形態において様々なやり方で実施することができる。さらに、ブロック４８０の実施は、少なくとも一部の状況では、たとえば、最初に何らかの情報を提供し、後で付加情報を提供し、またはユーザもしくは他の要求側との他の対話を、初期情報提供後にユーザもしくは他の要求側によってとられるアクションに基づいて実施するための、ユーザまたは他の要求側との複数の対話を伴い得ることが理解されよう。ブロック４７５の後、ルーチンはブロック４８０に続き、ユーザまたは他の要求側による、提供関連性情報の使用からフィードバックを任意選択で取得し、または決定し、そうである場合、例示した実施形態では、フィードバックを、予め決定された関連性情報を向上させるための学習アクションの実施において後で使うために保持し、他の実施形態では、そうではなくルーチンは、このようなどの取得フィードバックも、少なくとも一部の状況では、たとえばフィードバック情報を用いてブロック４２０〜４４０の１つまたは複数に対応するルーチンを実施し直すのに直ちに使う場合がある。

そうではなく、ブロック４６０で、指示領域に関する決定関連性情報を提供するための要求が受け取られていないと決定された場合、ルーチンは、代わりにブロック４９０に続き、必要に応じて他の１つまたは複数の指示操作を実施する。たとえば、分析されるべき新しい領域に関する情報および／または関連性情報が予め決定された領域に関する新規もしくは更新情報などの領域特定コンテンツが、ブロック４９０で受け取られ、後の分析のために格納され得る。あるいは、予め決定された関連性情報の使用に関連したフィードバック情報など、他のタイプの情報がブロック４９０で受け取られ、使われる場合があり、様々なやり方で使われ得る。たとえば、１つまたは複数の予め定義された基準が、（たとえば、取得される最小または最大量のフィードバック、対応する関連性情報の以前の決定からの最小または最大時間量などに基づいて）ブロック４９０で受け取られ、かつ／またはブロック４８５で格納されたフィードバックによって満足される場合、ブロック４９０の実施は、他の箇所でより詳細に記載するように、予め決定された関連性情報を学習し、更新するために、フィードバック情報を用いるブロック４２０〜４４０の１つまたは複数に対応するルーチンの追加実施をトリガーし得る。さらに、（たとえば、後続フィードバック情報、利用可能な後続追加領域特定コンテンツなどに基づいて）予め決定された関連性情報を更新するための要求など、ＤＳＲＤサービスと対話するユーザもしくは他の存在から、またはＤＳＲＤサービスの人間オペレータからの要求など、他のタイプの要求が、ブロック４９０で受け取られ、処理され得る。同様に、ＤＳＲＤサービスの人間オペレータからの様々な管理要求が受け取られ、処理され得る。

ブロック４５０、４８５または４９０の後、ルーチンはブロック４９５に続き、たとえば終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック４０５に戻り、そうでない場合、ブロック４９９に続き、終了する。

図５は、領域分析マネージャルーチン５００の実施形態例のフロー図である。このルーチンは、たとえば、図１ＡのＤＳＲＤサービス１０５の領域分析マネージャモジュール１１０および／または図３のＤＳＲＤシステム３４０のモジュールの実行によって、たとえば、特定のドキュメント中での、およびドキュメントすべてからなるグループに渡る特定の用語の使用を決定するために、ある領域に関する領域特定コンテンツを分析するように実施することができる。さらに、少なくとも一部の状況では、ルーチン５００は、図４のブロック４２０の実行に基づいて実施することができる。この例では、ルーチン５００は、ある領域に関する領域特定コンテンツの初期分析に関して実施されるが、他の実施形態では、他のドキュメントの先行分析が完了した後にある領域に対して利用可能になる追加ドキュメントの分析など、予め分析された情報を更新するように同様に実施することができる。さらに、他のルーチンの場合と同様に、ルーチン５００は、決定されたその情報を使用する前に、ならびにこのような情報を求める要求に動的に応答して、ある領域に関する用語分析情報を決定することができる。

ルーチンの図示した実施形態はブロック５０５で始まり、ここで、ある領域に関して分析されるべきドキュメントの指示または別の要求が受け取られる。ルーチンはブロック５１０に続き、分析されるべきドキュメントが受け取られたかどうか決定する。受け取られた場合、ルーチンはブロック５１５に続き、ドキュメントそれぞれを分析して、ドキュメントに存在する用語を決定する。さらに、他の箇所でより詳細に論じるように、ドキュメントに対する用語の決定は、（たとえば、関連用語を組み合わせるための用語語幹処理を用いる）用語の標準化、共通用語（たとえば、「ｔｈｅ」、「ａ」、「ａｎ」、「ｏｆ」、「ａｎｄ」など）または他の指示用語の削除、後で分析するための複数の単語の単一用語への集約、ドキュメント中の用語の索引の生成など、様々な実施形態における様々なタイプの用語処理を含み得る。ブロック５１５の後、ルーチンはブロック５２０に続き、各ドキュメントの用語に対する用語出現頻度決定を実施し、ブロック５３０で、ドキュメントすべてに渡る各用語に対するドキュメント頻度逆数決定を実施する。ブロック５４０で、ルーチンは次いで、ブロック５２０、５３０で生成された情報に基づいて、各用語およびドキュメント結合に対するＴＦ−ＩＤＦスコアを決定する。ブロック５４０の後、ルーチンはブロック５６０に続き、決定された情報を後で使うために格納し、任意選択で、決定された情報を出力として（たとえば、図４のブロック４７５に関して、決定情報を求めるルーチン５００の動的呼出しへの応答として、または、たとえば図４のブロック４３０および／もしくは４４０に対応する、図６の関連テーマ決定マネージャルーチン６００および／もしくは図７の関連ドキュメント決定マネージャルーチン７００によって使用するために）提供する。

そうではなく、ブロック５１０で、その分析されるべきドキュメントが受け取られていないと決定された場合、ルーチンは、代わりにブロック５８５に続き、他の１つまたは複数の指示操作を必要に応じて実施する。たとえば、他の動作は、予め生成されたドキュメント用語分析情報を求める要求、予め決定されたドキュメント分析情報を、利用可能な新しい領域特定コンテンツを反映するように更新するための要求、ＤＳＲＤサービスの人間オペレータからの管理要求などの受取りおよび応答を含み得る。

ブロック５６０または５８５の後、ルーチンはブロック５９５に続き、たとえば、終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック５０５に戻り、そうでない場合、ブロック５９９に続き、終了する。

図６は、関連テーマ決定マネージャルーチン６００の実施形態例のフロー図である。このルーチンは、たとえば、図１Ａの関連テーマ決定マネージャモジュール１３０および／または図３のＤＳＲＤシステム３４０のモジュールの実行によって、たとえば、ある領域のドキュメントに関するドキュメント用語分析情報を用いて、その領域に関する用語と可能テーマとの間の関係を決定するように実施することができる。ルーチン６００は、たとえば、図４のブロック４３０の実行によって、またはそれ以外のやり方で開始することができる。さらに、図示したルーチンの実施形態は、ある領域に関する関連テーマ関連情報の初期決定を記述するとともに、予め決定されたテーマ関連関連性情報を、その領域に関する可能テーマについての後続フィードバックおよび／または他の情報を反映するように更新する。さらに、他のルーチンの場合と同様に、ルーチン６００は、その決定関連性情報を使用する前に、ならびにこのような情報を求める要求に動的に応答して、ある領域に関するテーマ関連関連性情報を決定することができる。

さらに、図示した実施形態では、図６における、ある領域に関するテーマ関連関連性情報の決定は、図７における領域に関するドキュメント関連関連性情報の決定とは別に実施されるものとして例示されるが、他の実施形態では、このようなタイプの関連性情報の決定は、他のやり方で実施することができる。たとえば、テーマ関連関連性情報およびドキュメント関連関連性情報の一方のみが、特定の実施形態では決定されてよく、ある領域に関するテーマ関連およびドキュメント関連関連性情報両方の決定が、単一ルーチンの一部としてまとめて実施されてよく、両方のタイプの決定に共通の情報が、一度に実施され、次いで、２つの別個のルーチンの間で共有されてよい。

図示したルーチンの実施形態はブロック６０５で始まり、ここで、ある領域のドキュメントに関するドキュメント用語分析情報が、（たとえば、図５のルーチン５００の出力として、動的決定要求の一部として供給される情報として、など）受け取られ、または別の要求が受け取られる。ルーチンはブロック６１０に続き、ドキュメント用語分析情報が受け取られたかどうか決定し、受け取られた場合、ブロック６１５に続く。図示した実施形態では、ブロック６１５〜６５０は、関心ある領域の１つまたは複数の用語からなる各グループに関するテーマ関連情報を決定するために実施される。分析されるべき用語は、たとえば、ドキュメントのいずれかに存在する各用語を使う（任意選択で、共通用語および／または他の指示用語を除外する）ことによって選択することができる。あるいは、分析されるべき用語のグループは、たとえば、その領域のドキュメントに存在する２つの用語または別の指示量の用語の各組合せ、互いに十分に関連し得る（たとえば、指定された閾値を上回る）と決定される２つの用語または別の指示量の用語の各組合せなどを含み得る。さらに、ブロック６１５〜６５０は、複数の用語の相互関係についての情報を評価し、改正するために、繰り返し実施することができ、たとえば、最初に各用語個々に対してブロック６１５〜６５０を実施し、次に２つの用語からなる少なくとも何らかの組合せに対する決定を（たとえば、こうした用語に対して個々にブロック６１５〜６５０の実施から利用可能な情報に基づいて）実施し、次に３つの用語からなる少なくとも何らかの組合せに対する決定を（たとえば、２つの用語からなる予め選択された組合せに十分に関連した特定の用語に対するブロック６１５〜６５０の実施から利用可能な情報に基づいて）実施する、などのようになる。

具体的には、図示した実施形態では、ルーチンはブロック６１５で、検討されるべき１つまたは複数の用語からなる次のグループを選択し、第１のこのようなグループで始め、ブロック６２０で、検討されるべき領域の次のドキュメントを同様に選択し、第１のドキュメントで始める。ブロック６２５で、ルーチンは次いで、選択ドキュメントへの選択用語（群）の正規化平均関連性を、たとえば、選択ドキュメントに対する各選択用語の標準化ＴＦ−ＩＤＦスコアの平均化または代替的には集約化に基づいて決定する。ブロック６３５で、ルーチンは次いで、分析されるべきドキュメントがまだあるかどうか決定し、ある場合はブロック６２０に戻る。ない場合、ルーチンはブロック６４０に続き、現在選択されている用語（群）に対する最関連ドキュメントを、ブロック６２５で決定された関連スコアに基づいて決定する。次に、ブロック６４５で、ルーチンは、決定された最関連ドキュメントの１つまたは複数を識別し、識別ドキュメントを使って、選択用語（群）に最も関連し得る他の用語を、たとえば、識別ドキュメント（群）中の他の用語の用語出現頻度または識別ドキュメント（群）への他の用語の他の関連性指示に基づいて決定する。

さらに、一部の実施形態では、選択用語（群）に最も関連すると決定された他の用語は、任意選択で、テーマとして使用する可能性があるために、および／またはこうした用語の組合せグループに対するブロック６１５〜６５０に関して後で起こり得る分析のために、選択用語（群）の１つまたは複数と組み合わせて、任意選択で、その用語の組合せグループに関連し得る他の追加用語を見つけることができる。このような、他の追加用語と現在選択されている用語との可能な関係の継続分析は、様々なやり方で、たとえば、選択用語のグループを個々に、他の最関連用語それぞれと、他の最関連用語すべてと、他の最関連用語の一部または全部からなる副次的組合せなどと組み合わせることによって実施することができる。あるいは、他の実施形態では、他の最関連用語の一部もしくは全部は、選択用語の一部もしくは全部と組み合わせて、可能テーマを他のやり方で識別することができ、かつ／またはユーザによる用語の一括使用から得た後のフィードバックが、どの用語グループが、領域に関するテーマとしてまとめて関連するかを絞り込むのに使われ得る。

ブロック６４５の後、ルーチンはブロック６５０に続き、検討するべき１つまたは複数の用語からなるグループがまだあるかどうか決定し、ある場合はブロック６１５に戻る。ない場合、ルーチンはブロック６６０に続き、図示した実施形態では、領域における用語の、領域における他の用語への関連性を、たとえば、ブロック６２５、６４０、６４５に関して生成された情報に部分的に基づいて反映するようにニューラルネットワークを生成する。ブロック６８０を参照して論じるように、このような生成ニューラルネットワークは後で、フィードバックに基づいて、領域に関する特定の用語の相互関係の決定を絞り込むように更新することもできる。ブロック６６０の後、ルーチンはブロック６７０に続き、決定関連テーマ関連情報および生成ニューラルネットワークを格納し、任意選択で、決定情報の一部または全部を、適切な場合は出力として（たとえば、その情報を動的に生成するための要求への応答として）提供する。

そうではなく、ブロック６１０で、ドキュメント用語分析情報が受け取られないと決定された場合、ルーチンは、代わりにブロック６７５に続き、たとえば、予め決定され提供された関連性情報の使用に基づいて、フィードバック情報が受け取られ、または決定可能であるか決定する。そうである場合、ルーチンはブロック６８０に続き、フィードバック情報を用いて、他の箇所でより詳細に論じるように、フィードバックに対応する予め生成されたニューラルネットワークを更新する。ブロック６８０の実施は、更新ニューラルネットワーク情報をさらに格納し、任意選択で、更新情報を要求側にルーチンの出力として提供する。そうではなく、ブロック６７５で、フィードバック情報が受け取られないと決定された場合、ルーチンは、代わりにブロック６８５に続き、他の１つまたは複数の指示操作を必要に応じて実施する。たとえば、このような他の指示操作は、領域に関する予め決定されたテーマ関連情報（たとえば、ニューラルネットワークが更新された後などの、領域に関するある特定の予め生成されたニューラルネットワークの現在のバージョンから得たテーマ関連情報）を供給するための要求を受け取ること、領域に関する決定テーマ関連情報を絞り込む際に後で使うためのユーザフィードバック情報（たとえば、テーマを表すためにまとめて選択される特定の用語グループ）を受け取ること、（たとえば、領域に関して利用可能なユーザフィードバックおよび／または追加領域特定コンテンツに基づいて）ユーザもしくは他の存在または他の人間オペレータから、予め決定されたテーマ関連情報への更新を実施するための要求を受け取ること、ＤＳＲＤサービスの人間オペレータからの他の管理要求を受け取ることなどを含み得る。後で使うために受け取られるフィードバック情報は、様々なやり方で扱うことができる。たとえば、予め定義された１つまたは複数の基準が、（たとえば、取得される最小または最大フィードバック量、対応する関連性情報の以前の決定から経過した最小または最大時間量などに基づいて）フィードバックで満足される場合、ブロック６８５の実施は、そのフィードバック情報がブロック６８０で使用するために供給されるルーチン６００の後続実施をトリガーし得る。

ブロック６７０、６８０または６８５の後、ルーチンはブロック６９５に続き、たとえば、終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック６０５に戻り、そうでない場合はブロック６９９に続き、終了する。

図７は、関連ドキュメント決定マネージャルーチン７００の実施形態例のフロー図である。このルーチンは、たとえば、図１Ａの関連ドキュメント決定マネージャモジュール１２０および／または図３のＤＳＲＤシステム３４０のモジュールの実行によって、たとえば領域のドキュメントに関するドキュメント用語分析情報を用いて、領域に関する用語とドキュメントとの間の関係を決定するように実施され得る。ルーチン７００は、たとえば、図４のブロック４４０の実行によって、またはそれ以外のやり方で開始することができる。さらに、ルーチンの図示した実施形態は、領域に関する関連ドキュメント関連情報の初期決定を記述するとともに、予め決定されたドキュメント関連関連性情報を、後続フィードバックおよび／または領域に関するドキュメントについての他の情報を反映するように更新する。さらに、他のルーチンの場合と同様に、ルーチン７００は、その決定関連性情報を使用する前に、ならびにこのような情報を求める要求に動的に応答して、領域に関するドキュメント関連関連性情報を決定することができる。

図示したルーチンの実施形態はブロック７０５で始まり、ここで、ある領域のドキュメントに関するドキュメント用語分析情報が、（たとえば、図５のルーチン５００の出力として、動的決定要求の一部として供給される情報として、など）受け取られ、または別の要求が受け取られる。ルーチンはブロック７１０に続き、ドキュメント用語分析情報が受け取られたかどうか決定し、受け取られた場合はブロック７１５に続く。図示した実施形態では、ブロック７１５〜７４５は、たとえば、図６のブロック６１５〜６５０と同様に、関心領域の１つまたは複数の用語からなる各グループに関するドキュメント関連情報を決定するために実施される。分析されるべき用語は、たとえば、ドキュメントのいずれにも存在する各用語を使って（任意選択で、共通用語および／もしくは他の指示用語を除外して）、または図６を参照してより詳細に記載した他のやり方で選択することができる。

具体的には、図示した実施形態では、ルーチンは、ブロック７１５で、検討されるべき１つまたは複数の用語からなる次のグループを選択し、第１のこのようなグループで始め、ブロック７２０で、検討されるべき領域の次のドキュメントを同様に選択し、第１のドキュメントで始める。ブロック７２５で、ルーチンは次いで、選択ドキュメントへの選択用語（群）の正規化平均関連性を、たとえば、選択ドキュメントに対する各選択用語の標準化ＴＦ−ＩＤＦスコアの平均化または代替的には集約化に基づいて決定する。ブロック７３５で、ルーチンは次いで、分析されるべきドキュメントがまだあるかどうか決定し、ある場合はブロック７２０に戻る。ない場合、ルーチンはブロック７４０に続き、現在選択されている用語（群）に対する最関連ドキュメントを、ブロック７２５で決定された関連スコアに基づいて決定する。次に、ブロック７４５で、ルーチンは、検討するべき１つまたは複数の用語からなるグループがまだあるかどうか決定し、ある場合はブロック７１５に戻る。

グループがそれ以上ない場合、ルーチンはブロック７５０に続き、図示した実施形態では、たとえば、ブロック７２５、７４０に関して生成された情報に部分的に基づいて、領域における用語の、領域におけるドキュメントへの関連性を反映するようにニューラルネットワークを生成する。ブロック７８０を参照して論じるように、このような生成ニューラルネットワークは後で、領域に関する特定の用語の、領域の特定のドキュメントとの関連性の決定を絞り込むように、フィードバックに基づいて更新することもできる。ブロック７５０の後、ルーチンはブロック７５５に続き、決定関連ドキュメント関連情報および生成ニューラルネットワークを格納し、任意選択で、決定情報の一部または全部を、適切な場合は出力として（たとえば、その情報を動的に生成するための要求への応答として）与える。

そうではなく、ブロック７１０で、ドキュメント用語分析情報が受け取られないと決定された場合、ルーチンは、代わりにブロック７７５に続き、たとえば、予め決定され提供された関連性情報の使用に基づいて、フィードバック情報が受け取られ、または決定可能であるか決定する。そうである場合、ルーチンはブロック７８０に続き、フィードバック情報を用いて、他の箇所でより詳細に論じるように、フィードバックに対応する予め生成されたニューラルネットワークを更新する。ブロック７８０の実施は、更新ニューラルネットワーク情報をさらに格納し、任意選択で、更新情報を要求側にルーチンの出力として提供する。そうではなく、ブロック７７５で、フィードバック情報が受け取られないと決定された場合、ルーチンは、代わりにブロック７８５に続き、他の１つまたは複数の指示操作を必要に応じて実施する。たとえば、このような他の指示操作は、領域に関する予め決定されたドキュメント関連情報（たとえば、ニューラルネットワークが更新された後などの、領域に関するある特定の予め生成されたニューラルネットワークの現在のバージョンから得たドキュメント関連情報）を供給するための要求を受け取ること、領域に関する決定ドキュメント関連情報を絞り込む際に後で使うためのユーザフィードバック情報（たとえば、指定されたテーマまたは他の用語グループに対応する、使用するために選択される特定のドキュメント）を受け取ること、（たとえば、領域に関して利用可能なユーザフィードバックおよび／または追加領域特定コンテンツに基づいて）ユーザもしくは他の存在または他の人間オペレータから、予め決定されたドキュメント関連情報への更新を実施するための要求を受け取ること、ＤＳＲＤサービスの人間オペレータからの他の管理要求を受け取ることなどを含み得る。後で使うために受け取られるフィードバック情報は、様々なやり方で扱うことができる。たとえば、予め定義された１つまたは複数の基準が、（たとえば、取得される最小または最大フィードバック量、対応する関連性情報の以前の決定から経過した最小または最大時間量などに基づいて）フィードバックで満足される場合、ブロック７８５の実施は、そのフィードバック情報がブロック７８０で使用するために供給されるルーチン７００の後続実施をトリガーし得る。

ブロック７５５、７８０または７８５の後、ルーチンはブロック７９５に続き、たとえば、終わらせるための明示的指示が受け取られるまで続けるかどうか決定する。続けるべきと決定された場合、ルーチンはブロック７０５に戻り、そうでない場合はブロック７９９に続き、終了する。

一部の実施形態では、上で論じたルーチンによって提供される機能は、たとえば、より多くのルーチンに分けられ、またはより少ないルーチンに統合されて代替的に提供され得ることが理解されよう。同様に、一部の実施形態では、例示したルーチンは、たとえば、他の例示ルーチンがそれぞれこのような機能を欠き、もしくは含むとき、または提供される機能の量が変更されたときは、記載よりも多い機能も少ない機能も提供し得る。さらに、様々な動作が、ある特定のやり方で（たとえば、直列もしくは並列に）および／またはある特定の順序で実施されるものとして例示され得るが、他の実施形態では、他の順序および他のやり方で動作が実施され得ることが当業者には理解されよう。上で論じたデータ構造は、たとえば、単一データ構造を複数のデータ構造に分けさせることによって、または複数のデータ構造を単一データ構造に統合させることによって、異なるやり方で構築され得ることも当業者には理解されよう。同様に、一部の実施形態では、例示したデータ構造は、たとえば、他の例示データ構造がこのような情報をそれぞれ欠き、もしくは含むとき、または格納情報の量もしくはタイプが変更されたときは、記載よりも多くの情報または少ない情報を格納し得る。

上記から、本明細書において説明のために具体的な実施形態が記載されたが、本発明の精神および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、本発明は、指定請求項およびそこで列挙される要素以外によって限定されるものではない。さらに、特定の本発明の態様が、特定の請求項の形で提示される場合があるが、本発明者は、本発明の様々な態様を、利用可能などの請求項の形でも企図している。たとえば、ある特定の場合には、本発明の一部の態様のみが、コンピュータ可読媒体で実施されるものとして列挙されている場合があるが、他の態様も同様にそのように実施することができる。

Claims

１つまたは複数のプロセッサと、
関連性決定システムとを備え、
前記関連性決定システムは、前記１つまたは複数のプロセッサの少なくとも１つによって実行されると、
コンテンツ中の複数のテーマを識別するために、複数の関連コンテンツアイテムの前記コンテンツを自動分析することであって、前記識別された複数のテーマの少なくとも一部はそれぞれ、複数の用語を含み、前記少なくとも一部のテーマの１つまたは複数それぞれの前記識別は、前記テーマに含まれる前記複数の用語の、互いとの関連性を自動的に評価することを含む、こと、
第１のユーザによる、少なくとも１つの関心あるテーマの特定を容易にするために、前記少なくとも一部の識別テーマの１つまたは複数に関連した情報を提供すること、および
前記第１のユーザによって指定された前記少なくとも１つの関心あるテーマの指示を受け取った後、前記第１のユーザによって使用するための、前記指定された少なくとも１つの関心あるテーマに関連した情報を提供すること
によって、識別テーマに関連した決定関連性についての情報を提供するように構成されている
ことを特徴とする識別テーマに関連した決定関連性についての情報を提供するように構成されたコンピューティングシステム。
前記１つまたは複数のテーマに関連した前記情報の前記提供は、前記指定された少なくとも１つの関心あるテーマを前記第１のユーザがその中から選択する複数のテーマについての情報を前記第１のユーザに提供することを含むことを特徴とする請求項１に記載のコンピューティングシステム。
前記関連性決定システムは、前記少なくとも１つのプロセッサによって実行するためのソフトウェア命令を含むことを特徴とする請求項１に記載のコンピューティングシステム。
前記関連性決定システムは、
コンテンツ中の複数のテーマを識別するために、複数の関連コンテンツアイテムの前記コンテンツを自動分析することであって、前記識別された複数のテーマの少なくとも一部はそれぞれ、複数の用語を含み、前記少なくとも一部のテーマの１つまたは複数それぞれの前記識別は、前記テーマに含まれる前記複数の用語の、互いとの関連性を自動的に評価することを含む、こと、
第１のユーザによる、少なくとも１つの関心あるテーマの特定を容易にするために、前記少なくとも一部の識別テーマの１つまたは複数に関連した情報を提供すること、および前記第１のユーザによって指定された前記少なくとも１つの関心あるテーマの指示を受け取った後、前記第１のユーザによって使用するための、前記指定された少なくとも１つの関心あるテーマに関連した情報を提供すること
によって、識別テーマに関連した決定関連性についての情報を提供する手段からなることを特徴とする請求項１に記載のコンピューティングシステム。