本明細書において、関心領域とも呼ばれる、関心のあるトピックおよび主題分野に関係する関連性情報を判定して、および使用するための技術を記述する。少なくともある実施形態では、これらの技術は、1つまたは複数の関心関連領域に関する文書および他のコンテンツ項目を自動的に分析し、特定の用語に関連するコンテンツを有するコンテンツ項目を判定することと同様に、特定の用語間の関係を判定するなど、その領域内の関連用語に関する情報を自動的に判定することを含む。(1つまたは複数の)領域に関する、このような自動的に判定された関連性情報を、次いで、ユーザが、それらのユーザにとって肯定的関心があると考えられる情報(例えば、ユーザ特有の用語、および/もしくはそれらのユーザ特有の用語に十分関係すると判定される他の用語に関連するコンテンツを有するコンテンツ項目)を取得するのを支援すること、ならびに/またはユーザが、それらのユーザにとって否定的関心があると考えられる情報を回避するのを支援することを含めて、様々な方式で使用することができる。例えば、少なくともある実施形態では、1つもしくは複数用語、および/またはユーザに特定の他の情報に関する、ユーザの特定の選好(preference)に関する情報を使用し、ユーザ特有の勧告または他の推奨をそのユーザに提供することにおいて使用するなど、他の特定の用語も、そのユーザにとって関心があり得る確率を自動的に判定することができるように、(1つもしくは複数の)領域に関する、この自動的に判定された関連性情報を使用し、ベイジアンネットワークまたは特定の用語間の関係の他の確率表示を生成することができる。以下でより詳細に議論されるように、用語、選好、およびコンテンツ項目は、様々な実施形態において、様々な方式を有することができる。さらに、少なくともいくつかの状況では、これらの技術を、関心領域に関係する関連性情報を自動的に判定し、および/またはこのような判定された関連性情報を使用する、コンピュータで実施される領域特定の関連性判定(Domain-Specific Relevance Determination)(DSRD)サービスの一実施形態と共に使用し、以下でより詳細に記述されるように、ユーザ特有の勧告もしくは特定のユーザにとって関心がある可能性がある、他の情報の推奨を提供することができる。
少なくともある実施形態では、記述される技術は、関心領域に関する文書および/または他のコンテンツ項目を自動的に分析することを含み、特定の用語間の関連関係を判定するため(例えば、その領域内の多用語テーマを判定するために、またはより一般的には、それぞれが、1つもしくは複数の用語を含むことができる、またはそうでない場合、1つもしくは複数の用語と関連付けられることができる、その領域内の概念を判定するため)など、その領域内の関連用語に関する情報を自動的に判定する。少なくともある実施形態では、用語間の関係を、少なくとも一部、関心領域に関係するコンテンツ項目内の様々な用語の使用に基づいて、自動的に判定することができ、および様々なコンテンツ項目の分析は、特定の用語に対する特定のコンテンツ項目のコンテンツに関係するインデックスを生成することを含むことができる。様々な以下の議論は、「文書」であるとしてコンテンツ項目を参照するが、記述される技術を、例えば、テキスト文書(例えば、Webページ、ワード処理文書、スライドショーおよび他のプレゼンテーション、電子メールおよび他の電子メッセージなど)、画像、ビデオファイル、音声ファイル、ソフトウェアコード、ファームウェアおよび他のロジック、それぞれが遺伝情報の1つまたは複数のシーケンスを伴う遺伝コード、他の生物学的データなどを含めて、様々なタイプのコンテンツ項目と共に使用することができることを理解されよう。さらに、これらのコンテンツ項目は、文書の断片、あるいはより大きな文書または他のコンテンツ項目の他の断片もしくは部分を含む、1つもしくは複数のファイルタイプまたは他のデータ構造(例えば、ストリーミングデータ)のものであってよく、およびこのようなコンテンツ項目のコンテンツは、テキストおよび/または様々な他のタイプのデータ(例えば、音声情報の2進符号化、ビデオ情報の2進符号化、画像情報の2進符号化、物理的特性の測定値、数学方程式および数学データ構造、他のタイプの英数字データ構造および/または記号データ構造、暗号化データなど)を含むことができる。したがって、コンテンツ項目のコンテンツ内に含まれた用語、またはそうでない場合、コンテンツ項目に関連する用語は、様々な実施形態において、個々のテキスト語、複数のテキスト語の組合せ(例えば、多用語語句。例えば、主題、目的語、および主語と目的語との間の選好関係を含む、語義の3つの組など、定義された関係における複数の語のタプルなど)を含めて様々な方式を有することができ、または、ある実施形態では、他のところでより詳細に議論されるように、それらのコンテンツ項目のコンテンツの一部であるか、またはそうでない場合、それらのコンテンツ項目に関連する、任意の他のタイプの認識可能なデータ、特徴、プロパティ、もしく他の属性を含めて様々な方式を有することができる。さらに、以下の議論のうちの少なくともいくつかでは、特定の関係が、(例えば、1つもしくは複数の関連用語を有する第1の概念に関するか、またはそうでない場合、複数の他の用語の指定された文字列もしくは他の組合せからなる第1の多語テーマまたは第1の集約用語に関する)1つもしくは複数の第1の用語の第1のグループと、(例えば、1つもしくは複数の関連用語を有する第2の概念に関するか、またはそうでない場合、第2のテーマもしくは第2の集約用語に関する)1つまたは複数の第2の用語の第2のグループとの間のものであり得るように、他の指示がない限り、1つまたは複数の用語のグループを網羅することが意図される用語間の関係が一般に参照される。加えて、以下でより詳細に記述されるように、ある実施形態では、これらの記述された技術は、ユーザの既知の選好を反映する1つまたは複数の用語を識別することと、および少なくとも一部が、既知の選好用語と考えられる追加の用語選好との間の関係に基づいてなど、明示的に識別されていない、ユーザの追加の選好を反映する追加用語を識別することを自動的に試みることとを含む。このような、既知の選好用語および/または考えられる追加の用語選好は、様々な実施形態において、様々な方式を有してよく(例えば、上で述べたように、用語は、それらの関心コンテンツの一部であるか、またはそうでない場合、そのコンテンツに関連する任意のタイプの認識可能なデータ、特徴、プロパティ、もしくは他の属性を反映することができる)、特定の用語に関する肯定的関心(例えば、肯定的選好)および/または特定の用語に対する否定的関心(例えば、否定的選好)を反映することができる。さらに、ユーザの既知の選好は、肯定的関心または否定的関心があるとして、ユーザによって明示的に識別された用語を含むことができるだけでなく、ある実施形態では、それに関して、(例えば、特定の用語を検索すること、もしくはそうでない場合、特定の用語を選択することなど、ユーザの動作に基づいて)、ある肯定的関心または否定的関心が特定のユーザに関して推定されることができる用語を含むこともできるか、またはより一般的には、特定のユーザに関して既知の任意の情報、もしくはそうでない場合、特定のユーザに関連する任意の情報(例えば年齢、性別、ジェンダーなど、ユーザに関する人口学的情報、またはユーザの業績もしくは活動など)を含むこともできる。
少なくともある実施形態では、DSRDサービスの一実施形態によって、領域特有の複数の文書のグループを選択し、および自動的に分析する。この文書のグループは、例えば、特定の領域に関するすべての利用可能な文書を含む集成であってよく、またはその領域を表すのに十分な文書を含む集成であってもよい。加えて、分析されることになる文書を、1つまたは複数の領域特有の包括的情報を含むWebサイト(例えば、野球に関する包括的情報を含む仮定に基づいた「all−baseball−now.com」Webサイト、様々なスポーツに関する様々な情報を含む「espn.com」Webサイト、様々な映画およびテレビ番組に関する様々な情報を含む「imdb.com」Webサイト、「wikipedia.org」におけるWikipedia(登録商標)百科事典Webサイトおよび「commons.wikipedia.org」におけるWikipedia CommonsメディアコレクションWebサイト、ならびに多数の領域に関する様々な情報を含む「wikinews.org」におけるWikinewsニュースソースWebサイトなど)からなど、1つまたは複数のソースから取得することできる。ある実施形態では、これらの文書のそれぞれは、少なくとも一部、分析されたテキスト情報であるコンテンツを有する。
領域に関する文書の自動化された分析は、それらの文書のコンテンツを分析することを含み、少なくともある実施形態において、データ検索技術または他の技術を使用することによってなど、その領域に関連するテーマまたは他の概念を識別するある実施形態を含めて、その領域に関連する用語間の関係を判定することができる。例えば、分析されている文書が野球領域に関係する場合、用語は、特定の選手、特定のチーム、特定のリーグ(例えば、大リーグ野球、1部大学野球など)、特定の事象もしくは状況(例えば、特定の年度のオールスターゲームもしくはワールドシリーズ、ステロイド使用の議論など)、特定のシーズン、特定の記録(例えば、累積ホームラン記録)などに特有とすることができる。さらに、用語間の関係は、所与のチームの複数の選手に対応する関係、過去の対立関係を有する複数のチームに対応する関係、特定の事象もしくは記録に関連する特定の選手またはチームに対応する関係を識別するためになど、少なくともいくつかのこのような情報を反映することができる。
少なくともある実施形態では、関連する用語を識別するための、領域に関する文書の自動化された分析は、それらの文書を索引付けし、それらの文書のそれぞれの中にどんな用語が存在するかを判定することと、および、次いで、それらの文書に対するいくつかのまたはすべてのこのような用語の重要性を分析することとを含む。例えば、少なくともある実施形態では、その文書に対するその文書内のそれぞれの用語の関連性の程度の初めの判定は、用語頻度−逆文書頻度(term frequency-inverse document frequency)(「TF−IDF」)分析を使用することによってなど、その文書のコンテンツに対するその用語の特殊性に基づいて行われる。加えて、以下でより詳細に議論されるように、文書のグループの全体にわたって使用される、1つまたは複数の関連用語の組合せを選択し、最も関連する用語および/もしくは用語間の関係に関してなど、その領域のテーマまたは他の概念を表すことができ、および1つもしくは複数の文書に対するテーマまたは概念に関する1つもしくは複数の関連用語の関連性の判定された程度を使用し、テーマまたは概念に対する1つもしくは複数の文書の関連性の程度を判定することができる。以下のある実施例およびある実施形態は、様々な方式で多用語テーマの使用を議論するが、このような議論は、他のところでより詳細に議論されるように、1つまたは複数の関連用語を有する、判定された概念の使用に同様に適用することを理解されよう。さらに、他でより詳細に議論されるように、文書もしくは他のコンテンツ項目に関連し、および分析される用語または他の情報は、ある実施形態では、コンテンツ項目に関連するメタデータおよび/またはそのコンテンツ項目が対応する1人もしくは複数のユーザに関連する情報など、コンテンツ項目のコンテンツ内に含まれない情報を含めて、他のタイプの情報を含むことができる。
加えて、ある実施形態では、関連する用語を識別するための、領域に関する文書の自動化された分析は、TF−IDF分析もしくは類似の技術を使用することの代わりであろうと、またはTF−IDF分析もしくは類似の技術を使用することに加えてであろうと、1つもしくは複数の他の技術を含み、それらの文書コンテンツに対する文書内のそれぞれの用語の関連性の程度を判定することができる。例えば、1つもしくは複数の文書のコンテンツの自動化された分析は、ある実施形態では、統計的分析を実行し、統計的な外れ値(例えば、他の用語と比べて、高い信号対雑音比を有すると見なされる可能性がある用語)を識別するために、またはそうでない場合、他の用語と比べて、関連する用語を識別するためになど、(例えば、その領域内の他の文書、その領域を表すために使用されるコンテンツの基線セットなど)他のコンテンツと比べて、その1つもしくは複数の文書のコンテンツ内において特徴的である用語を識別することを含むことができる。加えて、(例えば、現在のニュースまたは他の最近利用可能な情報を反映するためなどで、利用可能になっている新しい文書に基づいて)領域に関する文書が変更している状況において、変更している文書の自動化された分析を使用し、ある実施形態において、新しく関連する用語(例えば、変更している文書内に導入された新しい関連する用語、変更している文書内でその関連性が強まっている既存用語など)を識別することができる。このような新しく関連する用語は、ある状況では、関心のある「注目の話題」を反映することができ、およびこのような新しく関連する用語を識別するために使用される変更している文書は、様々な実施形態において、様々な方式(例えば、ニュースフィード、ソーシャルネットワーキングサイトページ、ブログ投稿、Twitter(登録商標)など、選択情報を共有しているシステムなど)を有してよい。さらに、以下でより詳細に議論されるように、特定の用語が(例えば、新しく関連する用語に対して)関連しているとして識別されたとき、これらの記述される技術は、このような特定の用語が関連する特定のユーザを識別して、および(例えば、その識別されたコンテンツのそれらの特定のユーザに勧告を推奨すること、またはそうでない場合、当該勧告を提供することによって、それらの特定のユーザからの要求に応答して、それらの特定のユーザに提供される情報の一部として、その識別されたコンテンツを含めることによってなど)それらの特定のユーザに対してそれらの特定の用語が関係しているとして識別される文書または他のコンテンツを提供することができる。特定の用語が関連する特定のユーザの識別は、様々な実施形態において、その既知の選好がそれらの特定の用語を含む特定のユーザを識別することによって、1人または複数のユーザ(例えば、すべてのユーザ)の既知のユーザ選好に関する情報を分析し、それらの特定の用語が、それらのユーザの知られていないユーザ選好を反映する追加用語である可能性を判定することによってなど、様々な方式で実行することができる。
上で述べられたように、文書用語分析情報の生成を、様々な実施形態において、様々な方式で実行することができ、およびある実施形態では、TF−IDF分析を使用する。このようなTF−IDF分析は、分析されることになる文書のベクトル空間表示を使用し、この場合、それぞれの文書は、文書内の用語の役割を考慮することなく(例えば、文法、文の構造、段落の構造、句読点などを考慮することなく)「単語の集合(bag of words)」に類似しているとして扱われる。このような状況において、この文書表示は、文書内の用語の用語頻度(「TF」)を主に、または単に反映することができ、これは文書を数学的に簡単な高次元ベクトル空間に効率的にマッピングすることができる。加えて、特定の用語が、集成または文書の他のグループの中の文書内でどの程度ユビキタスであるかを考慮することによってなど、文書に対する用語の関連性を判定するときに、領域に関する様々な文書と比較して特定の用語の特殊性を考慮および使用することができる。特に、文書d内の用語iの用語頻度、および領域の文書全体の用語iの逆文書頻度(「IDF」)を、少なくともある実施形態では、以下のように表現することができる。
次いで、当該用語および当該文書に関するこの用語頻度−逆文書頻度(「TF−IDF」または「TF.IDF」)得点を、用語および文書に関するTF得点および用語に関するIDF得点を乗算することによって、判定することができる。特定の用語iおよび特定の文書dに関する(「TF−IDFi、d」または「TF.IDFi、d」としても示される)このようなTF−IDF(i、d)得点を、
その文書に対するその用語の関連性の程度を反映するためなど、その集成内のその文書の指数を記述する際に、その用語がそのベクトル空間表示においてどのくらい重要かの測定値として使用することができる。特定の文書内で頻繁に発生するが、全体として、集成内でほとんど発生しない用語を高く評価することが測定基準である。
領域に関する文書の自動化された分析は、少なくともある実施形態では、選択された文書のコンテンツを分析することを含み、どの文書が、その領域に関して識別された用語および/または判定されたテーマに関連するコンテンツを有するかを判定することができる。例えば、少なくともある実施形態では、以下でより詳細に議論されるように、選択された文書の関連性の初めの判定を実行し、特定の文書のコンテンツに対する、あるテーマ内の特定の用語の関連性に基づいてなど、いくつかのもしくはすべての用語またはテーマのそれぞれに対する、それぞれの文書の関連性の程度を判定することができる。加えて、ある実施形態では、文書関連性判定の一環として分析されるために選択される文書は、用語間関係を判定するために予め分析されたのと同じ文書である一方、(例えば、その文書関連性判定文書が先の用語間関連性判定の間に利用可能でなかった新しい文書を含む場合。その用語間関連性判定文書が、ある領域を表していることからなど、トレーニング目的で選択された文書の専門化されたサブセットである場合、など)他の実施形態では、選択された文書関連性判定文書の一部またはすべては、用語間関連性判定文書とは異なる。さらに、少なくともある実施形態および状況では、分析目的のために複数の関連文書を単一の文書として扱うことによってなど、複数の関連文書のグループを、いくつかのもしくはすべての用語および/またはテーマに関して共に分析することができる一方、他の状況では、特定の文書を、分析のために、それぞれがいくつかのもしくはすべての用語および/またはテーマに関して別個の文書として扱われる複数の部分に分割することができる。識別された用語および/または判定されたテーマに関連する文書を判定する目的で、領域の文書を分析することに関する追加の詳細を以下に含む。
ある領域に関する文書を自動的に分析し、特定の用語に対するそれらの用語の関連性を判定した後で、少なくともある実施形態では、このような関連性情報を使用し、特定の用語間の関係をさらに識別することができる。例えば、少なくともある実施形態では、2つの用語間の関係を(例えば、両方とも、1つまたは複数の共通の文書に対して非常に関連する2つの用語が、互いに非常に関連する可能性があると判定できるように、両方とも、同じ文書のいずれにもあまり関連しない2つの用語が、互いにほとんど関連しない可能性があると判定できるように)様々な文書に対するそれらの用語の個々の関連性に少なくとも一部基づいて判定することができる。したがって、特定の用語に対する特定の文書の関連性がTF−IDF得点に少なくとも一部基づいて識別される実施形態では、用語間の関係の判定は、同様に、TF−IDF得点に少なくとも一部基づいてよい。TF−IDF得点に基づく以外の方式を含めて、用語の関係の関連性の得点または他の表示を生成する特定の方式を、以下でより詳細に議論する。
関連性情報が、1つもしくは複数の領域内のまたは1つもしくは複数の領域全体の用語間の関係に関するDSRDサービスによって、自動的に判定された後で、このような自動的に判定された関連性情報を、次いで、様々な実施形態において、様々な方法で使用することができる。例えば、少なくともある実施形態では、1つもしくは複数の領域に関する用語間関係に関する関連性情報を使用し、最も深く結びついている、またはそうでない場合、最も関連しているとして識別された関係に関するなど、ベイジアンネットワークまたは選択された用語間の関係の他の確率表示を自動的に生成する。確率表示情報のこのような生成を、以下でより詳細に議論されるように、様々な方式で実行することができ、およびそれぞれが、他の第2の用語に対して十分評価された関連性の程度を有する様々な特定の第1の用語から対応する第2の用語への影響が表される、それらの第1の用語を選択することを含むことができ、およびそれらの表された影響の強さを表す確率情報を生成することを含むことができる。特に、ベイジアンネットワークの構造は、それぞれのノードの確率依存を反映し、および、以下でより詳細に議論されるように、それぞれのノードの状態に関する推定を実行するためのフレームワークを提供する。確率表示情報が生成された後で、この情報を使用し、1つもしくは複数の他の用語へのある特定のユーザの既知の肯定的選好もしくは否定的選好、または(肯定的であれ、否定的であれ)他の関心を考慮して、そのユーザが特定の対象用語への肯定的選好もしくは否定的選好、または(肯定的であれ、否定的であれ)他の関心を持つ確率もしくは他の可能性の測定値を自動的に判定することができる。したがって、特定のユーザの特定の用語へのこのような既知の選好または関心を、そこから特定の対象用語に関する特定の表現されない選好または関心を推定することができる、このような対象用語におけるそのユーザの他の表現されない選好または関心(例えば、そのユーザは自覚しているが、DSRDサービスには知られていない、他の選好もしくは関心、そのユーザが明示的に自覚していない、他の選好もしくは関心など)の確定(evidence)として扱うことができる。
ある実施形態では、確定として使用される、1つもしくは複数の他の用語における特定のユーザの既知の関心または推測される関心に基づく、1つもしくは複数の対象用語における特定のユーザの考えられる関心の判定は、(例えば、以下でより詳細に議論されるように、ユーザフィードバック技術および自動化された学習技術に基づく)協同フィルタリング技術に類似した形でなど、確定用語および対象用語の両方への既知の関心または推測される関心レベルを有する他のユーザに関する情報にさらに少なくとも一部基づいてよい。しかし、他の実施形態では、1つもしくは複数の他の確定用語における特定のユーザの既知の関心または推測される関心に基づく、1つもしくは複数の対象用語における特定のユーザの考えられる関心のこのような判定は、他のユーザの確定用語および対象用語の両方への関心レベルに関する任意の情報の使用なしに実行されるか、または、場合によっては、より一般的に、他のユーザの対象用語のうちのいずれかへの関心レベルに関する任意の情報を使用せずに実行され、このような実施形態では、これらの記述される技術を、通常、ユーザの関心範囲の選好に関するデータの不足が原因で、協同フィルタリング技術および他の勧告技術について、当初、推定できない、いわゆる「コールドスタート(cold start)」勧告問題に対処する際に特に使用することができる。領域関連文書の分析からのこのような自動的に生成された関連性情報の使用を、ある実施形態および状況においてさらに使用し、以下でより詳細に議論されるように、新しい領域と少なくとも一部重複する、1つもしくは複数の他の領域に関して利用可能な選好情報を活用することによってなど、わずかなユーザ選好情報が依然として利用可能であるか、またはまったく利用可能でない、新しい関心領域に有意義なユーザ特有の勧告もしくは他の推奨を提供するために能力を拡張することができる。さらに、他の確定用語への既知の関心に基づく、対象用語への考えられる関心初めの判定を、確定用語および対象用語の両方へのユーザの実際の関心レベルに関する任意の情報の使用なしに実行する場合ですら、以下で議論されるように、後続の判定を更新し、確定用語および対象用語の両方へのユーザの実際の関心レベルに関して学習された情報を組み込むことができる。
1つもしくは複数の領域内または当該領域全体の用語間の確率関係に関する、(例えば、それらの用語間関係の確率表示を使用して表現されるような)このような関連性情報が判定された後で、この関連性情報を、人間のユーザ(または、他のエンティティ)が、そのユーザの特定の用語に関する選好または特定の用語に関係する関心に関する情報に基づいて、そのユーザにとって関心がある可能性がある文書および/もしくは他の情報の勧告または他の推奨を取得することを支援することを含めて、様々な方式で使用することができる。例えば、ユーザの選好が知られていない1つまたは複数の特定の対象用語を、判定された確率的用語間関係の使用、および所与のそれらの既知の関心に基づき関心判定された確率もしくは他の可能性が規定のしきい値を超えるか、またはそうでない場合、1つもしくは複数の指定された基準を満たす、対象用語などそのユーザの既知の関心に基づいて、そのユーザにとって関心がある可能性があるとして、自動的に選択することができる。このような自動的に選択された対象用語は、次いで、そのユーザに勧告もしく他の推奨、または関心情報の指示(例えば、それらの選択された対象用語に関連する文書の指示、その対象用語への関心もしくは無関心を示すため、または共通のテーマの一部として、特定の対象用語が、選択された対象用語が特に関連する他の既知の用語と組み合わされるべきであることを示すための、ユーザによる選択のためなど、それらの選択された対象用語の指示、など)を提供することを含めて、様々な方式で使用することができる。加えて、この自動的に判定された関連性情報を、様々な実施形態において、ユーザから1つまたは複数の用語を受信して、関係する情報(例えば、受信された用語を含むテーマなど)をそのユーザに提示することによって、自動的に判定されたテーマまたは他の用語間関係のリストを、ブラウジングもしくは選択、または他のフィードバックなどのために、ユーザに提示することによってなど、様々な他の方式で使用することができる。したがって、領域内の文書に基づいて自動的に判定された関連性情報を、(例えば、情報を受信することに関して予め指定された選好に基づいて)明示的に要求されない関連性情報をユーザに推奨することによって、またはそうでない場合、当該情報をユーザに提供することによって、検索クエリに応答してなど、人間のユーザもしくはDSRDサービスの外部の他のエンティティ(例えば、自動化されたプログラム)が、明示的な関心または推定された関心1つもしくは複数の用語に関係するコンテンツを取得することを支援するために、DSRDサービスまたは他の関連サービスによって使用することができる。さらに、様々な用語の相互関連性に関する情報を、様々な実施形態において、様々な方式でユーザに表示することができる。
加えて、少なくともある実施形態では、自動的に判定された用語間関連性情報および/または文書関連性情報が、ユーザまたは他のエンティティによってどのように使用されるかに関する情報を、様々な方法で追跡して、および使用する。例えば、少なくともある実施形態では、自動的に判定された用語間情報および/または文書情報の使用に関する情報を、自動的に判定された用語間関連性情報および/または文書関連性情報に関するフィードバックとして、DSRDサービスによって使用することができる。このようなフィードバックを使用し、例えば、特定の用語および用語間関係の関連性の初めの判定を訂正し、ならびに/または判定された用語に対する特定の文書の関連性の初めの判定を訂正することができ、およびこのような訂正され、判定された関連性情報を、次いで、当初判定された関連性情報に類似した方式で、DSRDサービスまたは他の関連サービスによって使用することができる。同様に、このようなフィードバックを使用し、例えば、ベイジアンネットワーク、決定木、および/または用語間関係の他の確率表示を訂正することができ、およびこのような訂正され、判定された用語間関係の確率表示は、次いで、当初判定された確率表示情報に類似した方式で、DSRDサービスまたは他の関連サービスによって使用することができる。このように、一度だけのフィードバック発生、または代わりに、連続的なフィードバックループもしくは他の繰り返されたフィードバックループを使用し、DSRDサービスによって実行された自動的関連性判定を繰り返して改善することができる。以下でより詳細に記述されるように、ある実施形態では、このフィードバックを使用し、構成されたニューラルネットワークまたは他の適応モデルもしくは適応システムの使用によって、および/または構成されたベイジアンネットワークもしく決定木または他の確率表示データ構造を更新することによってなど、自動的に判定された用語間関係情報および/もしくは文書関連性情報を学習または訂正する。さらに、少なくともある実施形態および状況では、この構成されたニューラルネットワークまたは他の適応システムを、様々な方式で自動的に拡張し、利用可能になった新しい文書および/または判定された新しい用語間関係に関する情報を使用することができる。
図示のために、特定のタイプの情報が特定の形で分析され、特定の領域に関して判定された情報が特定の形で使用されるある実施例および実施形態を、以下に記述する。これらの実施例を、図示のために提供し、および簡潔にするために簡素化し、および本発明の技術を、そのうちのいくつかが以下でより詳細に記述される、様々な他の状況で使用することができることを理解されよう。例えば、特定のテキスト文書の分析を以下で記述するが、他の形の情報を同様に分析および使用することができる。加えて、1つもしくは複数の領域内または1つもしくは複数の領域全体の関連用語間関係および/またはテーマを判定するために、用語および/またはテーマに関連する特定の文書を判定するために、ならびに実際の使用および他のフィードバックに基づいて改善された関連性を学習するために使用されているとして、特定のアルゴリズムおよび技術を図示するが、他のアルゴリズムおよび技術を他の方式で使用することもできる。
図1A〜1Cは、記述される技術を使用し、関心領域に関する関連性情報を判定して、および関連情報および機能性をユーザまたは他のエンティティに提供する、自動化された領域特定の関連性判定サービスの実施例を図示する。特に、図1Bは、DSRDサービス105へのデータフロー例、およびDSRDサービス105からのデータフロー例のハイレベルな記述と共に、DSRDサービス105の一実施形態を、関連領域特定の情報を判定して、使用することの一環として、図示する。本実施例では、DSRDサービス105は、1つまたは複数の関心領域に関する様々な文書160にアクセスして、およびこれらを分析し、領域のそれぞれに関する関連性情報を判定する。本実施例でDSRDサービス105によって生成された、判定された関連性情報は、1つまたは複数の領域のそれぞれの中の関連用語間関係に関する情報170(例えば、多用語テーマに関する情報)、および様々な用語に関連するコンテンツを有する文書に関する情報180を含むが、他の実施形態では、これらのタイプの関連性関連情報のうちの1つだけを判定することができる。図1Cに関して、を含めて、他のところでより詳細に議論されるように、判定された用語間関連性情報170は、1つもしくは複数の用語間ニューラルネットワーク、用語間の関係の1つもしくは複数のベイジアンネットワーク、または用語間関係の他の確率表示、特定の用語間の確率または他の関係に関する情報をカプセル化する1つもしくは複数の決定木などを含めて、様々な形で格納されたデータを含むことができる。
本実地例では、DSRDサービス105は、ユーザが指定したクエリ用語に関連する文書を示すことによって、ユーザが指定した用語に関連する可能性がある他の用語の推奨を表示することによってなど、判定された関連用語間関係情報170のうちの少なくともいくつか、および/または判定された関連文書情報180のうちの少なくともいくつかを、様々なユーザ140に使用のために提供する。本明細書に示されないが、他の実施形態では、DSRDサービス105は、代わりに、1つもしくは複数の中間の他のサービス(例えば、DSRDサービス105から関連領域特定の情報を取得して、および様々な方法でそれを使用する他のサービス)を介してなど、判定された関連用語間関係情報170および/または判定された関連文書情報180を、ユーザ140および/または他のエンティティに、1つもしくは複数の他の方式で提供することができる。さらに、本実施例では、DSRDサービス105は、ユーザ140から直接的であろうと、または代わりに1つもしくは複数の中間の他のサービスからであろうと、判定された関連領域特定の情報170および/もしくは180のユーザ140(または、他のエンティティ)による使用に関する様々なフィードバックまたは他の情報190を取得することができ、およびそのフィードバックを使用し、判定された関連領域特定の情報170および/または180を精緻化することができる。フィードバック情報を受信することおよび/または判定された関連領域特定の情報に対して受信されたフィードバック情報を使用することは、様々な実施形態および状況において、増分的な動的な方式で、または代わりに、(例えば、このような情報を収集して、それを周期的にDSRDサービス105に提供する中間の他のサービスから)バッチ方式を含めて、様々な方式で発生する可能性があることを理解されよう。図2A〜2Mおよび図9A〜9Nにおいて議論される実施形態例に関して、を含めて、DSRDサービス105の様々なデータフローおよび動作に関する追加の詳細は、他のところでより詳細に記述される。
図1Aは、図1BのDSRDサービス105の一実施形態に関する、追加の実施例の詳細を図示する。特に、図1Aの本実施例では、DSRDサービス例105の文書によってアクセスされて、および分析される文書は、ネットワーク100を介してアクセス可能な(例えば、1つもしくは複数のWebサイトまたは他の情報ソースから公にアクセス可能な)領域文書160、および/またはDSRDサービス105が専門アクセスを有するオプションの領域文書135(例えば、生成された領域文書、またはそうでない場合、サービス105によって提供された領域文書、支払われたアクセスに関して利用可能である場合、またはサービス105と第3者ソースとの間の規定の関係に基づいて利用可能である場合など、第3者のソースから利用可能であるが、公にアクセス可能でない領域文書など)を含むことができる。さらに、1つまたは複数の領域に関する関連性情報を判定した後で、DSRDサービス105は、ネットワーク100を介して、様々なユーザ140とおよび/または1つもしくは複数のオプションの他のサービス150(例えば、ユーザ140と相互に作用し、DSRDサービス105によって提供された情報を使用する他の関連サービス)とさらに相互に作用する。
加えて、本実施例では、DSRDサービス105は、領域分析マネージャモジュール110と、関連文書判定マネージャモジュール120と、用語間関連性判定マネージャモジュール130と、用語関係勧告生成マネージャモジュール125とを含めて、それぞれがDSRDサービス105の機能性のうちのいくつかを提供する、いくつかのモジュールを含む。特に、領域分析マネージャモジュール110は、様々な動作を実行し、領域関連文書のコンテンツを取得して、および自動的に分析し、そのように分析された情報をモジュール120および130によって使用するために利用可能にするなどする。関連文書判定マネージャモジュール120は、分析された文書情報を使用し、(図1Aには図示されないが、やはり図1Aに図示されない1つまたは複数の記憶デバイス上に格納可能な)図1Bの領域文書関連性情報180を生成するためなど、特定の用語または他のテーマに関連する文書を判定する。同様に、用語間関連性判定マネージャモジュール130は、分析された文書情報を使用し、その領域に関連する用語間関係を判定し、(図1Aには図示されないが、やはり図1Aに図示されない、1つまたは複数の記憶デバイス上に格納可能な)図1Bの領域用語間関連性情報170を生成するなどするが、他の実施形態では、文書関連情報に基づく以外の方式で、用語間関係情報のうちの少なくともいくつかを判定することができる。用語関係勧告生成マネージャモジュール125は、次いで、用語間関係に基づいて、ユーザ特有の勧告または他の推奨を判定する際に使用するための情報を生成し、(図1Aには図示されないが、やはり図1Aに図示されない、1つまたは複数の記憶デバイス上に格納可能な)図1Cの用語間関係情報の確率表示170aおよび/または170bを生成するなどする。モジュール125によって生成された情報は、モジュール130からの判定された用語間関係情報に少なくとも一部基づき、およびモジュール125は、その生成された情報をオプションでさらに使用し、ある実施形態では、ユーザのためにユーザ特有の勧告または他の推奨を判定することができる。この図示される実施形態では、モジュール120、130および/または125は、次いで、ユーザがインタラクティブに使用することが可能な提供されたGUIを経由して、および/またはそれを介して、ソフトウェアプログラムがプログラマティックに相互に作用することが可能な提供されたAPIを介してなど、生成された領域特定の関連性情報および/または判定されたユーザ特有の勧告もしくは他の推奨を、ユーザ140またはオプションの他のサービス150に提供することができる。他の実施形態では、特定の表示された関心用語に関連するコンテンツ項目を判定するモジュール127(図示せず)、または、代わりに、1つもしくは複数のGUIおよび/または(モジュール110〜130の他方の代わりになど)DSRDサービス105によって提供された1つもしくは複数のAPIを介してユーザ140および/またはオプションの他のサービス150と相互に作用することが可能な、DSRDサービス105の1つもしくは複数の他のモジュール(図示せず)など、他のモジュールが存在する場合がある。
DSRDサービス105を、(図1Aに図示されない)1つまたは複数のコンピューティングシステム上で実行するためのソフトウェア命令を有する1つまたは複数のソフトウェアモジュールを用いることを含めて、様々な方式で実装することができ、および(図示されない)1つもしくは複数のローカル記憶デバイス上またはリモート記憶デバイス上に様々な情報を格納することができる。例えば、ある実施形態では、DSRDサービス105を、単一のコンピューティングシステム上で実装することができ、一方、他の実施形態では、DSRDサービス105は、クラウドコンピューティング技術を使用して、および/またはピアツーピア方式でなど、(例えば、それぞれが、異なるコンピューティングシステム上で実行しているが、直接的に、または共有されたデータ格納位置を介して相互に作用している、異なるモジュール110〜130を用いて。例えば、同じモジュールの他の代替的実装形態と比べて、データの別個のセット上で動作する異なるコンピューティングシステム上でモジュールの複数の代替的実装形態を有するためになど、それぞれが複数のコンピューティングシステム全体で分散されているモジュール110〜130のうちの1つまたは複数を用いて、など)分散された方式で実装することができる。同様に、ユーザ140、他のサービス150、および領域文書160を、使用し、またはコンピューティングデバイスもしくはコンピューティングシステム(図示せず)と関連付け、様々な記述される情報を格納し、および/または様々な記述される相互作用を実行することができる。加えて、DSRDサービス105および他のサービス150は、ある実施形態では、関連しないエンティティによって提供することができるが、他の実施形態では、DSRDサービス105および1つまたは複数の他のサービス150を、代わりに、(例えば、互いに関連する)単一のオペレータによって提供することができる。さらに、図1Aに示されるネットワーク100は、例えば、場合によっては、様々な別個の当事者によって操作される、結合されたネットワークの公にアクセス可能なネットワーク(例えば、インターネット)など、様々な方式を有することができる。他の実施形態では、ネットワーク100は、例えば、特権を有さないユーザに全体的にもしくは部分的にアクセスできない企業ネットワークまたは大学ネットワークなど、プライベートネットワークとすることができる。さらに他の実施形態では、ネットワーク100は、インターネットに対するアクセスおよび/またはインターネットからのアクセスを有する、1つもしくは複数のプライベートネットワークを含むことができ、および少なくともある実施形態では、ネットワーク100のうちの一部もしくはすべては、ブロードバンド有線リンクもしくはブロードバンド無線リンクまたはブロードキャスト有線リンクもしくはブロードキャスト無線リンク(例えば、携帯電話接続、Wi−Fi(登録商標)、Wi−MAX(登録商標)、Bluetooth(登録商標)、ブロードキャストアナログテレビもしくはブロードキャストデジタルテレビ、EVDO、衛星無線ネットワーキングプロトコルもしくは他の無線ネットワーキングプロトコルまたは衛星無線通信プロトコルもしくは他の無線通信プロトコルなどを使用する無線コンピュータ接続)をさらに含むことができる。
加えて、様々なユーザ140および他のエンティティは、様々な方式でDSRDサービス105と相互に作用し、要求を行い、および様々な情報を指定することができる。例えば、ユーザは、DSRDサービス105および/もしくはオプションの他のサービス150に登録して、またはそれらのサービスに加入して、様々な用語関連選好、および後の要求において使用できる他の情報を供給するなどできる。このような実施形態では、ユーザが、DSRDサービス105と相互に作用し、登録した後で、指定されたクエリに関する検索結果の要求など、他の要求が行われたとき、ユーザに関連付けられ、および後で使用される、1つまたは複数の識別子(例えば、鍵、トークン、ユーザ名など)をそのユーザに発行することができる。加えて、ある実施形態では、オプションの他のサービス150は、DSRDサービス105に登録して、またはそうでない場合、DSRDサービス105と相互に作用して、関連する関係を確立して、他のサービス150が、DSRDサービス105によって生成された、少なくともいくつかの領域特定の関連性情報に対するアクセスを取得することを可能にするなどできる。さらに、様々な手数料をDSRDサービスの使用と関連付け、加入者によって支払われた手数料と引き換えに、DSRDサービスが少なくともいくつかの要求に応答することができるようにし、他のサービス150からの手数料と引き換えに、領域特定の関連性情報をオプションの他のサービス150に提供するか、またはユーザ140からの手数料と引き換えに、領域特定の関連性情報をそのユーザに提供するなどできる。他の実施形態では、DSRDサービス105は、領域特定の文書および他のコンテンツのプロバイダからなど、他の方式で手数料を取得し、そのコンテンツに関係する関連性判定を実行して、および/またはこのような領域特定の文書および他のコンテンツのユーザ特有の勧告を、広告主および小売業者など、他の第3者から、(例えば、少なくとも何人かのユーザ140に広告または他の指示されたコンテンツを提供するために)特定のユーザに提供することができる。
図1Cは、図1Aおよび1BのDSRDサービス105によって実行可能な動作の一実施形態に関する追加の実施例の詳細を図示する。特に、図1Bは、DSRDサービス105の一実施形態が、1つもしくは複数の領域に関する様々な領域文書105を分析して、様々なユーザ140からのフィードバックに基づいて、オプションで変更および/または補完することが可能な様々な領域用語間関係の関連性情報170を生成することを図示する。図1Cの追加の詳細において示されるように、少なくともある実施形態では、生成された領域用語間関連性情報170は、用語のうちの少なくともいくつかの間の関係のうちの少なくともいくつかの確率表示170a(例えば、ベイジアンネットワーク)を含むことでき、およびさらに、情報170aの生成は、前処理活動の一環としてオプションで発生して、生成された情報の後のランタイム使用を可能にすることができる。したがって、本実施例では、情報170aの生成は、第1の時間において発生することができ、および後の第2の時間において、生成された情報170bに一部基づいて、ユーザ特有の勧告または他の推奨を生成することを含むランタイム活動のために、生成された情報170aのうちの少なくともいくつかのコピー170bを使用することができる。コピー170bは、例えば、図9A〜9Nに関してより詳細に議論されるように、様々な部分を表す多数の決定木のそれぞれの中で、生成されたベイジアンネットワーク170aの特定の部分を符号化することによってなど、ランタイム使用のために構成して、または最適化することができる。さらに、ユーザ特有の勧告または他の推奨を判定する際および提供する際に生成された情報170の使用を、DSRDサービス105によって、および/または1つもしくは複数の他のサービスによって、を含めて、様々な方式で実行することができる。
本実施例では、ランタイム処理の間に、情報195を、特定のユーザ145のために取得して、領域文書160が対応する1つまたは複数の領域に関する1つまたは複数の用語に関するユーザ145の選好を示すなどする。ユーザ145は、図1Bに関して議論されるように、情報170aを生成する一環として、オプションでフィードバックを提供したユーザ140のうちの1人とすることができ、または代わりに、無関係のユーザとすることもできる。加えて、特定の用語に関するユーザの既知の選好(または、他の関心)に関する情報195を、検索クエリの一部として、ユーザによって表示された用語、ユーザによって選択され、ユーザにとって関心がある主題を表した用語、関心を持つとしてユーザが指定する文書の一部である用語、ユーザのプロファイルまたはユーザに関する他の情報から抽出された用語などに基づいてなど、様々な方式で取得することができる。ランタイム処理活動を実行しているサービス(図示せず)は、次いで、ユーザ特有の用語選好情報195および非ユーザ特有の用語間関係情報170bを使用し、追加用語のそれぞれが特定のユーザ145にとって関心があるものであろうという、対応する確率を表示するための情報をオプションで用いて、様々な用語間関係に基づいて、ユーザが関心あると推定される、1つまたは複数の追加のユーザ特有の用語175を識別することができる。
(1つまたは複数の)追加用語175を識別した後で、これらの用語を、ユーザ特有の勧告または他の推奨185をユーザ145にオプションで提供するためを含めて、様々な方式で使用することができる。これらのユーザ特有の勧告または他の推奨は、様々な実施形態において、様々な方式を有することができる。例えば、少なくともある実施形態では、ユーザ特有の勧告/推奨のうちの一部またはすべては、追加の推定される用語175のうちの一部またはすべてとすることができ、ユーザ145が、追加の推定される用語のうちの特定の用語が実際に関心用語であるか否かを指定することを可能にして、追加の推定される用語のうちの特定の用語を、共通のテーマの一部として、既知の関心用語195と組み合わすべきであることを指定するなどできる。他の実施形態では、ユーザ特有の勧告/推奨のうちの一部またはすべては、追加の推定される関心用語175のうちの一部またはすべてに基づいて、候補領域文書165のグループから選択された特定の領域文書または他のコンテンツ項目とすることができ、ユーザ145に提供された検索結果の一部として、それらの選択された領域文書を含めて、またはそうでない場合、ユーザ145が選択された領域文書に対するアクセスを取得するのを可能にするなどできる。他のところでより詳細に議論されるように、候補領域文書165は、様々なタイプのものとすることができ、用語間関係情報170aおよび170bを生成するために使用された領域文書160のうちの一部またはすべてを含めて、領域文書160のいずれかも含まないが、領域文書160が対応する同じ1つまたは複数の領域に関する他の文書を含めて、領域文書160が対応する、1つまたは複数の初めの領域とは異なる、1つまたは複数の追加の領域に関する文書(例えば、初めの領域の用語と少なくとも一部重複する用語を有する文書を含み、初めの領域に関して自動的に判定された用語間関係を拡張して、追加の領域に関する実際のユーザの関心について限定された情報を有するか、もしくは何の情報も有さないにもかかわらず、追加の領域に初めの勧告または他の推奨を提供するなどする追加の領域)を含めるなどできる。図1Cには明示的に図示されないが、ある実施形態では、(例えば、ユーザ特有の勧告185をオプションで提供することに応答して、ユーザの選択または他の指示に基づいて)、(1つまたは複数の)追加の推定される関心用語のうちの1つもしくは複数へのユーザの肯定的関心または否定的関心を反映する追加の情報をユーザから取得することでき、および取得される場合、オプションのフィードバック187を使用し、そのユーザから取得された追加の情報に基づいて、ユーザの既知の(1つまたは複数の)関心用語195を更新することができる。他の実施形態では、追加用語がユーザにとって関心がある確率が規定のしきい値を超える場合、またはそうでない場合、その確率が十分高い場合など、ユーザからの特定の確認または他の指示がない場合ですら、ユーザ特有の情報195を、時折、更新することができる。さらに、図1Cに図示されないが、ある実施形態では、図1Bに関してより詳細に議論されるように、ユーザおよび他のエンティティからのフィードバックを同様に使用し、領域用語間関連性情報170aおよび170bを更新することができる。
図1Cは、単一のユーザ145に関して自動的に判定された用語間関係情報170の使用を図示するが、ユーザ特有の勧告または他の推奨情報の生成および提供を、様々な時点で様々なユーザに提供することができることを理解されよう。同様に、生成された情報170aおよび/または170bを、生成された情報170bの最近のバージョンを使用し、特定のユーザ145に情報を提供するように、(例えば、周期的に、新しい領域文書160が利用可能になったときに、受信されたユーザフィードバックに基づいてなど)様々な時点で更新することができる。加えて、自動的に判定された用語間関係情報170を、他のところでより詳細に議論されるように、他の実施形態において、(例えば、検索クエリ用語の拡張、一般的な綴り違いの補正の識別、ユーザ特有の選好の明確化、領域特定の多用語テーマの判定など)様々な他の方式で使用することができる。
図9A〜9Nは、領域例に関する用語間関係の確率表示を生成する技術、ならびにこのような生成された確率表示情報を、DSRDサービスの一実施形態によって一部または全部自動的に実行することができるような様々な方式で使用する技術の実施例を図示する。
特に、図9Aは、本実施例では、1つの関心領域例に関する領域特定の文書の集成例の分析に基づいて生成されている、判定された用語間関係の関連性情報を形成するニューラルネットワーク995e例を図示する。特に、初めの関心領域は、本実施例では野球に関係し、および利用可能な領域特定の文書の集成例は、図2A例および図2B例に関してより詳細に議論されるように、様々なタイプの文書(例えば、ニュース記事、選手の経歴、チームの概要など)を含む。さらに、図2C〜2Mに関してより詳細に議論されるように、図1A〜1Cに関して議論されたのと類似した領域文書関連性情報および領域用語間関連性情報を判定するためを含めて、様々な方式で(例えば、その集成内の文書に対する用語の関係を示すTF−IDF値に一部基づいて)これらの集成文書からの領域特定の情報例を分析および使用することができる。図2C〜2Mの実施例は、用語間関係に関して自動的に判定された関連性情報の使用例に関する詳細をさらに提供し、自動的に判定された用語間関係情報に基づいて勧告を提供して、および/またはユーザフィードバックに基づいて、自動的に判定された用語間関係情報を更新するなどする。
本実施例では、図9Aの用語間ニューラルネットワーク995eは、その構成が図2Kに関してより詳細に議論される、図2Kの用語間ニューラルネットワーク295c例に基づく。例えば、図9Aの用語間ニューラルネットワーク995eは、図2Kの用語ベースの入力ノード280および出力ノード283に類似した方式で、様々な用語ベースの入力ノード980および用語ベースの出力ノード983を含み、および図9Aは、用語間関連性情報999をさらに図示して、図2Kに関して図示される類似の用語間関連性値298に基づく方式で、特定の選択された入力ノード例980に基づいて、特定の出力ノード983に関する特定の用語間関連性値を示す。本実施例では、図2Kの選択された入力ノード280aおよび280cに類似した方式で、用語「ボンズ」および「ステロイド」に対応する入力ノード980aおよび980cを選択している。図2Kに関して、特定の出力用語に関する用語間関連性値298は、選択された領域文書についてのその出力用語に関する平均の非正規化されたTF−IDF値に基づき、それらの領域文書は(1つまたは複数の)選択された入力用語に特に関連すると判定されていることに基づいて選択されている。したがって、図2Kの用語間ニューラルネットワーク295c例は、特定の領域文書を表す、図2Kの内部ノード290に一部反映されるように、その集成内の選択された文書に対する用語の関連性に少なくとも一部基づいて、用語間の関連性を判定する。逆に、図9Aの用語間ニューラルネットワーク995e例は、任意の対応する特定の文書ベースの内部ノードを明示的に示さない。したがって、ある実施形態では、図9Aの内部ノード985は、出力ノード983に関して判定された関連性値999が集成文書に対する用語の関連性に基づく場合など、図2Kの内部ノード285および290の組合せに対応することができる、他の実施形態では、図9Aの出力ノード983に関する用語間関連性判定は、様々な用語が対応する文書に基づかなくてよく、ならびに/または互いに対する、および/もしくは文書に対する用語の関連性を、TF−IDF値に基づく以外の方式で判定することができる。さらに、図9Aの出力ノードに関する用語間関連性判定が、様々な用語を判定して、対応される文書に当初基づく場合、および/またはTF−IDF値を使用して判定された関連性情報に当初基づく場合ですら、このような用語間ニューラルネットワークのリンク、それらの関連する重み、および結果として生じる出力ノード値を、用語間ニューラルネットワークの現在のバージョンが、それらの初めの判定にもはや基づかないように、フィードバックに基づいて後で変更することができることを理解されよう。より一般的には、および図2Iを参照してより詳細に議論されるように、図9Aの内部ノード985の1つまたは複数のレイヤは、特定の選択された入力用語980に基づいて、特定の出力ノード983に関する用語間関連性数999を生成する一環として実行される様々な計算を表すことができる。したがって、図9Aでは、説明を簡単にするために、内部ノード985の単一のセットだけが図示されるが、いくつかのこのようなニューラルネットワークは、内部ノードの追加レイヤを有することができることを理解されよう。加えて、図9Aの用語間ニューラルネットワーク995eは、様々なノード間リンク982および988をさらに含み、および図2I〜2Lの議論は、用語間ニューラルネットワークの一部として、このようなリンクをどのように判定して、および使用するか(例えば、いくつかのまたはすべてのこのようなリンクに関連する重みをどのように判定するか、ならびに、重みおよび/またはフィードバックを使用して、リンクをどのように更新するか)に関する追加の詳細を含む。
図9Bは、図9Aのニューラルネットワーク995eに類似した用語間ニューラルネットワーク995fを図示するが、(用語「ステロイド」に対応する)単一の入力ノード980cだけを選択している。したがって、図9Bの用語間関連性値905は、図9Bにおける(用語「ハンク・アーロン」および「ホームラン」に対応する)出力ノード983bおよび983dに関する値が著しく下がり、および図9Bの(用語「起訴」に対応する)関連性値905eが著しく上がったことにより、図9Aの関連性値999と異なる。これらの関連性値の変更を、著しく下がった出力ノード983bおよび983dに対する、予め選択された(用語「ボンズ」に対応する)入力用語980aの比較的高い関連性に基づいて、および著しく上がった出力ノード983eに対する、予め選択された(用語「ボンズ」に対応する)入力用語980aの比較的低い関連性に基づいて、直感的に理解することができる。これらの用語間関連性値が、(1つまたは複数の)選択された入力用語に最も関連する、選択された文書に対する出力用語の関連性に基づく実装形態では、用語間関連性値905の変更は、(例えば、図2A〜2Bの文書例3および4だけが、図2Eおよび図9Dに関して議論されるように、図9Aに関して、選択された入力用語「ステロイド」および「ボンズ」の先の組合せに関する文書例1〜4のすべてではなく、図9Bの単一の選択された入力用語「ステロイド」に関して特に関連しているとして選択されるように)図9Aに関する、選択された入力用語「ステロイド」および「ボンズ」の先の組合せと比べて、図9Bに関する、単一の選択された入力用語「ステロイド」に関連しているとして選択された文書の異なるグループに少なくとも一部基づくことができる。加えて、図9Bの実施例では、関連性値905aを、(用語「ボンズ」に対応する)出力ノード983aに関して示すが、情報298内の対応する関連性値は、入力ノード280aが図9Aの選択された入力ノードのうちの1つであることに基づいてなど、類似の出力ノード283aに関して図2Kに示さない(とはいえ、他の実施形態では、複数の入力用語/入力ノードが選択されている場合、代わりに、すべての出力ノードに関して、このような関連性値を計算して、および示すことができる)。加えて、図9Bは、(図2Eの行274fおよび列272eに示されるように)図9Aに関して議論された用語「ボンズ」および「ステロイド」の組合せに関して特に関連する用語ではないが、単一の入力用語「ステロイド」に関して非常に関連する用語「カンセコ」に対応する追加の入力ノード980fおよび出力ノード983fを含む。
図9Cは、表された有効な用語間関係の確率表示を含むベイジアンネットワークの一部として使用可能であるように、図9A〜9Bおよび2A〜2Mに関して議論された領域例に関する少なくともいくつかの有効な用語間関係を表す1つの簡素化された有向非循環グラフ(「DAG」)例990を図示する。DAGおよび対応するベイジアンネットワークを、領域例に関してどのように自動的に生成することができるかかに関して、様々な詳細が続くが、これらの実施例で示されるネットワーク構造および他の確率表示情報は、野球領域に関する関心ある様々な情報を完全に捕捉する実際の文書集成を正確に反映することは意図しておらず、代わりに、本実施例で使用される情報は、図2A〜2Bに関して議論される領域文書例1〜5に一部基づき、これは、データの量が限定されていることにより、ネットワーク構造および他の確率表示情報の両方に関して、実際の野球領域からの相違を生み出す場合があることを理解されよう。
図9Cの実施例では、図9Bに図示された7つの用語例、ならびに追加の用語例「アトランタブレーブス」に対応する様々なグラフノード990a〜990hを示す。グラフ例990において、(用語「ボンズ」に対応する)グラフノード990aを、(それぞれ、用語「ハンク・アーロン」、「ステロイド」、「ホームラン」、「起訴」、および「ジャイアンツ」に対応する)グラフノード990b、990c、990d、990e、および990gである、5つの他のグラフノードに直接的に依存しているか、またはそうでない場合、それらのグラフノードの影響を受けているとして図示する。これらの他のノードのうちのいくつかは、それ自体が、他のグラフノードに直接的に依存するか、またはそうでない場合、他のグラフノードの影響を受ける場合(例えば、グラフノード990bの影響を受けるグラフノード990d、グラフノード990eの影響を受けるグラフノード990cなど)がある一方、他のグラフノード(例えば、グラフノード990b、990e、990gなど)は、いずれのこのような影響も受けない。加えて、本実施例では、グラフノード990a〜990hのそれぞれは、事前確率情報922および条件付きの確率情報994など、グラフノードに関して判定され、グラフノードに関連する、関連確率情報992または994をさらに有することができるが、ある実施形態では、このような事前確率情報992を使用しない場合がある。さらに、本実施例では、様々なグラフノード990a〜990hをすべて、それぞれが2つの可能値のみを有する離散確率変数であるとして扱うが、他の実施形態では、グラフノードは、他のタイプの値(例えば、3つ以上の離散値、指定された範囲にわたって連続する値など)を表す場合がある。図9Fおよび9Gは、このような判定された確率情報および考えられるノード値の実施例に関する追加の詳細を提供する。他の実施形態では、構成されるグラフ990は、代わりに他の方式を有して、(例えば、1つまたは複数の循環を含むために)DAGにならず、ノードのうちの少なくともいくつかを連続する確率変数とするか、またはそうでない場合、離散確率変数以外の形を有するなどすることができ、およびより一般的には、これらの用語間関係を、グラフ以外の方式で表すことができる。
本実施例で、グラフ例990を構成するために、領域例の用語のそれぞれは、領域例を表す用語間ニューラルネットワーク(例えば、図9Bの用語間ニューラルネットワーク995f)に関する個々の入力ノードとして、まず連続的に選択され、および最高の関連する用語間関連性値を有する出力ノードを、選択された出力ノードに対応する用語が、選択された入力ノードに関する用語の影響を受ける可能性があり得るように、選択された入力ノードとの有効な用語間関係を表す候補として、選択する。用語間関連性が集成内の文書に対する用語の関連性に、少なくとも当初基づく実施形態では、様々な入力用語の個々の選択は、図9Aおよび9Bに関して議論されるように、結果として、それらの選択された入力用語に最も関連しているとして異なる文書を選択させる場合がある。加えて、図9Dは、8つの用語例のそれぞれと共に使用するために選択可能な文書例1〜5のうちの特定の文書を示す情報例910を図示するが、様々な他の集成文書を、図示されない用語例の一部またはすべてに関して同様に選択することができ、および図示されない様々な他の用語例に関して文書を同様に選択することができる。他のところでより詳細に議論されるように、使用すべき特定の文書を、例えば、様々な実施形態、例えば以下など、様々な方式で選択することができる。すなわち、文書に対して選択された入力用語のTF−IDF関連性値によって、対応するネットワーク(例えば、図2Lのニューラルネットワーク295a)によって判定された文書対用語関連性値によって、または他の方式でランク付けられたような(例えば、10、1000など)固定数または固定割合の文書、固定されたこのようなTF−IDF値、固定されたこのような文書対用語関連性もしくは他の値を超える、またはこのようなTF−IDF値の割合、このような文書対用語関連性値もしくは集成文書のすべてに関して選択された入力用語の他の値の割合を超える文書のすべて、(例えば、選択された入力用語および文書に関するTF−IDF値に基づいて、対応するネットワークによって判定された文書対用語関連性値に基づいて、または、代わりに、他の形でなど、選択された入力用語に対する文書の関連性によって、最も関連する候補の他の用語に対するそれぞれの文書の寄与を重み付けすることによって)集成文書のすべてを選択するが、その影響を変えるために、などである。他のところで議論されるように、TF−IDF値を、図2A〜2Mに関する例の一部として使用して、対応するネットワークに関する文書対用語関連性値を初期化するなどするが、他の実施形態では、文書対用語関連性および/または他の用語に対する用語の関連性は、他の方式で判定することができる。本実施例では、これらの関連する文書を、例えば、選択された入力用語に関して、0.400を超えるTF−IDF値または文書対用語関連性値を有することに基づいて選択することができる。選択された入力用語のそれぞれに関して関連する文書が選択された(および/または、いくつかのもしくはすべての考えられる文書のそれぞれに関して使用されることになる相対的な重みが選択された)後で、選択された入力用語に対するそれぞれの他の出力用語の関連性を、例えば、このようなTF−IDF値または文書対用語関連性の平均に基づいてなど、TF−IDF値、またはそれらの選択された関連文書に対する他の用語に関する文書対用語関連性を使用することによって判定することができる。このような情報を形成する用語間関連性ニューラルネットワークの作成に関する追加の詳細を、(様々な用語間関連性値を、集成文書分析だけに基づいて当初判定されたTDF−IF値とは異なるものにする可能性がある)様々なユーザフィードバックを反映させるための初めの作成の後で、このような用語間ニューラルネットワークを変更することを含めて、図2I〜2Lに関して含む。さらに、複数の関連文書に対する特定の出力用語の関連性を、出力用語のTF−IDF値、またはそれらの文書に関する文書対用語関連性値の平均以外の様々な方式で判定することができる。
したがって、本実施例のために、および5つの文書例1〜5だけを使用して、図9Eの選択された入力用語「起訴」924bに対する図9Eのもう1つの出力用語「ホームラン」922aの関連性は、0.267(図9Dの行914bに図示されるように、5つの文書例のうち、入力用語「起訴」に関連しているとして選択された唯一の文書である文書例3に対する用語「ホームラン」に関するTF−IDF値または文書対用語関連性値)とすることができる一方、選択された入力用語「ホームラン」924aに対するもう1つの用語「起訴」922bの関連性は、0.000(図9Dの列914aに図示されるように、入力用語「ホームラン」に関連しているとして選択された文書例である文書例1および2に対する用語「起訴」に関する平均TF−IDF値または文書対用語平均関連性値)とすることができる。このように、このような用語間情報を表す、予め構成された用語間ニューラルネットワークを使用し、図2Eの情報例920に図示されるように、個々に選択された入力用語924のそれぞれに関する他の用語922に関して判定された用語間関連性値を提供することができる。さらに、ある実施形態では、様々な判定された用語間関連性値は、(例えば、0と1との間になるように)正規化されるが、このような正規化を、図9Eの実施例に図示しない。
様々な用語間関連性値を、選択された入力用語のそれぞれに関する様々な出力用語に関して判定した後で、それらの様々な入力用語に最も関連する出力用語を、十分に高い用語間関連性値を有していることに基づいて、選択することができる。さらに、本実施例では、それぞれが互いに関連しているとして、2つの用語を両方とも選択する場合、より高い用語間関連性値を有する関係だけを選択して、それらの2つの用語間の最大の影響の方向を提供できるように、グラフ内に表す。このようにして、図9Eの表920内の情報を使用し、便宜上、太字で示されている、用語間の影響関係を識別するために選択された用語間関連性値とともに、図9Cのグラフ990の構造(図9Eに列挙されない用語「アトランタブレーブス」を除く)を識別することができる。非循環グラフが所望される実施形態では、必要な場合、追加の措置をとることができ、循環を防ぎ、循環の一部である、1つまたは複数の影響リンク(例えば、循環に関して最低の、対応する用語間関連性値を有する影響リンク)を除去するなどして、または、他の実施形態では、代わりに、他の方式で、追加の措置をとることができることを理解されよう。さらに、他のところでより詳細に議論されるように、グラフに関して使用されることになる入力用語と出力用語との間の特定の用語間関係を、様々な実施形態において、例えば、以下など、様々な方式で選択することができる。すなわち、用語間関連性値によってランク付けされるような、それぞれの入力用語に対する(例えば、10、1000など)固定数または固定割合の出力用語、固定されたこのような用語間関連性値を超える、または選択された入力用語に関するこのような用語間関連性値の割合を超える出力用語のすべて、ならびに考えられる出力用語のすべて、などである。本実施例では、説明を簡単にするために、0.400を越える用語間の正規化されていない関連性値を有する出力用語を選択している。加えて、グラフ内の任意の特定の出力用語に影響を及ぼすことができる入力用語は、様々な実施形態において、例えば、それぞれの出力用語に影響を及ぼす(例えば、10、1000など)固定数または固定割合のこのような入力用語など、様々な方式でさらに限定することができる。
図9Cの用語間関係グラフ例990の構成を、このように判定した後で、確率情報例992および/または994を様々な方式で判定することができる。図9Fは、本実施例では、両方とも、その用語に関する選好もしくは他の関心を持つ、または代わりに、その用語に関する選好もしくは他の関心を持たない(または、否定的な選好もしくは関心を持つ)ユーザに対応する2つの値だけを有する離散確率変数として扱われる、(それぞれ、用語「ハンク・アーロン」および「ジャイアンツ」に対応する)事前確率情報992bおよび992gの実施例を図示する。前述のように、他の実施形態では、事前確率情報は、(例えば、3つ以上の離散値を有する離散確率変数、指定された範囲にわたって連続的な値を有する連続的な確率変数など)2つの値を有する離散確率変数以外の形を有することができる。したがって、例えば、用語「ハンク・アーロン」に関心を持っていないことに対応する確率値は95%であると同時に、用語「ハンク・アーロン」に関心を持つ所与のユーザの事前確率992bを、本実施例では、5%であるとして識別する。用語「ジャイアンツ」に関心を持っている所与のユーザの事前確率992gを、本実施例では、10%である(およびしたがって、簡潔にするために図示されない、用語「ジャイアンツ」に関心を持っていないことに対応する確率値90%を有する)として識別する。(例えば、最低IDF値を有する用語に、予め定めた最大事前確率など、最高の関心事前確率を与えるため、および増大するIDF値を有する他の用語に、比例的により低い関心事前確率を与えるために)このような事前確率情報を、ユーザにとってのその用語の考えられる関心逆表示として集成文書全域の用語のIDF値を使用することによって、または、代わりに他の方式でなど、様々な方式で、自動的に評価することができる。他の実施形態では、このような事前確率情報を判定しなくてよく、および使用しなくてもよい。
図9Gは、本実施例では、両方とも2つの値だけを有する離散確率変数として扱われる、(それぞれ、用語「ボンズ」および「ホームラン」に対応する)条件付きの確率情報994aおよび994dの実施例をさらに図示する。したがって、例えば、本実施例では、用語「ハンク・アーロン」によってだけ影響を受ける、用語「ホームラン」に関する条件付きの確率情報994に関して、条件付きの確率情報994dは、所与のユーザの用語「ハンク・アーロン」への関心それぞれの考えられる値に対する、用語「ホームラン」に関心を持っているそのユーザの確率を図示する。本実施例では、所与のユーザが用語「ハンク・アーロン」に関心を持つ場合、その所与のユーザが用語「ホームラン」にも関心を持つことになる確率88%が存在するが、所与のユーザが用語「ハンク・アーロン」に関心を持たない場合、その所与のユーザが用語「ホームラン」に関心を持つことになる確率は23%に下がる。同じように、本実施例では、用語「ハンク・アーロン」、「ジャイアンツ」、「ホームラン」、「ステロイド」、および「起訴」のそれぞれによって、直接的に影響を受ける、用語「ボンズ」に関する条件付きの確率情報994aに関して、条件付きの確率情報994dは、用語「ボンズ」が依存するか、またはそうでない場合、(用語「ステロイド」および「起訴」に関する情報が示されずに、考えられる組合せのサブセットだけが図示されるが)用語「ボンズ」に影響を受ける他の5つの用語への所与のユーザの関心値のそれぞれの考えられる組合せに関する、用語「ボンズ」に関心を持っているそのユーザの確率を図示する。
このような条件付きの確率情報994aおよび994dを、様々な方式で自動的に判定することができる。例えば、考えられる用語値のそれぞれの組合せを、出力用語「ボンズ」に関する様々な対応する関連性値を追跡している状態で、その領域を表す、構成された用語間関連性ニューラルネットワーク(例えば、図9Bの用語間関連性ニューラルネットワーク995f)に対する入力として、個々に連続的に選択して、および使用することができる。それらの対応する関連性値を、次いで、(例えば、出力用語「ボンズ」に関する最高の対応する用語間関連性値を有する入力用語値の組合せに対して、予め定めた最大確率など、最高の関心確率を与えるために、および出力用語「ボンズ」に関して、対応する用語間関連性値が減少している入力用語値の他の組合せに、比例的により低い関心確率を与えるために)様々な方式で、または代わりに、他のところでより詳細に議論されるように、他の方式で、確率値に変換することができる。例えば、1つの特定の実施形態では、用語間ニューラルネットワークを、以下の形で、用語空間(term space)全体にわたってマルコフブランケットを定義することと考える。
式中、dは出力用語であり、式中、U、V、α、γ、およびΕ(d)は、図2I〜2Lに関してより詳細に議論される用語間ニューラルネットワークのパラメータである。例えば、Ε(d)は、以下のように、用語間関連性ニューラルネットワークのコスト関数である。
用語間ニューラルネットワークに関するパラメータU、V、α、およびγの判定性セットを考慮すると、固定値は、推定問題を用語ノードdの親であると仮定されるtの値に対する積分として残して、ディラックのデルタ関数によって与えられる確率密度関数を用いて、積分で仮定される。ニューラルネットワークパラメータの固定値を仮定すると、この積分を、確定的に解決することができ、結果として以下をもたらす。
式中、方程式6の確率密度関数の正規化は、結果として、範囲0から1の確率を確実にするシグモイド関数またはソフトマックス関数をもたらす。したがって、用語dに関する条件付きの確率表は、(例えば、肯定的関心を表すために数字1を使用して、および否定的関心または中性を表すために数字0もしくは−1を使用することによって)親ノードtの値のそれぞれの組合せに関してp(d|t)によって与えられる。さらに、用語のグループに関して、親ノードの完全なセットに対する用語セットの複合確率を計算することができる。他のところでより詳細に議論されるように、ランタイム効率のために(ならびに、大きなユーザ選好セットからモデルへの確定の埋込みを可能にするために)、パラメータ化された生成モデルとして決定木を生成して、および使用することができる。
加えて、規定の確定セット(選好用語)を有する所与のユーザの場合、そのユーザが別の用語Xに関する選好を有する可能性を、その確定にわたるサブグラフ内、ならびにその選好内および用語X内の1つまたは複数の特定用語において推定を実行することによって判定することができる。Xを、判定されたネットワーク構造内のすべての確定ノードから切り離す場合、結果なしの表示を戻すことができる。確定および用語Xにわたるグラフが存在する場合、概算推定をグラフ内で実行して(例えば、マルコフ連鎖モンテカルロサンプリングシミュレーションに基づいて、ギブスサンプリングを使用して、変化性の方法を使用してなど)、そのユーザに関する確定を考慮して、不確定の初期化されたノードの全体にわたる用語Xの周辺確率を推定することができる。他の実施形態では、生成されたベイジアンネットワークが十分小さい場合、および/または応答時間の速度が重要でない場合など、少なくともいくつかの状況では、代わりに、正確な推定を実行することができる。
したがって、用語間グラフ構造および確率情報を、図9Cのグラフ990に関して判定すると、(1つまたは複数の)関心領域に関する有効な用語間関係の確率表示であるベイジアンネットワークの情報として、このグラフを使用することができる。したがって、図9Hは、図9Cのグラフ990に類似した形で、このようなベイジアンネットワークのサブセット970を図示する。本実施例では、ベイジアンネットワークサブセット970に追加されている、それぞれ、新しいユーザ特有の確定ノード993b、993d、および993gに反映されるように、用語「ハンク・アーロン」および「ホームラン」に関する肯定的選好を含み、ただし、用語「ジャイアンツ」に関して否定的選好(または非選好)も含む、所与のユーザ例(ユーザX)の選好に関する確定を取得している。さらに、本実施例では、対象用語「ボンズ」および利用可能な確定に関連のあるベイジアンネットワークのサブセットだけを示す。すなわち、それぞれ、用語「起訴」および「ステロイド」に対応するノード990eおよび990cを、このような状況では、使用せずに、それらの用語へのユーザXの関心確率値の欠如に基づいて、ユーザXの用語「ボンズ」への関心確率を判定することができる(が、他の実施形態では、ユーザXによって選好されているそれらのノードの確率に影響を及ぼす場合がある、事前確率情報992eおよび/または条件付きの確率情報994cに関する情報を考慮することができる)。したがって、ユーザ特有の確定993b、993d、および993gを考慮して(ノード990eおよび990cの影響を無視して)、本実施例では、判定された選好確率値996aによって図示されるように(この場合も、本実施例のために、ノード990eおよび990cの影響を無視して、図9Gの情報994aの行994a〜fに反映されるように、)ユーザXが対象用語「ボンズ」を選好する92%の確率を有するというユーザ特有の判定を下す。(用語「アトランタブレーブス」に対応する)ノード990hおよび/または他のノードに関してなど、ユーザXの選好の利用可能な確定を考慮すると、完全なベイジアンネットワーク内で、ユーザXの他の用語ノードに関する選好の確率の類似の判定を下すことも可能であるが、このような判定は、図9Hに図示されない。1つまたは複数のこのような対象ノードに関する選好確率を判定すると、特定の対象ノードを、(例えば、選好確率もしくは他の判定された可能性に関して規定のしきい値を超えることに基づいて、またはそうでない場合、1つもしくは複数の判定された基準を満たしていることに基づいて)十分可能性があるとして、選択し、本実施例では、用語「ボンズ」に関して表明されない選好を有するためになど、特定のユーザによってまだ表明されていない、またはDSRDサービスに利用可能にされていない、その特定のユーザの追加の選好を表すことができる。このような特定の対象ノードを、例えば、以下のようになど、様々な方式で選択することができる。すなわち、判定された選好確率値によってランク付けされたような、固定数または固定割合のこのような対象用語、考えられる対象用語のすべてに関して固定されたこのような判定された選好確率値、またはこのような判定された選好確率値の割合を超える対象用語のすべて、などである。
既に議論されたように、1つもしくは複数の決定木を生成して、それぞれ、用語間関係情報のベイジアンネットワーク、または他の確率表示のサブセットを表すことができる。図9Iは、(この場合も、他のノード990eおよび990cは、本実施例では、用語「ボンズ」に対応するノード990aに影響を及ぼさないという簡単な仮定を用いて、ノード990a、990b、990d、および990gである)図9Hに図示されたベイジアンネットワーク970の一部を表すように構成された決定木915の一実施例を図示する。決定木の様々な8つの終端ノード917h〜917oは、図9Gの8つの行994a−hから994a−aに対応し、およびそれぞれのこのような終端ノードは、図9Gの情報994aの列994a−4に示されるように、用語「ボンズ」に対応するグラフノード990aに関する対応する選好確率値を有する。決定木の追加の決定ノード915a〜915gは、本実施例では、グラフノード990aに関する選好確率値に影響を及ぼすとして扱われる、3つのノード990b、990d、および990gに関する変動値に対応する。したがって、ユーザXに関して、図9Hのユーザ特有の確定993b、993d、および993gを使用して、決定木915は、以下のように、示されるような方式でトラバースされることになる。すなわち、決定ノード915aから(用語「ハンク・アーロン」に関する肯定的選好に対応する)左矢印をとることによって、次に、決定ノード915bから(用語「ジャイアンツ」に関する否定的選好または中性選好に対応する)右矢印をとることによって、次いで、決定ノード915eから(用語「ホームラン」に関する肯定的選好に対応する)左矢印をとることによって、これにより、用語「ボンズ」に関する92%の選好確率値を示す終端ノード917jに到着する。このような決定木を様々な方式で生成して、符号化して、およびコンパイルして、特定のユーザに関する所与の特定の選好確定をランタイム処理する速度を高めることができることを理解されよう。
加えて、他のところで議論されるように、ある実施形態では、(例えば、1つもしく複数の第1の領域に関する文書分析および/またはそれらの第1の領域に対応するユーザフィードバックによって取得された)1つまたは複数の第1の領域に関して判定された用語間関連性情報を、限定されたユーザ選好情報だけが利用可能であるか、またはユーザ選好情報が利用可能でない、1つまたは複数の第2の領域に拡張することができる。図9Jは、図9Cのグラフ990に類似するが、本実施例では、新しい第2の関心領域からの新しい用語に対する用語間関連性情報を識別するために拡張されている、1つのグラフ例960を図示する。特に、本実施例では、アメリカ映画の領域に対応する様々な文書または他のコンテンツ項目が分析されており、映画領域内の新しい用語と、野球領域内の既存の用語との間の様々な有効な用語間確率関係が識別されている。本実施例では、拡張されたグラフ960が、グラフノード990a〜990hだけでなく、9つの映画例に対応する新しいグラフノード960a〜960iも含む(さらに、本実施例の一部として使用するために、図示されるように、既に存在するノード990gおよび990fに影響を及ぼす用語「オークランドアスレチックス」および「マーク・マグワイア」に対応する2つの追加の野球領域関連ノード990iおよび990jが追加されている)ベイジアンネットワークであるように、映画関連用語は映画の題名に対応する。
特に、この拡張された例では、(用語「ホームラン」に対応する)既存のグラフノード990dから、本実施例では、映画「さよならゲーム」、「ナチュラル」および「ハンク・アーロン、チェーシングザドリーム」を含む、ホームランが筋書きの重要な部分である複数の野球関連の映画に対する影響を自動的に識別する。映画の筋書きの概要および/または評論家の映画評論を含むコンテンツ項目を分析して、およびそれらの映画に対する用語「ホームラン」の有効な関連性を識別することによるなど、既に議論された方式と類似の方式で、影響のこのような自動識別を判定することができ、さらに、他のところでより詳細に議論されるように、用語「ホームラン」および表示された映画のいずれかの両方を選好した任意のユーザに関する任意の情報なしに(または、より一般的には、任意の映画に関する任意のユーザの選好に関する任意の情報なしに)追加の影響のこの自動識別を、オプションで実行することができる。加えて、本実施例では、以下のような、様々な他の有効な用語間確率関係をさらに判定している。すなわち、(例えば、両方の映画とも、最高のスポーツ関連映画のリストに載っている、またはそうでない場合、第2の領域および/または第1の領域に関するコンテンツ項目内で比較されている映画であることに基づいて)野球関連の映画「さよならゲーム」とバスケット関連の映画「勝利への旅立ち」との間で、(例えば、両方とも主演男優がロバート・レッドフォードであることに基づいて)「ナチュラル」と「明日に向かって撃て!」との間で、(例えば、それらの2つの映画の両方の主演男優が後者の映画にも出演していることに基づいて)「ナチュラル」および「勝利への旅立ち」のそれぞれから「白銀のレーサー」に対して、(例えば、ロバート・レッドフォードが、一方では俳優であり、もう一方では監督であることに基づいて)「ナチュラル」と「普通の人々」との間で、(例えば、両方とも、同じ年の最優秀作品にノミネートされていることに基づいて、および/またはそうでない場合、共に議論されていることに基づいて)「普通の人々」と「レイジングブル」との間で、などである。映画間の関係、および野球関連用語と映画との間の関係を、様々な実施形態において、様々な方式で識別することができることを理解されよう。さらに、このような拡張されたベイジアンネットワークを考慮すると、野球関連領域における所与のユーザの選好を使用し、そのユーザがやはり選好することになる可能性がある対象映画を識別することができる。例えば、用語「ハンク・アーロン」および「ホームラン」に関する選好を有することを含めて、図9Hにおいて議論されたユーザXの確定を考慮すると、ユーザXが「ハンク・アーロン、チェーシングザドリーム」、「ナチュラル」、および「さよならゲーム」などの映画に関して、場合によっては、(例えば、「勝利への旅立ち」、「普通の人々」など)他の関連映画に関しても同様に選好を有する可能性があることを推定することができる。
図9F〜Gに関して、および他のところで議論されるように、1つもしくは複数の領域に関係するベイジアンネットワークまたは他の判定された確率関係データ構造において使用する確率情報を、様々な実施形態において、(1つまたは複数の)領域に関する文書の分析に基づいて、およびオプションで、ユーザの特定の用語間関係への実際の関心いずれのフィードバックも伴わないこと含めて、様々な方式で判定することができる。さらに、前述のように、このような実際のユーザの関心情報を利用することができる場合、その実際のユーザの関心情報を、(例えば、確率情報の初めの作成の一環として、自動化された文書分析だけに基づいて、当初判定された確率情報を更新するために、など)様々な時点で、自動化された文書分析から自動的に判定された用語間関係情報と組み合わせることができ、およびある状況および実施形態では、使用し(例えば、十分な実際のユーザの関心情報が利用可能になった場合)自動化された文書分析から自動的に判定された用語間関係情報を置き換えることができる。図9Kは、確率情報992bおよび994aの初めのバージョンを、自動化された文書分析から自動的に判定された用語間関係情報に基づいて生成する場合、ならびに確率情報992bおよび994aの更新されたバージョンが、実際のユーザの関心情報に少なくとも一部基づく場合など、図9Fの事前確率情報992bおよび図9Gの条件付きの確率情報994aの更新された例を図示する。例えば、図9Kは、ユーザの用語「ハンク・アーロン」への関心に関する更新された事前確率情報992bが、所与のユーザの用語「ハンク・アーロン」への関心5%だけの以前の事前確率から更新された、所与のユーザの用語「ハンク・アーロン」への関心18%の現在の事前確率を反映することを図示する。加えて、図9Kの更新された条件付きの確率情報994aは、行994a−a(0.12から0.09)および994a−f(0.92から0.87)関して、所与のユーザの用語「ボンズ」への関心確率994a−4に更新が行われていることを示して、および利用可能になっているそれらの行に関する入力値の組合せについての実際のユーザの関心に関する他の行の値を同様に更新することができる。図9Lおよび9Mに関してより詳細に記述されるように、対応するベイジアンネットワークおよび/または決定木の更新されたバージョンと共にこのような更新された確率情報をさらに使用することができる。
したがって、少なくともある実施形態では、領域に関する用語間関係に関して自動的に判定された情報を(例えば、その領域に関する文書の分析に基づいて)取得して、および使用することができ、ならびにその領域に関する用語間関係を反映する別個の実際のユーザの関心情報を取得して、および使用することができる。これらのタイプの情報の両方が利用可能な状況では、これらのタイプの情報を、様々な方式で組み合わせることができる。例えば、既に議論されたように、図9Aおよび9Cは、領域の文書の自動化された解析に基づいて生成することができ、およびユーザフィードバックに基づいてオプションで変更することができる用語間ネットワークの実施例を図示する。ここでは図示されないが、ある実施形態では、実際のユーザの関心情報を反映するが、オプションで、自動化された文書解析から生成された用語間ネットワークとは、1つまたは複数の形で異なる場合がある、1つまたは複数の類似の用語間ネットワークを生成することが可能である。例えば、図9Cと比較して、類似の用語間ネットワークを実際のユーザの関心情報に基づいて生成することができるが、それは、図9Cにおける、(例えば、それらの用語の両方に関して共に、肯定的関心および/もしくは否定的関心を実際に示したユーザがあまり存在しないこと、またはまったく存在しないことに基づいてなど)用語「起訴」990eから「ボンズ」990aへの図9Cの既存のリンクが欠如しており、およびそれは、図9Cと比べて、(例えば、ホセ・カンセコがホームランを打つ能力に少なくとも一部基づいてなど、それらの用語の両方に関して共に、肯定的関心および/または否定的関心を示した1人もしくは複数のユーザが存在していることに基づいて)用語「カンセコ」990fから「ボンズ」990aに対する新しいリンクをさらに含む。加えて、このような類似の実際のユーザの関心の用語間ネットワークは、自動化された文書解析用語間ネットワークに比べて、実際のユーザの関心用語間ネットワーク内の1つもしくは複数の構造的な違いの代わりであれ、またはこのような違いに加えてであれ、(例えば、条件付きの確率表において、および/または実際のユーザの関心の用語間ネットワークに関する事前確率情報において反映されるような)特定の用語の異なる程度の適合度を含むことができる。同じ領域に関する、自動化された文書解析用語間ネットワークと実際のユーザの関心用語間ネットワークの両方に対応するデータが利用可能である場合、そのデータを様々な方式で使用することができる。例えば、既知のユーザ選好の特定のセットを考慮して、勧告の特定のセットを生成するために、ある実施形態では、それらの既知のユーザ選好を使用して、両方のタイプのネットワークを独立して評価することができ、それらの2つのネットワークからの結果を共に集約することができる。あるいは、2つのタイプのグラフに対応するデータを使用して、様々な方式で単一の集約用語間ネットワークを構築して、およびその単一の集約用語間ネットワークを使用して、既知のユーザ選好の特定のセットに対応する勧告を提供することができる。単一の集約用語間ネットワークの構築は、例えば、実際のユーザの関心の用語間ネットワークの構造に関する情報、および自動化された文書解析用語間ネットワークからのデータを使用して、用語間の適合度の程度を指定することを含むことができ、またはより一般的には、それらのネットワークのうちの1つからのデータを使用して、他のネットワークの構造を簡潔にし、かつ/または補強することを含むことができ、および/またはより一般的には、それらのネットワークのうちの1つからのデータを使用して、他のネットワークに関する用語間関係の強さもしくは影響を調整することを含むことができる。したがって、上記で議論されたように、ある実施形態では、集成文書の自動化された解析から取得された用語間適合度情報を、(例えば、協力的フィルタリングなど)他の方式で取得されたユーザ関連の用語間適合度データと自動的に統合することができ、これは、このような技術だけを使用することと比べて、潜在的に利益をもたらす。
判定された確率情報に対する更新を、様々な実施形態において、様々な方式で実行することができ、および様々な要因を反映することができることを理解されよう。例えば、用語「ハンク・アーロン」に関する事前確率情報992bに対する更新は、実際のユーザの少なくとも何人かの過去の選手に対する現在の関心が、分析された領域集成文書によって示されることになる関心よりもより高くなる場合があるように、当初分析された領域集成文書が対応する時期と比べて、用語「ハンク・アーロン」への関心が最近高まっていることを反映することができるようになど、当初分析された領域集成内の文書が主に現在のニュースに重点を置いていることを反映することができる。実際のユーザの関心情報を、領域集成文書の自動化された分析に基づいて、自動的に判定されたユーザの関心情報に組み合わせるとき、この組合せを、(例えば、より正確であると思われる情報のタイプにより大きな重みを与えるために、より最近の情報のタイプにより大きな重みを与えるために、など)1つのタイプまたは両方のタイプのユーザの関心情報を重み付けることによってなど、様々な方式で実行することができる。1つの単純化された実施例として、領域集成文書の自動化された分析に基づいて自動的に判定されたユーザの関心情報を、20人の実際のユーザのうちの5人が用語「ハンク・アーロン」に関心を持つと判定された場合、更新された事前確率情報がこの実施例で示されるように(すなわち、(5+0.05*10)/(20+10)=0.183)、10人のユーザからの実際のユーザの関心情報の同等物として扱うことができる。あるいは、実際のユーザの関心情報に与えられた重みは、実際のユーザの数に基づいて変化して、(例えば、その情報が組み合わされた確率情報に異なる影響を与えるのを防ぐために)限定された重みだけを第1の少数のユーザの実際のユーザの関心に与えて、ユーザの数が増大するにつれて、重みを急激に増大させて、実際のユーザの数が十分な数量に達すると、領域集成文書の自動化された分析に基づいて、自動的に判定されたユーザの関心情報をオプションで最終的に破棄もしくは無視する(または、非常に低い相対的な重みを与える)などできる。出力用語「ボンズ」に関する条件付きの確率情報994aに対する更新を、事前確率情報992bの更新に類似した方式で更新することができる。例えば、行994a−fに関する用語「ボンズ」に関する確率994a−4の変更に関して、その確率の減少は、(行994a−fに関する列994a−1および994a−3内の「はい」値に対応する)用語「ハンク・アーロン」および「ホームラン」に実際の関心を持ち、および(行994a−fに関する列994a−2内の「いいえ」値に対応する)用語「ジャイアンツ」への関心が実際に欠如し(または、否定的関心を持ち)、およびさらに用語「ボンズ」への関心が実際に欠如する(または、否定的関心を持つ)と判定された、1人もしくは複数のユーザに基づくことができる。
図9Lは、同じ決定ノード915a〜915gを有するが、図9Lに図示される終端ノード918h〜918oが用語「ボンズ」に対応する現在の条件付きの確率情報を反映している、図9Iの決定木915に類似した、更新された決定木918データ構造を図示する。特に、本実施例では、ノード918jおよび918oを、図9Iのノード917jおよび917oに関して更新しており、ノード918jは、本実施例では図9Kの列994a−4および行994a−fの更新された確率値87%を図示し、およびノード918oは、本実施例では図9Kの列994a−4および行994a−aの更新された確率値9%を図示する。したがって、実際のユーザの関心情報が(図9Kの情報994aなど)確率情報を更新するために利用可能になると、今後使用するために(決定木915に関してなど)対応する決定木情報を更新することができる。したがって、例えば、用語「ハンク・アーロン」および「ホームラン」に関する選好または他の関心を持つが、用語「ジャイアンツ」に関する選好もしくは他の関心に欠ける(または、否定的選好または否定的関心を持つ)と判定される追加のユーザを、更新された決定木918のノード918jに従って、用語「ボンズ」に関する選好または他の関心を持つ87%の確率を有すると判定することになる。
図9Lの方式と類似の方式で、図9Mは、同じグラフノード990a〜990eおよび990gを有するが、図9Mに図示される確定ノード997b、997dおよび997gは、図9Hのユーザ例Xと同じ選好情報を示した新しいユーザ(本実施例では、ユーザY)に関する確定を反映する、図9Hのベイジアンネットワーク部分970に類似した、更新されたベイジアンネットワーク部分970bデータ構造を図示する。特に、本実施例では、図9Mの(用語「ボンズ」に対応する)グラフノード990aに関する条件付きの確率表情報994a(図示せず)は、図9Hの同じノードに関する条件付きの確率表情報に関して更新されており、本実施例では、図9Kの列994a−4および行994a−fの更新された確率値87%(ならびに、図9Kの列994a−4および行994a−aの更新された確率値9%)を反映するなどする。図9Mの(用語「ハンク・アーロン」に対応する)グラフノード990bに関する事前確率情報992b(図示せず)を、図9Hの同じグラフノードに関して同様に更新して、図2Kの更新された事前確率情報992bを反映するなどできるが、本実施例では使用しない。したがって、実際のユーザの関心情報が利用可能になり、(図9Kの情報994aなど)確率情報を更新すると、(ベイジアンネットワーク部分970bなど)対応するベイジアンネットワーク情報を、今後使用するために更新することができる。したがって、本実施例では、(確定ノード997bおよび997dに示されるように)用語「ハンク・アーロン」ならびに「ホームラン」に関する選好または他の関心を持つが、(確定ノード997gに示されるように)用語「ジャイアンツ」に関する選好もしくは他の関心に欠ける(または、否定的選好または否定的関心を持つ)と判定されるユーザYを、図9Mの判定された選好確率値996bによって示されるように、用語「ボンズ」に関する選好または他の関心を持つ確率を87%有すると判定することになる。
したがって、少なくとも一部、領域に関する文書の自動化された分析に関して判定され得るような、用語間関係の確率表示に対応する情報を、更新して、図9K〜9Mに関して図示される方式でなど、利用可能になった実際のユーザの関心情報を反映することができる。さらに、ある状況では、このような実際のユーザの関心情報は、予め利用可能であった情報だけに基づいて、予め十分関連すると判定されなかった追加の用語間関係を識別することができ、および識別された場合、用語間関係の生成された確率表示を更新して、それらの追加の用語間関係を反映することができる。一実施例として、用語間関連性ニューラルネットワークまたは用語間関連性情報の他の表示を更新して、実際のユーザの関心情報を反映することができ、および用語間関係の確率表示を、その更新された用語間関連性情報に基づいて、新たに生成することができる。他の実施形態および状況では、代わりに、少なくともいくつかのタイプの生成された用語間関係の確率表示情報を、他の方式で更新することもできる。
前述のように、図2A〜2Mは、DSRDサービスの一実施形態によって自動的に実行することができるような、関心領域例に関する関連性情報を判定して、および使用する技術例を示し、ならびに図9A〜9Jで議論された様々な実施例に関係する追加の詳細を含む。
例えば、図2Aおよび2Bは、領域に関係する文書に関するDSRDサービスの一実施形態によって生成可能な用語分析情報例と共に、特定の関心領域例の一部である、いくつかの文書に関する概要情報の実施例を図示する。特に、概要情報例200に関して示されるように、関心領域例は、野球に関係し、および本実施例では、その領域に関して利用可能な領域特定の文書の集成は、1000個の文書(例えば、ニュース記事、選手の経歴、チームの概要など)を含む。
本実施例では、情報200は、その集成内に存在する少数の用語例に関するIDF情報と共に、それらの用語の概要を含む。特に、それぞれが一意な用語ID202bと、その用語を含む集成内の文書の数の表示202cと、その用語およびその集成文書に関する、対応するIDF値202dと共に、いくつかの用語202aを示す。様々な他の概要情報を生成および格納することもできるが、本実施例には示さない。加えて、表例200のそれぞれの行204は、集成内の1000個の文書のすべての中に存在して、およびしたがってゼロのIDF値を有する共通の用語「the」に対応する行204aに関してなど、別個の用語を反映する。本実施例では、行204は、後続の用語ほどIDF値が増えており、前の用語よりも、それらの用語がその集成の文書内により少なく存在することを反映し、およびしたがって、それらの用語が存在するそれらの文書に関してより特徴的であるように、IDF値に基づいて分類される。IDF値を計算することに関する追加の詳細を、他のところに含む。加えて、ある実施形態では、ある共通の用語または他の表示される用語(例えば、用語「the」)を、文書用語分析の一環として除去することができ、およびしたがって、このような概要情報200に示されない場合があるか、または関連性関連情報の後の判定において使用されない場合がある。さらに、本実施例では、用語202aのうちのいくつかは、「ホームラン」および「ハンク・アーロン」など、複数の関連用語を含む語句である一方、時々共に使用される場合がある他の用語(例えば、「バリー・ボンズ」および「ボビー・ボンズ」)を、別個の用語として示す。このような多語の集約用語を、それらの用語の繰り返して行われる共の使用、および別々の使用の欠如に自動的に基づいて、その領域または他の類似の情報に関する共通用語の辞書内への当該用語の包括に自動的に基づいて、DSRDサービスのオペレータからの入力に基づいて少なくとも一部手動でなど、様々な方式で判定することができることを理解されよう。他の実施形態では、それぞれの語を、少なくとも当初、別個の用語として扱うことができ、他のところでより詳細に議論されるように、ユーザによって繰り返し共に使用されている用語から、それらの用語の相互関連性の学習された関連性に基づいて、共通の多用語テーマの一部として、それぞれの語を、オプションで、後で共にグループ化することができる。
図2Aおよび2Bに図示される、他の表例210、220、230、240、および250はそれぞれ、集成内の文書例を反映し、およびそれらの文書内の用語例、ならびにそれらの用語およびそれらの文書に関して、対応する用語関連性情報に関する様々な情報を含む。特に、情報210は、本実施例では、バリー・ボンズが2007年に、サンフランシスコジャイアンツでプレイしている間に、ハンク・アーロンが維持していたそれまでの記録を超えて、通算ホームラン(「HR」)記録を作ったことに関するニュース記事である、文書例1に対応する。ボンズがホームラン記録を達成しようとしていた間、大リーグ野球選手の間でステロイドの議論に関するニュース報道がかなり進んでおり、およびボンズは、後に自らのステロイドの使用疑惑に関する発言に関して起訴された。
表210内の様々な記入項214はそれぞれ、記入項214a内の用語「ボンズ」、記入項214c内の用語「ハンク・アーロン」など、1500語の文書1内に存在する用語212aの1つのサブセット例に対応する。文書1内のそれぞれの用語の発生の数212bも図示され、および対応する用語頻度値212cを示す。IDF値212dは、ここで、それらの用語に関しても複製され、情報200内の同じ値202dに対応する。さらに、それぞれの記入項214は、用語頻度値212cおよびIDF値212dに基づくTF−IDF値212eを含む。例えば、記入項214a内の用語「ボンズ」は、文書1内で35回発生することが示され、これは結果として、その文書の1500語内で2.33%の頻度になる。用語「ボンズ」に関するIDF値212dは、情報200の記入項204dの情報202dに対応するように1.10であり、および本実施例では、記入項214a内のボンズに関するTF−IDF値212eは2.559である。本実施例では、記入項214は、TF−IDF値の減少値の順に図示され、図示されるこの文書に関して、用語「ボンズ」が最も限定用法的な(descriptive)用語である一方、それぞれ、記入項214iおよび214j内の「the」および「起訴」など、他の用語は、(例えば、用語「the」は集成のすべての文書内に存在しており、およびしたがって、ゼロのIDF値を有するため、ならびに用語「起訴」はこの文書例では発生しておらず、およびしたがって、ゼロの用語頻度値212cを有するため)この文書について限定用法的でないことを示す。用語「起訴」は、本実施例では、説明のために、文書1に関して含まれるが、他の実施形態では、この用語は、文書1内に存在しないので、この用語は情報210内に含まれないことになる。TF値およびTF−IDF値を計算することに関する追加の詳細は、他のところに含まれる。
表220、230、240、および250は、類似の情報、例えば、それぞれ、文書2、3、4、および5を含む。特に、文書例2は、ボンズの様々な業績に重点を置き、および様々な記入項224に示されるように、対応する用語222aを含む、バリー・ボンズの概略経歴である。文書例3は、考えられるステロイド関連の乱用に関する根拠に基づく、ボンズの起訴に対応するニュース記事であり、および様々な記入項234に示されるように、対応する用語232aを含む。文書例4は、ボンズの起訴、および大リーグ野球におけるステロイド関連の議論のうちの初めの一部に先立って発生して、ならびに特に、元大リーグ野球選手のホセ・カンセコが議会の前で、大リーグ野球でのステロイド使用疑惑に関して証言したことに対応して、対応する用語242aが様々な記入項244内に示される。文書例5は、2008年大リーグ野球シーズンの半ばのニュース記事であり、および2007年のシーズン後、ボンズがプレイを中止したサンフランシスコジャイアンツチームの現状に重点を置き、対応する用語252aが様々な記入項254内に示される。図2C〜2Mに関してより詳細に議論されるように、これらの文書例に関する用語情報例を使用して、関連する多用語テーマおよび他の用語間関係を判定するという点から、ならびに、特定の用語、本実施例では、野球関連領域に関する関連文書を判定するという点から、記述される技術のうちのいくつかを図示することになる。
図2Cおよび2Dは、ユーザによって指定された検索クエリの一実施例を図示し、この場合、集成の文書例1〜5に関して図2Aおよび2Bに示された用語分析情報例を、DSRDサービスによって使用して、そのクエリに関連する特定の情報を判定することができる。特に、図2Cは、本実施例では、クエリ用語265a「ボンズ」および「ステロイド」を含む、ユーザによって指定されているクエリを図示する。文書例262のそれぞれに関して生成され、正規化され、集約された文書関連性得点、すなわち文書関連性数264xを含めて、文書例1〜5のそれぞれに対する2つのクエリ用語のそれぞれの評価された関連性の程度を示す様々な情報261aを示す。以下でより詳細に記述されるように、正規化された文書関連性数を、それぞれの用語264およびそれぞれの文書262に関して生成することができ、文書に関するそれぞれの用語に関して正規化された得点を、本実施例では、平均化して、2つのクエリ用語の組合せに基づいて、その文書に関する文書関連性数264xを生成する。特に、本実施例では、文書に対する用語の関連性は、その用語および文書に関するTF−IDF値に一部基づき、および集成内のすべての文書を通したその用語に関する最大TF−IDF値および最低TF−IDF値を一部使用して正規化される。2つのクエリ用語に関する最低TF−IDF値および最大TF−IDF値の実施例を、本実施例では、情報267a〜267dに示すが、少なくともある実施形態では、このような情報267および/または表261aを、そのクエリを指定したユーザに対して図示しない場合がある。文書関連性数例の生成に関係する追加の詳細を、以下に含む。
本実施例では、ボンズのステロイド関連起訴に関する文書3の内容がクエリ用語265aの両方に非常に関連するので、文書例3は、そのクエリ用語に関して最高の生成された文書関連性値を有する。文書例1および4はそれぞれ、情報261aの記入項264aおよび264b内の文書1に関する列262a、および文書4に関する列262dに示されるように、それらの文書例のそれぞれが、それらのクエリ用語のうちの1つに非常に関連しており、およびもう一方のクエリ用語にはわずかにだけ関連していること(すなわち、文書例1は、「ボンズ」用語に非常に関連しており、および「ステロイド」用語にはわずかにだけ関連しており、ならびに文書4例は、「ステロイド」用語に非常に関連しており、および「ボンズ」用語にわずかにだけ関連していること)に基づいて、クエリ用語265aの組合せに適度に関連する。他の文書例2および5は、他の3つの文書例よりも、クエリ用語265aへの関連がより少ない。
前述のように、テーマの一部である複数の関連用語など、1つまたは複数の指定された用語(例えば、検索クエリの一部である用語)に対する特定の文書の関連性の判定を、様々な実施形態において、様々な方式で実行することができる。1つの特定の実施例として、指定された用語および文書のそれぞれに関するTF−IDF得点を、様々な方式で組み合わせ、平均または合計を生成するなどできる。特に、少なくともある実施形態では、様々な指定された用語に関するTF−IDF得点の平均を生成して、および(例えば、関連性割合または0と1との間の他の数を表すために)さらに正規化して、文書間の比較を促し、および人間が文書関連性(「DR」)得点を理解するのを促す、指定された用語に関して正規化されたDR得点を生成することができる。1つまたは複数の指定された用語iのグループgに対する文書dに関するDR得点を、少なくともある実施形態において、以下のように判定することができる。
この場合、g内の用語iのそれぞれに対して合計を実行して、NTerms(g)は、グループg内の用語iの数量を反映して、および特定の用語iに関する最低TF−IDFi得点および最高TF−IDFi得点は、それぞれ、領域に関するすべての文書kを通したその用語に関する最低得点および最高得点を反映する。
図2Dは、図2Cにおいて示されたクエリ用語265a「ボンズ」および「ステロイド」に応答して、ユーザに表示可能であるか、またはそうでない場合、ユーザに提供可能である情報260の一実施例を図示する。情報260は、例えば、表示のために、生成されて、およびユーザのクライアントデバイスに提供されるWebページの一部とすることができ、またはそうでない場合、ユーザに提示された情報画面の一部とすることができる。
特に、本実施例では、情報260は、指定されたクエリ用語265aの視覚的表示266を含み、および対応する検索結果のリスト269を、生成された文書関連性の順に示す。さらに、本実施例では、リスト269内の記入項のそれぞれは、対応する関連文書の表示(例えば、その文書にアクセスするためにユーザによって選択可能なユーザ選択可能なリンクとして表示可能であるなどの文書の名称または他の識別子)だけでなく、対応する、その文書に関して生成された、正規化された文書関連性数の表示も含み、特定の文書に関するさらなる情報を取得するかどうか、またはそうでない場合、クエリ用語265aに関連しているとしてその文書を選択するかどうかを評価する際にユーザに情報を提供するなどする。表示された、正規化された文書関連性数は、本実施例では、それぞれ、正規化された文書関連性数の関連性の程度のテキスト評価も含むが、他の実施形態では、正規化された文書関連性数および関連するテキスト評価のうちの1つだけを示すことができる(または示さなくてもよい)。加えて、特定の検索結果の選択および表示を、様々な実施形態において、指定された数量のクエリ結果を示すため、指定された最低文書関連性値を超えるいくつかのまたはすべてのクエリ結果を示すためなどを含めて、様々な方式で実行することができる。
加えて、本実施例では、ユーザによって可能な選択のために、追加の情報およびユーザ選択可能な制御268を提供するが、他の実施形態では、このような追加の情報を示さない場合もある。本実施例では、追加の情報268は、予め指定された検索クエリを拡張することを望むかどうかを尋ねて、その領域に関する関連テーマをさらに記述して、そのユーザがより特定のテーマ、またはそうでない場合、クエリ用語265aよりもユーザの関心をより良好に表す、異なるテーマを指定することによって、それらの検索結果の精度を改善するなどする。1つの考えられる実施例として、それぞれ、指定されたクエリ用語のうちの1つに非常に関連するが、もう一方の指定されたクエリ用語には少ししか関連しない、文書1および4例に関して既に議論されたように、ユーザは、(例えば、その検索結果がボンズだけでなく、他の選手にも関係するため)ユーザが大リーグ野球におけるステロイド関連議論に主に関心があるか、または代わりに、ボンズのステロイドの使用疑惑に一部だけ関係する、ボンズに関する情報(例えば、ボンズによって作られた通算ホームラン記録)に主に関心があるかを明確にすることによって、それらの検索結果の精度を改善することが可能であり得る。より一般的には、ユーザの現在の関心に特に関連する追加用語を識別することによって、結果として生じる、拡張されたクエリ用語は、初めのクエリ内の用語に関連し得る、様々な考えられるテーマの曖昧さをより良好に除去することができる。
図2Dの情報268内のユーザ選択可能な「はい」制御の選択は、DSRDサービスによる様々な追加の動作を促すことができ、1つのこのような実施例を図2Eおよび2Fに関してより詳細に記述する。特に、図2Eは、判定され、指定されたクエリ用語265aに対する他の用語の関連性の評価された程度の表示と共に、指定されたクエリ用語265a「ボンズ」および「ステロイド」に関係し得る他の用語274に関する情報270を図示する。他の実施形態では、(例えば、情報268の代わりであれ、または情報268に加えてであれ、1つもしくは複数の他の用語の考えられる関連性に関して、図2Dの情報260を用いて追加の情報を表示するために)一部もしくはすべての状況において、それを一部のまたはすべてのユーザに関して自動的に実行する場合など、用語間関連性情報の使用を、他の方式で促すことができる。
図2Eの様々な情報270を、当初指定されたクエリ用語265aに一部基づく、精緻化された検索クエリにおいて使用するために、またはそうでない場合、ユーザの一般的な関心を識別するために、特定のテーマをさらに定義する一環としてなど、様々な方法で使用することができる。例えば、ある実施形態では、このような情報270のうちの一部またはすべてを、クエリ用語265aを指定したユーザに対して図示することができるが、この図示される実施形態では、情報270を、ユーザに表示することができない。本実施例では、情報270は、それぞれ、クエリ用語265aとの考えられる組合せに関する候補の追加用語に対応するいくつかの用語記入項274a〜274fを含み、および文書列272a〜272dは、文書例1〜4に対するそれらの用語の関連性の評価された程度を示す。列272eは、クエリ用語265aに関するそれぞれの記入項274内の候補用語に関する集約用語関連性得点を示して、クエリ用語265aによって表される用語組合せに対する候補用語の関連性の評価された程度を反映するなどする。様々な文書例272および候補の追加用語274を、様々な実施形態において、様々な方式で選択することができる。例えば、これらの候補の追加用語を、図2Cに図示される、正規化された文書関連性数264xに基づいてなど、クエリ用語265aに最も関連すると判定された集成の文書のサブセットをまず選択することによって選択することができる。最も関連する文書を、様々な方式で選択して、最高の文書関連性数を有する、指定された数量の文書を選択して、最高の文書関連性数を有する、指定された割合の文書を選択して、その文書関連性数が指定されたしきい値を超える文書、またはそうでない場合、1つもしくは複数の規定の基準(例えば、最低文書関連性数しきい値などの事前に定義されたしきい値、または類似の文書関連性数値を有する文書をグループ化することが、最も関連する文書のグループと他の文書との間で当然発生するしきい値点を提供する場合など、動的に判定されたしきい値)を満たす文書のうちの一部またはすべてを選択するなどできる。図2Eの本実施例では、文書例5を、本実施例では図2C内の記入項264xに関する列262e内で示されるように、その低い文書関連性数2%に基づいて、さらなる使用のために最も関連する文書として選択していないが、他の文書1〜4例を、関連文書として使用するために選択している。
本実施例では、クエリ用語265aに関して最も関連する文書を選択すると、それらの選択された文書に少なくとも一部基づいて、クエリ用語265aに関する候補の追加用語を選択する。例えば、これらの候補の追加用語を、選択された文書に関するそれらの他の用語のTF−IDF値に基づいて、および/または選択された文書に関するそれらの他の用語に関する用語頻度値に基づいてなど、それらの選択された文書に最も関連するクエリ用語265a以外の選択された文書内の用語に基づいて選択することができる。本実施例では、それぞれの用語記入項274および文書例272に関する情報270内で図示される数は、その用語およびその文書に関するTF−IDF値を反映する。例えば、用語「ホームラン」に対応する記入項274aに関して、文書例1に関するその用語の用語関連性値272aを、(図2Aの情報210の記入項214b内および列212e内に予め表示されたように)TF−IDF値1.333として示して、および文書例2に関する記入項274a内の用語「ホームラン」に関する用語関連性値272bを、(図2Aの情報220の列224b内および列222e内に予め表示されたように)TF−IDF値1.125として示す。
さらに、本実施例では、用語274のそれぞれに関する用語関連性値を、次いで、それらの個々のTF−IDF文書特定値を平均化することによってなど、選択された文書を通して集約して、結果として生じる、それぞれの候補の追加用語274に関して判定された集約用語関連性得点、すなわち集約用語関連性数を列272eに反映する。本実施例では、候補用語274を、記入項274a内の候補用語「ホームラン」を、指定されたクエリ用語に関して最も関連する候補の追加用語であると判定するように、および記入項274f内の候補の追加用語「カンセコ」を、示された、指定されたクエリ用語に関して最も関連しない候補の追加用語であると判定するように、クエリ用語265aに関して、それらの判定された集約関連性値が減少する順に示す。選択された文書のグループに基づく要件に関して選択された特定の候補の追加用語を、それぞれの文書から、または最も潜在的に関連すると判定されたすべての文書から指定された数量の他の用語を使用することによって(例えば、TF−IDF値、用語頻度値、または他の個々の文書用語関連性値を使用することによって)、それぞれの文書からまたはすべての文書からの指定された割合の最も潜在的に関連する他の用語を使用することによって、そのTF−IDF値(もしくは、他の個々の文書用語関連性値)が、選択された文書のうちの少なくとも1つに関して、もしくは選択された文書のすべてに関して、または最も関連する文書のある指定された最小サブセットに関して指定されたしきい値を超えるか、あるいはそうでない場合、1つもしくは複数の規定の基準(例えば、最低用語関連性数しきい値などの予め定義されたしきい値、または類似の用語関連性数値を有する用語をグループ化することが、最も関連する用語のグループと他の用語との間で当然発生するしきい値を提供する場合など、動的に判定されたしきい値)を満たす、他の用語のうちの一部もしくはすべてを使用することによってなど、様々な方法で識別することができる。他の実施形態では、候補の追加用語および/または関連文書を、他の方式で選択することができ、ならびに個々の用語関連性値および/または集約用語関連性値を、他の方式で判定することができる。用語関連性得点例または他の値の生成に関係する追加の詳細は、他のところに含まれる。
図2Fは、図2A〜2Eの実施例を継続して、およびユーザに表示され、またはそうでない場合、ユーザに提供され、選択のために考えられる、他の用語に関する情報を含み、ならびに図2Dの視覚的表示266と共に示された、および図2Fの視覚的表示276と共に示される、予め表示されたクエリ用語265aと共に使用することができる情報275の一実施例を図示する。前述のように、情報275の提供を、図2D内の情報260の情報268内の「はい」ユーザ選択可能な制御の選択に応答して、または代わりに、他の方式でなど、様々な方式で促すことができる。加えて、図2Dの情報260に類似した方式で、図示される情報275を、例えば、生成されて、および表示のためにユーザのクライアントデバイスに提供されたWebページの一部として、またはそうでない場合、ユーザに提示される情報画面の一部として(例えば、DSRDサービスと共に使用するために、DSRDサービスのオペレータによって提供された、または代わりに、第3者によって提供された、ソフトウェアアプリケーションなど、ユーザのコンピューティングデバイス上で実行しているソフトウェアアプリケーションのGUIの一部として)など、様々な方式でユーザに提供することができる。
この例で情報画像275は、この例において、図2Eの候補の追加用語274のうちの少なくともいくつかに基づいて生成されるような、指定されたクエリ用語265aに関して考えられる他の関連用語のリスト279を含む。特に、関連する他の用語例279は、指定されたクエリ用語265aと候補の追加用語274との間の用語間関係に基づいて、ユーザが関心を持っている可能性があるとして選択されている、いくつかの記入項279a〜279eを含み、および、図2Eの集約関連性得点272eに基づいて、判定された用語間関連性が減少する順に示される。加えて、本実施例では、含まれた、考えられる他の用語のそれぞれの用語間関連性の表示を示すが、他の実施形態では、このような用語間関連性情報を、含まなくてよく、または他の方式で示すことができ、本実施例では、図2eの列272eからの判定された用語関連性得点を、0から10の尺度に変換して、最も関連すると判定される、考えられる他の用語は、10の可能値を有し、およびより少なく関連すると判定される、考えられる他の用語はより低い値を有する。ここでは図示されないが、考えられる他の用語のそれぞれは、ユーザ選択可能なリンクとすることができ、またはそうでない場合、1つもしくは複数の関連するユーザ選択可能な制御を有して、訂正されたクエリの一部として、その選択された用語を含むことを指定するために、またはそうでない場合、ユーザの関心の間にあるとしてその用語を扱うためになど、ユーザが、関心があるとしてその用語を選択すること、またはそうでない場合、指定することをできるようにすることができる。他の実施形態では、用語間関連性情報を表示して、図2Eから実際に判定された用語関連性得点272eを示して、(文書関連性得点に関して、図2Dに関して既に記述された方式と類似した方式で)このような用語関連性得点の正規化されたバージョンを表示するなどできる。加えて、これらの用語関連性値のテキスト記述を、図2Fにおいて、図2Dのテキスト記述に類似した方式で示さないが、他の実施形態では、このような用語関連性値を示すことができる。
図2Gおよび2Hは、図2A〜2Fの実施例を続け、特に、ユーザが、図2Fに表示された、追加の関連用語を選択することによってなど、または代わりに、別の方式で指定することができる、2つの代替的な概念もしくはテーマに対応する。特に、図2Gは、ユーザが、追加の他の用語「ホームラン」および「ハンク・アーロン」を選択した一実施例に対応して、図2Fのリスト279の記入項279aおよび279cの選択に基づいてなど、拡張されたクエリ用語265bのグループの一部として、先の用語「ボンズ」および「ステロイド」と共に使用する。図2Gは、図2Cの情報261aに関して既に議論された方式と類似の方式で、拡張されたクエリ用語265bに対する様々な文書例1〜5の関連性を示す、追加の情報261bも含む。図2Gの様々な情報261bを、様々な方式で使用して、(例えば、追加のクエリ用語に一部基づいて、ユーザに勧告を提供するためになど、図2Dの方式に類似した方式で)ユーザに表示可能であるか、またはそうでない場合、ユーザに提供可能な、拡張されたクエリ用語265bに最も関連する集成の文書を含む新しい検索結果を判定するなどできる。加えて、ある実施形態では、このような情報261bのうちの一部またはすべてを、拡張されたクエリ用語265bを指定したユーザに図示することができるが、図示される実施形態では、情報261bをユーザに表示しない。
本実施例では、情報261bは、図2Cの情報261aに対して、2つの追加のクエリ用語に対応するために追加されている、追加の記入項264cおよび264dを含む。したがって、記入項264y内の、結果として生じる集約された、正規化された文書関連性数を、図2Cの記入項264xの先の文書関連性数に関して更新しており、2つの追加用語の追加を反映する。本実施例では、記入項264y内の集約された、正規化された文書関連性情報は、引き続き、4つの拡張されたクエリ用語265bのそれぞれに関する個々の用語関連性数の平均に基づくが、他の実施形態では、この集約された、正規化された文書関連性得点は、(例えば、重み付けされた平均を使用して)他の方式で計算することができる。本実施例では、2つの追加の検索用語の追加は、初めのクエリ用語265aに関して、図2Cにおいて最も関連する文書であると予め判定されていた、文書例3に関して判定された関連性を低減させている。特に、情報261bの列262cおよび記入項264yに示されるように、文書3に関して訂正された文書関連性得点を、先の値84%から現在の値47%に低減させている。加えて、文書例1および2の相対的な関連性は、情報261bの列262aおよび262bに示されるように、文書1が拡張されたクエリ用語265bに関して最も関連すると判定され、および文書2が拡張されたクエリ用語265bに関して次に最も関連すると判定されるように、図2C内の情報に対して増大している。
本実施例では、文書関連性数の変更を、拡張されたクエリ用語265bを使用して指定された、文書例およびテーマの一般的な主題に基づいて、直感的に理解することができる。特に、図2Cの2つの初めのクエリ用語265aに対して、図2Gの拡張されたクエリ用語265bは、大リーグ野球における一般的なステロイド関連議論により少なく関係して、ならびにバリー・ボンズ、および彼のホームラン記録達成に特定の情報により多く関係しているように見える。したがって、文書例1のボンズがホームラン記録を作ったことに関するニュース記事は、このとき、拡張されたクエリに最も関連する文書になり、およびステロイド議論に関する文書例4は、より一般的に、さらに関連しなくなる。ボンズに関する文書例2の経歴と、ボンズの起訴に関する文書例3は両方とも、ホームラン記録の議論を含み、および文書例2は、前記録保持者であるハンク・アーロンについて記述するので、文書例2および3は、引き続き、拡張されたクエリ用語265bに少なくとも適度に関連する。ユーザを、本実施例において、2つの追加のクエリ用語「ホームラン」および「ハンク・アーロン」を選択しているとして図示するが、他の実施形態および状況では、追加のクエリ用語と、「ボンズ」および「ステロイド」の2つの元のクエリ用語との間の用語間関係に基づいて、そのユーザが、関心がある可能性があるとして、このような追加用語を自動的に選択することができ、およびこのような追加用語が選択された場合、拡張されたクエリ用語265b(例えば、文書1)に特に関連する文書を、ユーザに関して自動的に生成されたユーザ特有の勧告として、そのユーザに提供することができる。
図2Hは、図2Cの初めのクエリ用語265aを異なる方式で拡張しており、追加のクエリ用語「起訴」および「カンセコ」、ならびに先行用語「ボンズ」および「ステロイド」を含む、拡張されたクエリ用語265cのグループを指定する、図2Gに示される図の代替を図示する。このような拡張されたクエリ用語265cは、例えば、図2Gの拡張されたクエリ265bに対して、ボンズのステロイド使用疑惑および大リーグ野球における一般的なステロイド関連議論により多く関係して、ならびにボンズのステロイド使用疑惑に無関係な、ボンズに関する特定情報により少なく関係する、ユーザにとって関心がある概念またはテーマを反映することができる。したがって、図2Hの情報261cは、それぞれ、図2Cおよび2Gの情報261aならびに261bに類似するが、2つの新しいクエリ用語に対応する、追加の記入項264gおよび264hを含み、および新しい記入項264zは、新しい拡張されたクエリ用語265cに基づいて生成された、訂正された文書関連性数を反映する。直感的に予想されるように、それぞれ、ボンズのステロイド関連起訴と、カンセコのステロイド関連証言に関係する文書例3および4は、文書例の間で最も関連する文書である一方、ステロイド疑惑に特有ではない文書1および2の関連性は、かなり下がった。本実施例では、ユーザは2つの追加のクエリ用語「起訴」および「カンセコ」を選択した可能性があるが、他の実施形態および状況では、このような追加用語を、追加のクエリ用語と、「ボンズ」および「ステロイド」の2つの元のクエリ用語との間の用語間関係に基づいて、ユーザが、関心がある可能性があるとして、自動的に選択することができ、およびこのような追加用語が選択された場合、拡張されたクエリ用語265c(例えば、文書3)に特に関連する文書を、ユーザに関して自動的に生成されたユーザ特有の勧告として、ユーザに提供することができる。
図2Gの方式に類似した方式で、図示される情報261cを、少なくともある実施形態において、ユーザに表示することができるが、図2Dの情報に類似した他の情報を、ユーザに表示して、新しいクエリ用語265cに基づいて、関連する文書の訂正されたリストを図示することができる。加えて、図2Gおよび2Hに示されるように、追加のクエリ用語を選択することによって、ユーザによって提供されるフィードバックを、少なくともある実施形態では、図2Cの初めのクエリ用語265aに対する特定の文書および/または特定の用語に関する用語間関係の判定された関連性を変更するフィードバックなどを含めて、他の方式で使用することができる。
したがって、図2Gおよび2Hに関して、ならびに他のところで議論されるように、互いに対するおよび/もしくはより一般的な概念に対する特定の用語の関連性を、領域に関する文書の分析に基づいて、ならびに/または特定の用語に関係するユーザフィードバックに基づいて、を含めて、様々な方式で識別することができる。図9Nは、本実施例では、引き続き、大リーグ野球(「MLB」)を含む野球である、特定の関心領域に関して識別および使用が可能な様々な概念のグラフィック図975を提供する。本実施例では、複数の概念977および978を、自動的に識別しており、それぞれの概念が、テキスト概要または他のラベル、ならびに1つもしくは複数の関連用語を含む図9Nに図示する。したがって、例えば、概念977は、「MLBにおけるステロイドの乱用」のテキストラベル977aを有する一方、概念978は、「MLBホームラン記録」のテキストラベル978aを有する。概念977および978は、上記で議論されたように、一般に、それぞれ、図2Hおよび2Gの実施例に対応する。加えて、概念977は、様々な関連用語977bを含む一方、概念978は、様々な関連用語978bを含み、この様々な関連用語978bは、本実施例では、ある重複(例えば、「ボンズ」および「ステロイド」)を含み、およびそれぞれ、複数の用語を含むが、他の状況では、単一の用語だけを有する場合があり、および/または用語の点で、他の概念と重複しない場合がある。(例えば、数百、数千など)多数の追加の概念を、1つの領域に関して識別および使用することができることを理解されよう。
加えて、既に議論された実施例では、クエリ用語例265a〜265cを、任意の論理組合せ演算子(例えば、AND、ORなど)、または相対的な重みもしくは使用の他の表示を示さずに用語を列挙する、比較的簡単な方式で指定している。他の実施形態では、他のタイプの情報を、このような検索クエリに関して指定することができ、および様々な方式で使用することができる。例えば、ある他の実施形態では、ユーザは、関心がある(すなわち、ユーザが肯定的関心を持つ)クエリ用語を示すことができるだけでなく、特定のクエリもしくはテーマに関係しない(すなわち、ユーザが否定的関心を持つ)クエリ用語を示すこともでき、および様々な他の方式で、初めのクエリを変更することを可能にすることもできる。例えば、図2Eおよび2Fに関して示される方式と類似した方式で、初めのクエリ用語265aに基づいて、最も関連しない他の用語を反映するための情報を判定することができ、およびこのような最も関連しない用語情報を同様にユーザに表示して、拡張されたクエリから除去するための用語の選択を可能にすることができる。このような状況では、関心用語は、除去されるとして表示された用語、またはそうでない場合、様々な方式で関心ない用語と組み合わせることができる。例えば、図2Cおよび2Dの実施例に関して、クエリ用語「ボンズ」および「ステロイド」を、関心があるとして示すことができるが、除去されるとして表示された用語「カンセコ」を有する拡張されたクエリ用語を指定することができる。図2Hの情報261cの記入項264hに示されるように、用語「カンセコ」は、文書例1〜5の文書4にだけ関連して、および特に、本実施例では、文書4に関して0.97の文書関連性数を有する。このような情報を、様々な方式で図2Cの情報261aと組み合わせ、(正規化された文書関連性数に関する可能値の範囲を−1から1に拡張すると共に)文書に対する、除去された用語の用語関連性値を、包括された用語の用語関連性値の否定として扱うことによってなど、文書のそれぞれに対する、除去された用語「カンセコ」の関連性を、拡張されたクエリ用語に基づいて、文書に関する文書関連性数全体の低減として扱うことができる。組み合わされた場合、本実施例では、「カンセコ」に関する負の用語関連性数「−0.97」と共に、「ボンズ」ならびに「ステロイド」に関する個々の用語関連性数0.04および0.97の平均をとることによって、文書4、および拡張されたクエリ用語に関して、訂正された文書関連性数0.01を生成することができる。他の実施形態では、除去された用語、および関心ない他の用語に関する関連性情報を、他の方式で使用することができ、および関心用語に関する関連性情報と組み合わせることもできることを理解されよう。
加えて、図2Dの方式に類似した方式で、ある実施形態では、ユーザは、クエリ用語265aに関連する他の用語および/または(例えば、指定された文書に対して類似の文書を要求するための)指定された文書に関連する他の文書を判定する際に使用するためになど、そのユーザがクエリ用語265aに特に関連すると考える、1つもしくは複数の文書を指定することが可能にされ得る。あるいは、図2Fに示される方式のように、特定の他の考えられる用語を列挙するのではなく、1つまたは複数の予め規定の複数用語テーマを、別の関連文書を識別する際に可能な選択および使用のために、代わりにユーザに表示することができる。このような他の規定のテーマを、テキストラベル(例えば、「ボンズ通算ホームラン記録」)を含めて、および/またはその規定のテーマの一部である特定の用語(例えば、「ボンズ、ステロイド、ホームラン、ハンク・アーロン」)を使用して、様々な方式で指定することができる。特定の規定のテーマを、初めのクエリ用語265aに対するその関連性に基づいて、選択する場合、それらの規定のテーマのうちの少なくともいくつかは、「ステロイド」、およびクエリ265cの規定のテーマに類似する別の規定のテーマを伴わずに、「ボンズ、ホームラン、ハンク・アーロン」などの用語に基づいて規定のテーマを表示するためになど、当初指定されたクエリ用語265aのうちの少なくとも1つに基づかなくてもよい。同様に、ユーザが、追加のクエリ用語を選択して、拡張されたクエリの一部として使用する状況において、そのように所望される場合、ユーザは、先行クエリ用語のうちの1つまたは複数をさらに除去して、図2Gの本実施例では、用語「ステロイド」を除去して、または既に議論されたように、このような用語を除去すべきであることを示すなどする。判定された用語関連性情報および文書関連性情報を、他の実施形態では、様々な他の方式で同様に使用することができる。
別の説明のための実施例として、クエリ用語の拡張または他の変更に関して、上述された技術と類似した技術を、当初指定されたクエリ用語が綴り違いである状況、またはそうでない場合、(例えば、単数形であるか、または複数形であるかに基づいて、動詞が特定の時制であることに基づいて、異なる言語であることに基づいてなど)基準外の形もしくは異型の形である状況において、使用することもできる。したがって、例えば、(例えば、ユーザがそれらの用語を入力したが、「ステロイド(steroids)」を「スタロイド(staroids)」と綴り違いすることによって、および「ボンズ(Bonds)」を大文字で始めなかったことによって、不確実性が導入されたことに基づいて)図2Fのクエリ用語276が、代わりに、「ボンズ(bonds)」および「スタロイド」であった場合、候補の他の用語279を拡張して、または変更して、ユーザが指定した用語の不確実性に対処することに関係する追加用語を含むことができる。「スタロイド」に関して、例えば、「スタロイド」の代わりに、または「スタロイド」に加えて使用するためになど、最も関連する追加用語のうちの1つは、用語「ステロイド」である可能性がある。追加用語「ステロイド」を、ある実施形態では、(例えば、オプションで、「アステロイド」、「トロイド」など、他の推奨される置換用語と共に)認識されない語「スタロイド」に関する辞書検索だけに基づいて識別することができるが、他の実施形態では、既に議論された用語間関連性技術を使用して、(例えば、「スタロイド」が、ユーザによる「ステロイド」の一般的な綴り違いである場合)用語「スタロイド」と「ステロイド」との間で予め識別された関係に基づいて、および/または用語「ボンズ(bonds)」と「ステロイド」との間で予め識別された関係に基づいて、置換用語もしくは補完用語に関する考えられる候補または可能な候補として「ステロイド」を識別することができる。類似の方式で、用語「ボンズ(bonds)」の曖昧さを除去するために、これらの追加用語は、用語「ボンズ(bonds)」と他の追加用語との間で予め識別された関係に基づいてなど、「バリー・ボンズ」、「株式」、「利子」、「ボビー・ボンズ」などの選択肢を含むことができる。
前述のように、ある実施形態では、特定の文書に対する、および/または特定の他の用語に対する特定の用語の関連性の初めの判定を、TF−IDF値、または用語頻度に関係する他の情報に少なくとも一部基づいて行うことができる。他の実施形態では、このような関連性情報の判定を、他の方式で行うことができる。一実施例として、1つもしくは複数の文書に対する特定の用語の関連性を、確率分布または他の分布として表すことができ、および2つ以上のこのような用語に関するそれぞれの分布を比較して、それぞれの用語にどのくらい関連するかの尺度として、それらの分布がどのくらい類似しているかを判定することができる。同様に、特定の文書を、それぞれ、複数の用語を通した分布として表すことができ、および2つ以上のこのような文書に関するそれぞれの分布を、同様に比較して、それらの文書がどのくらい類似しているかを判定することができる。したがって、例えば、1つまたは複数の用語および文書を用いた検索クエリを、そのクエリに関して最も統計的な情報を有する文書を判定することができるように、このような確率分布を、集成内のいくつかのまたはすべての文書に関して実行していることと比べると、所望される文書用語および包括された文書用語の全体にわたる確率分布の対として表すことができる。2つの分布間でこのような比較を実行する一実施例として、カルバックライブラ発散統計尺度を計算して、2つのこのような分布間の類似性の凸尺度(convex measure)を提供する一方、他の実施形態では、統計的情報エントロピーの差異を使用して、2つのこのような分布を比較することができる。このような比較の実施例を実行することに関する追加の詳細を以下に含み、および他の実施形態では、このような比較を、他の方式で実行することができることを理解されよう。
特に、ある実施形態では、2つの文書関連分布間または2つの用語関連分布間でカルバックライブラ発散を利用して、2つの分布間の類似性を判定することができる。
2つの分布PおよびQに関するカルバックライブラ発散を、以下のように表すことができる。
式中、PiおよびQiは、離散された確率分布PおよびQの値である(例えば、文書Pに関する文書関連分布の場合、それぞれのPiは、用語iに一致する、文書内の語の割合を表すことができる、文書Pに対する特定の用語iの関連性の程度を表すことができる、用語iが文書P内の最も関連する用語である確率を表すことができるなど)。他の実施形態は、他の統計尺度を使用して、カルバックライブラ発散からなど、類似の尺度の代わりであれ、類似の尺度に加えてであれ、2つの統計的情報エントロピー尺度間の差異など、2つの分布を比較することができる。確率分布の統計的エントロピーは、確率分布の多様性の尺度である。確率分布Pの統計的エントロピーを、以下のように表すことができる。
式中、Piは、離散された確率分布Pの値である。2つの統計的エントロピー尺度間の差異を、次いで、エントロピー差異尺度を計算することによって測定することができる。2つの確率分布PとQとの間のエントロピー差異尺度を、以下のように、確率変数間の共通の情報として表すことができる。
式中、p(p)およびp(q)は、それぞれ、PおよびQの周辺分布を表して、ならびに式中、p(p、q)は、PおよびQの結合分布を表す。あるいは、2つの確率分布PとQとの間のエントロピー差異尺度を、以下のように表すことができる。
ΕM=‖H(P)−H(Q)‖2
式中、H(P)およびH(Q)は、上述されたように、それぞれ、確率分布PおよびQのエントロピーである。
加えて、既に議論されたように、図2A〜2Hは、文書の特定のグループ例に関して、文書関係の関連性情報および用語間テーマ関係の関連性情報を判定して、およびその関連性情報を様々な方式で使用するための実施例を図示する。他のところで議論されるように、ある実施形態では、判定された関連性関係情報のうちの少なくとも一部を、様々な特定の方式で表すことができ、および更新して、ユーザフィードバックおよび他の変更を反映することができる。図2I〜2Lは、様々な方法で、特に、これらの実施例では、判定された関連性関係情報を表すニューラルネットワークを生成して、および更新することによって、判定された文書関連性情報および用語関係の関連性情報を表して、および訂正する特定の実施例を図示する。
特に、図2Iは、特定の用語に対する特定の文書の関連性を表す、1つのニューラルネットワーク例295aを図示する。本実施例では、ニューラルネットワーク295aは、文書の集成に関して識別された用語に対応する様々な入力ノード280、集成内の文書を表す様々な出力ノード290、および特定の入力用語280に基づいて、特定の出力文書290に関する文書関連性数を生成するために実行される計算を表す、内部ノード285の1つまたは複数のレイヤを含む。図2Iには、簡易目的のため内部ノード285の単一のセットだけを図示するが、あるこのようなニューラルネットワークは、追加の内部ノードを有することができることを理解されよう。加えて、ノード間のリンクは、それらのノード間の関係を表して、および以下で議論されるように、関連する重みを含むことができる。
図2Cに関して既に議論されたように、「ボンズ」および「ステロイド」である、2つのクエリ用語265aを含んだ検索クエリを指定した。図2Iのノード280aおよびノード280cは、生成されたニューラルネットワーク内のそれらの用語を表して、および認識のために、太字で示される。加えて、図2Cの例では、文書例1〜4を含めて、集成内の様々な文書に関して、正規化された文書関連性数264xを判定して、およびそれらの文書例1〜4は、本実施例では、対応するノード291〜294を有する。加えて、本実施例では、情報297を図示して、省略のために「AC」と呼ばれ、それらの用語に関するノード280aおよび280cに対応する、関連する内部ノード285aおよび285cを反映する、本実施例に関する2つのクエリ用語265aに基づいて、それらの文書例1〜4に関して正規化された文書関連性数を示す。したがって、例えば、クエリ用語265aに基づいて、文書1に関して図示される、正規化された文書関連性値297aは、図2Cの記入項264xに関する列262aに既に示されたように、0.48の値である。文書例2〜4に関して、類似の情報297b〜297dを図示する。
本実施例では、生成されたニューラルネットワーク内の出力文書290に関する文書関連性数の計算を、入力用語280と内部ノード285との間のリンク282、および内部ノード285と出力文書290との間のリンク287に対応する2つの部分に分離する。加えて、情報287aおよび287bを図示して、初めの判定された文書関連性情報に基づいて、それぞれのリンクに関連する初めの重みを示すことによって、を含めて、示される様々なリンク287に関する情報を反映する。例えば、(情報287aにおいて、省略してリンク「A−D1」と呼ばれる)文書例1に対応する内部ノードA285aと出力ノード291との間のリンクに関して、情報287bに示されるように、そのリンクに、最初に、0.000518、すなわち、5.18×10-4の重みを与える。同様に、(情報287a内で、省略して、リンク「C−D1」と呼ばれる)内部ノードC285cと出力ノード291との間のリンクに関して、そのリンクに、最初に、情報287b内で0.000053の重みを与える。加えて、それぞれ、入力ノード280aと280cとの間、および内部ノード285aと285cとの間のリンク282を使用して、図2Cに記述された用語関連性情報例に基づいて、および以下でより詳細に記述されるように、それぞれ、1,641および2,075の値を判定することができる。したがって、クエリ用語280aおよび280cに基づいて、文書例1に関して正規化された文書関連性値297aを、(例えば、用語「ボンズ」に関する文書関連性数として、1641*0.000518=0.85を計算することによって、用語「ステロイド」に関する文書関連性数として、2075*0.000053=0.11を計算することによって、および図2Cの情報261aに図示されるように、それらの平均が0.48であることによって)それらの2つのリンクA−D1およびC−D1に基づいて、ならびに内部ノード285aおよび285cに基づいて、ならびに入力ノード280aと内部ノード285aとの間および入力ノード280cと内部ノード285cとの間のリンク282に基づいて、ニューラルネットワークから判定することができる。以下の方程式1〜5に関して、を含めて、このようなニューラルネットワークを生成する、一実施形態例に関する追加の詳細が続く。
特に、(例えば、それらの文書およびそれらの用語の組合せに関してDR得点に反映されるように)特定の文書に対する特定の用語の関連性を判定すると、ユーザフィードバックに基づいて、および他の方式で更新可能なニューラルネットワークを使用することを含めて、様々な方式でその情報を表すことができる。同様に、(例えば、それらの用語のうちの一部またはすべてに関して関連する文書に少なくとも一部基づいてなど)1つまたは複数の用語の他のグループに対する特定の用語から用語間関係の関連性を判定すると、ユーザフィードバックに基づいて、および他の方式で更新可能な類似のニューラルネットワークを使用することを含めて、様々な方式でその情報を表して、および更新することもできる。このようなニューラルネットワーク(例えば、特定のリンク)の重みおよび/または他の態様を、次いで、変更して、フィードバック、および経時的に取得される、他の追加の情報を反映して、ニューラルネットワークによって経時的に提供された関連性情報を改善して、フィードバック、および取得可能な他の追加の情報からの自動化された学習を反映するなどする。以下は、このようなニューラルネットワークを生成して、このようなニューラルネットワーク内で重みを更新する1つの特定の実施例を図示して、および他の実施形態は、他の関連技術を使用することができる。
前述のように、少なくともある実施形態では、1つまたは複数の指定された用語iのグループgに対する文書dに関する(以下で「HDR得点」とも呼ばれる)DR得点を、以下のように判定することができる。
このDR公式を、同様に使用して、以下のように、特定の文書jに対応する1つまたは複数のこのような用語iのグループgを有するクエリ内の個々の用語iに関して、TF.IDF値の線形組合せにバイアスを加えたものを表すニューラルネットワーク重みのセットを表すことができる。
式中、
それらの計算されたDR得点に基づいて、このようなニューラルネットワーク重みを使用して、生成されたニューラルネットワークを初期化して、計算されたDR得点に対応することができる。
さらに、xijが文書j内の用語iの用語頻度である、TF.IDFの定義を使用して、TF.IDF値を以下のように表すことができる。
式中、σ(x)は、(その引数xが負である場合、その値がゼロであり、その引数xがゼロまたは正である場合、その値が1である)ヘビサイド関数であり、およびNは、集成内の文書の数である。
したがって、HDR(j)における置換は、結果として以下をもたらす。
1つまたは複数の用語tのグループgを有するクエリの場合、文書内の用語頻度を、それぞれの文書内の予測において、それらの用語の重みとして考察することができ、および次いで、所与のクエリに関して、関連性ニューラルネットワークを、一般的に、以下のように表すことができるように、重みUij=βij *xijのセットおよび係数αiを定義することができ、
およびTF.IDFクエリ関連性得点を実施するように、重みを用いて初期化することができ、この場合、
このような重みUは、一般に、内部ノード285と出力文書ノード290との間のリンク287に関する、図2Iの重み287bに対応する。
さらに、前述のように、このような生成されたニューラルネットワークを更新して、フィードバック、およびその領域に関する追加の関連性関係情報を示す他の情報を反映することができる。例えば、以下のように、トレーニング例{t、h}のセットに関して、二次誤差関数を使用することができる。
次いで、確率的勾配降下(stochastic gradient descent)によってネットワーク重みを更新する誤差逆伝播法(Back-propagation rules)を導出することができる。したがって、モデルの重みに関するΕの導関数を、以下のように計算することができる。
トレーニング事例を、様々な実施形態において、現在の最も関連する文書に関する値に等しいか、または当該値よりも多少大きな比率の対象値hjのセットに対する所与の文書のユーザ選択を使用することによって、を含めて、様々な方式で構築することができる。
生成されたニューラルネットワークを拡張して、複数の重なり同士の間の、またはそうでない場合、関連するテーマ間の曖昧さを除去するために有用であり得るなど、用語間の関係を反映するとき、様々な実施形態では、様々な方式で、学習を実行することができる。図2Kのニューラルネットワーク例295cは、文書ベースのノード290と新しい用語ベースの出力ノード283との間の新しいリンク296を備えた、新しい用語ベースの出力ノード283が図示される、このような拡張されたニューラルネットワークを図示する。
例えば、このような状況において、用語頻度重みVを固定状態に保つこと、または代わりに、誤差逆伝播法を介して重みUおよびVの両方を適合させることのどちらかを選択することができる。前述のように、重みUは、一般に、図2Iに示される重み例287bを用いた、内部ノード285と文書ノード290との間のリンク287に対応して、および重みVは、一般に、図2Kに示される重み例296bを用いた、文書ノード290と用語ベースの出力ノード283との間のリンク296に対応する。
このような状況において、以下のように、曖昧さ除去dのために、文書ベースのノード290と新しい用語ベースの出力ノード283との間のリンクに関して、1つのさらなるフィードフォーワードステップを使用することができる。
重みVが固定される状況において、重みVは、反転可能であり、および新しいdに適用して、適切なフィードバック値hを取得することができる。あるいは、重みU、およびV、ならびにαlおよびγlを、以下のように、更新された誤差関数Ε(d)を用いて変更することができる。
この場合、勾配降下学習則は、以下のような形を有する。
加えて、少なくともある実施形態では、「重み減衰」正則化を実施することによって、学習されたパラメータの範囲を制約することができる。したがって、これは結果として、U、V、αl、ならびにγl内のΕおよびΕ(d)に二次用語を追加することになる。したがって、異なる重みの導関数は、結果として、重み内のΕおよびΕ(d)の勾配に線形用語をもたらして、およびhまたはdの対象値に対する差異に基づく誤差信号が存在しない場合、勾配降下をもたらし、その中で急激な減衰を引き起こす。したがって、w(任意のネットワーク重みU、V、αl、およびγl)に関して、勾配に追加用語
を追加することができ、式中、Εはパラメータである。
このようなニューラルネットワークを生成および更新する実施形態に関する特定の詳細を記述してきたが、他の実施形態では、他の方式で、他のニューラルネットワークを生成および/または更新することができることを理解されよう。
図2A〜2Iに関して既に記述された実施例に戻ると、図2Jは、それらの実施例を続け、および特に、集成に関して判定された関連性情報の使用に関係するフィードバックに基づいて、図2Iのニューラルネットワーク295aに関して経時的に発生し得る変更を図示する。特に、クエリ用語280aおよび280cに関する文書例1の正規化された文書関連性値に対して変更を行っている、変更されたニューラルネットワーク295bを図2Jに図示する。このような変更は、例えば、文書例1が、それらの指定された用語に対応する最も関連する文書であるという暗黙的なユーザフィードバック、または代わりに、文書例1のこのような関連性を示す、ユーザからの明示的なフィードバックを反映するためなど、クエリ用語280aおよび280cを指定した後で再検討または他の使用のために、ユーザによって文書例1が繰り返し選択されることに基づくことができる。したがって、文書例1に関する文書関連性数297aを、本実施例では、正規化された文書関連性数を、指定された差(例えば、本実施例では0.01)で最も関連する他の文書以上になるように変更することによってなど、本実施例では、ユーザフィードバックに基づいて、すべての文書例の中で文書1が最も関連するように変更している。加えて、より高い正規化された文書関連性数297aを反映するために、リンクA−D1およびC−D1の値を、変更された情報287cに示されるように変更している。本実施例では、変更されたリンクの重みおよび文書関連性数297aを、リンクA−D1およびC−D1の視覚的表現同様、便宜上、太字で示す。増大された文書関連性値297aを反映する、リンクA−D1およびC−D1に関する重みに対する変更を、リンク重みを増大した文書関連性数に等しく、またはその文書関連性数に比例的に対応するように増大することによってなど、様々な方式で、それらのリンク間で分散することができることを理解されよう。あるいは、他の実施形態では、この学習は、特定のリンク重みを更新させることができ、および代わりに、文書関連性数を生成して、それらの更新されたリンク重みに対応することができる。
加えて、図2Jに示されないが、ある実施形態では、文書例1に関する文書関連性得点の変更および/またはリンクA−D1およびC−D1に関するリンク重みの変更は、他の生成された文書関連性数および/またはリンク重みに対する変更をさらに引き起こすことができる。例えば、文書例1の関連性を、指定された用語280aおよび280cに関して増大したとき、他の文書例2〜4の関連性を、それらの指定された用語280aおよび280cに関して低減して、より低い相対的な関連性値を反映することができる。低減した場合、判定された文書関連性数297b〜297dを、様々な方式で(例えば、比例的に)低減することができ、ならびに内部ノード285aと285cとの間のリンク、およびそれらの他の文書例2〜4に関する対応するリンク重みを低減することができる。本実施例において、低減させることができる、このような他の情報を、便宜上、イタリック体で示すが、図示される値を、図2Jにおいては調整していない。加えて、ある状況では、特定の用語を、図2Aのその用語およびその文書に関する行214jの値212eに反映されるように、入力ノード280eおよび文書例1において表される用語「起訴」に関してなど、特定の文書例に対して関連性がないと判定することができることを理解されよう。そのように判定された場合、内部ノード285eと文書例1に対応するノード291との間のリンクは、存在しない場合があるか、代わりに、存在するが、0の重み値を有する場合がある。本実施例では、0値の重みを有して、および存在しない場合があるリンク287を、破線を使用して示す。しかし、E−D1など、特定のリンクは、0の重みを有して、および文書例1など、特定の文書に対する関連性を持たないことが当初判定される場合があるが、学習、およびその領域に関して判定された関連性情報に関する経時的な他の変更は、その用語とその文書との間にある関連性が存在することを示すことができ、ならびにある関連性が存在する場合、変更されたニューラルネットワーク内の対応するリンクおよび関連する重みを変更して、およびその変更された、判定された関連性を反映することができることを理解されよう。
加えて、ここでは図示されないが、ある実施形態では、それらのニューラルネットワークを作成した後に、他の方式で図2Iおよび2Jの295aおよび295bなどのニューラルネットワークを変更することができる。例えば、その集成に関するニューラルネットワークを生成および/または更新した後で、その集成に関する追加の文書が利用可能になった場合、ある実施形態では、ニューラルネットワーク全体を再度生成せずに、様々な方式で、追加の文書を既存のニューラルネットワーク内に組み込むことができる。一実施例として、このような新しい文書に関して、新しい出力ノード290を作成することができ、および内部ノード285と出力文書ノード290との間に新しいリンク287を生成することができる。さらに、新しいリンク287に割り当てられることになる重みを、新しい文書に対する既存の用語に関して、当初判定された関連性値に基づいて、それらの重みを初期化することによって、既にニューラルネットワーク内に存在する対応するリンク重みの平均をとること、またはそうでない場合、既存のリンク重みのうちの一部またはすべてに基づいて、新しいリンク重みを生成することによって、(例えば、既に議論されたように、カルバックライブラ発散統計尺度を使用して文書の類似性を評価することによって、または代わりに、別の方式で)最も類似する他の既存の文書を判定して、ならびに(例えば、最も類似する他の既存文書に関する対応する値の平均をとるために)最も類似する他の既存文書に基づいて新しい文書に関するリンク重みおよび/または文書関連性値を初期化することによってなど、様々な方式で判定することができる。
図2Kは、図2Iのニューラルネットワーク295aに類似するが、集成に関する、追加の判定されたテーマ関係の関連性情報を反映する、1つのニューラルネットワーク295c例を図示する。特に、本実施例では、ニューラルネットワーク295cは、用語に対応する類似の入力ノード280と、内部ノード285と、それらの入力用語に基づいて、その文書に関して判定された、正規化された関連性数に対応する文書ノード290とを含むが、その集成に関する用語に対応する、追加の出力ノード283、ならびに文書関連ノード290と新しい用語関連出力ノード283との間の追加のリンク296をさらに含む。他でより詳細に議論されるように、ある実施形態では、1つまたは複数の第1の用語と1つまたは複数の他の用語との間の関連性の判定は、それらの文書を使用して、考えられる他の関連用語を識別するためなど、第1の用語に関連すると判定される文書に少なくとも一部基づくことができる。本実施例では、追加の情報296aおよび296bを示して、図2Iに関して既に記述された方式と類似した方式でリンク296の重みを反映する。
このニューラルネットワーク例295cの初めの状態は、初めのクエリ用語例265aに基づいて、他の用語の関連性を判定する図2Eの実施例に対応する。したがって、例えば、図2Kに表示された情報298は、図2E内の記入項274cに関する情報272eに対応する用語「ハンク・アーロン」に関する出力用語283bに関する用語関連性数298bなど、(便宜上、太字で示される)入力用語280aおよび280cに基づく、特定の他の出力用語283の判定された関連性の表示を含む。用語関連性数298dおよび298eは、入力用語280aおよび280cに基づいて、出力用語「ホームラン」283dおよび「起訴」283eに関して判定された用語関連性数を同様に示す。
図2Jの形に類似した方式で、図2Lは、特定の入力用語に対する特定の出力用語の関連性における学習された変更に対応する、図2Kのニューラルネットワーク295cに対する変更を示す、変更されたニューラルネットワーク295dを図示する。本実施例では、現在の関心入力用語は、引き続き、入力ノード280aおよび280cに対応するクエリ用語265aであり、ならびに出力用語「ハンク・アーロン」283bおよび「ホームラン」283dに関して判定された関連性を、それらの入力用語に関して、それらの出力用語の関連性において学習された増大を反映するために変更している。例えば、図2Gに図示されるように、何人かのユーザは、図2Gの実施例に関して既に議論したように、用語「ボンズ」および「ステロイド」を用いて拡張されたクエリにおいて使用するために、追加用語「ハンク・アーロン」および「ホームラン」を選択した可能性がある。本実施例では、訂正された用語関連性数298bおよび298dを、それぞれ、本実施例では、これらの2つの入力用語に基づく、これらの2つの出力用語に関する関連性数の50%の増大に対応する出力ノード283bならびに283dに関して選択している。加えて、本実施例では、影響を受けた出力用語ノード283bおよび283dに対する(本実施例では、図2Cおよび図2Dに記述されたような文書例1〜4を含む)入力用語280aおよび280cに最も関連すると判定された文書のサブセットのそれぞれからのリンクに対応する、対応するリンク重みをそれに応じて変更している。用語関連性数298、および、本実施例では、変更されているリンク296を、便宜上、太字で示す。
加えて、ある実施形態では、リンク287のうちのいくつかに関連する重みを、リンク296に対する変更の代わりに、またはリンク296に対する変更に加えて、同様に変更して、内部ノード285aおよび285cと、文書例1〜4のうちの1つまたは複数との間のリンクに関する重みを増大して、入力用語280aおよび280cに関する出力用語283bならびに283dの増大した関連性のうちの一部またはすべてに対処するためになどできる。加えて、本実施例では、リンクD3−BおよびD4−Bの重みを、図2Kにおいて、0の値を有することから、小さな関連する重みを有するまで増大しているが、他の実施形態では、0の値を有するこのような重みは増大しなくてもよいことに留意されよう。
図2Mは、ある実施形態において、本実施例では、DSRDサービスによって、または代わりに、関連サービスによってなど、関心1つもしくは複数の領域に関して判定された関連性情報に関する情報をユーザに提供するために使用可能なGUI205の一実施例を示す。例えば、図2D、図2F、および他に関して既に議論されたように、ある実施形態では、ユーザの既知の選好に基づいて、ユーザに勧告を提供して、ユーザにやはり好まれる可能性があると判定された追加用語を含み、および/またはこのような可能性がある追加用語に関するコンテンツ項目を含むなどできる。図2Mの実施例では、GUI205を、特定のユーザに、そのユーザの既知の選好および推定される選好に基づいて、提供しており、本実施例では、この特定のユーザは、図9H〜9Iに関して既に議論されたユーザXである。既に議論されたように、ユーザXは、野球領域に関して、用語「ハンク・アーロン」および「ホームラン」に関して肯定的選好を有して、および用語「ジャイアンツ」に関して否定的選好を有するとして知られる。それらの既知の選好から、用語「ボンズ」に関してなど、野球領域に関する他の選好を推定することができる。さらに、図9Jにおいて、アメリカ映画の領域に関してさらに詳細に議論されるように、野球領域において既知の選好および推定される選好に基づいて、ユーザXに関する他の領域の選好を同様に推定することができる。
特に、図2Mの実施例では、GUI205は、様々な分類または領域207に関する、様々な既知の用語選好および推定された用語の選好208に関する情報を含む、ユーザX(図示せず)に表示されたペイン205aを含む。この図示される実施例では、ペイン205aのより低いセクション206e内の情報が、このような肯定的選好に関する情報を現在含むように、ユーザXの肯定的選好に対応するユーザ選択可能タブ206aを現在選択している。代わりに、ユーザ選択可能タブ206bが選択された場合、より低いセクション206e内の情報を更新して、ユーザXの既知の否定的選好および推定される否定的選好に関する情報を示すことになる。加えて、より低いセクション206e内の拡張のために、分類/領域207のうちの1つまたは複数を選択して、「スポーツ」分類/領域207cに関して現在示されているように、その分類/領域に関するユーザXの既知の選好および推定される選好を示すことができる。特に、本実施例では、それぞれ、用語「ハンク・アーロン」、「ホームラン」、および「サンフランシスコフォーティナイナーズ」に関して既知の選好208b〜208d、ならびに(本実施例では、影付き、またはそうでない場合、複数の色を使用するGUI内に異なる色を用いてなど、強調表示された形で示され、それが推奨される選好であることをユーザXに示す)用語「ボンズ」に関して推定され、推奨される選好208を含めて、「スポーツ」分類/領域207cに関して、4つの既知の肯定的用語選好および推定される肯定的用語選好208を示す。加えて、本実施例では、ユーザXは、ユーザ選択可能なテキスト入力制御206cおよび選択制御206dを使用して、他の選好を指定することができるか、またはそうでない場合、ユーザ選択可能な制御206hおよび206iを使用して、選好を変更および操作することができる。他のGUIは、様々な方式で、様々なユーザインターフェース制御および操作技術を使用して、同じ情報または他の情報を表示することができることを理解されよう。一実施例として、用語「ボンズ」に関して推奨された用語選好208aが、実際の肯定的選好であるか、もしくは否定的選好であるかを選択するため、またはそうでない場合、それを示すため、あるいはそうでない場合、推奨された用語選好を現在のビューから除去するための機構をユーザXに提供することができる。さらに、ある実施形態および状況は、様々な量の情報を表示する、異なるサイズのGUI画面を含み、一度に、(既知の推奨および/または推定される推奨であるかどうかにかかわらず)さらに多くの用語選好を表示するなどできる。
加えて、図2Mの実施例では、DSRDサービスと相互に作用する別のサービス(本実施例では、仮定に基づいた「American−Movie−Info.com」Web領域を使用した、映画に関する情報を有するオンラインサービス)に対応するための追加情報205bを図示して、ユーザXの既知の用語選好および推定された用語選好に関する情報を交換する。ある実施形態では、ペイン205aと同時にまたは連続的になど、DSRDサービスのGUI205の追加ペインとして、情報205bを図示することができる。他の実施形態では、代わりに、GUI205から独立した方式で他のサービスによって、情報205bをユーザXに表示することができるか、もしくはそうでない場合、ユーザXに提示することができるか、または、代わりに、追加情報205bのうちの一部もしくはすべてを、ペイン205aの一部として(例えば、他の映画関連サービスによってDSRDサービスに提供された情報を図示するためになど、ペイン205aの分類/領域207dを拡張することによって、)ユーザXに表示することができる。さらに、ある実施形態および状況では、複数のこのような他のサービスが利用可能であってよく、DSRDサービスに関連してよく、およびこのようなサービスが利用可能である場合、またはDSRDサービスに関連する場合、ユーザ選択可能なドロップダウン制御209aを使用して、選択制御209bを使用して、または他の方式で当該サービスを選択することができる。
本実施例では、追加情報205bは、(例えば、DSRDサービスによって、他のサービスに予めまたは動的に供給された情報に基づいて、ユーザXまたは他のソースから予め取得された他のサービスからの情報に基づいてなど)映画「レイジングブル」に関するユーザXの既知の選好211aを図示して、ならびに既知の選好211a、およびDSRDサービスから利用可能な他の選好情報208に基づく、ユーザXに関する3つの、推定され、推奨される選好211b〜211dを図示する。例えば、図9Jは、ユーザXに関するこのような選好情報208に少なくとも一部基づいて、映画関連選好をどのように判定することができるかに関する追加の詳細例を提供する。したがって、このように、GUI205などのGUIを提供するサービスは、様々なユーザに関する選好関連情報を提供および取得することができ、ならびにこのような情報を使用して、様々な利点をユーザおよびサービスに提供することができる。ペイン205aの方式と類似した方式で、他のGUIは、様々な方式で、ならびに様々な量の情報を用いることを含めて、様々なユーザインターフェース制御および操作技術を使用して、情報205bの情報などと同じ情報または他の情報を表示することができることを理解されよう。
ニューラルネットワーク例295a〜295dに関して図示される様々な重み、関連性数、および他の情報を、図示のために提供して、ならびに他の実施形態では、他の方式を有することができ、および他の方式で変更することができることも理解されよう。加えて、図2A〜図2Mの実施例に図示される情報を、図示のためだけに提供しており、記述される様々な活動は、他の実施形態では、他の方式で実行することができることを理解されよう。加えて、様々な他の詳細を、理解のために、抽象的な方式で示しているか、または図示していない。さらに、他のところでより詳細に議論されるように、様々な実施形態では、様々な他のタイプの機能性を、DSRDサービスによって提供および使用することができる。少数の用語、文書、およびニューラルネットワークノードを図示するが、実際の実施形態では、対応する数のニューラルネットワークノードを用いて、数十万の用語および数百万の文書を含むためになど、実際の数量をさらに多くすることができることも理解されよう。
図2A〜2Mの実施例は、テキスト文書内または他のコンテンツ項目内に存在する用語を分析することに基づくが、記述される技術を、他の方式で、および他のタイプのコンテンツと共に使用することができることを理解されよう。特に、他のタイプのコンテンツを有するコンテンツ項目の集成を、分析して、それらのコンテンツ項目のコンテンツの一部であるか、またはそうでない場合、それらのコンテンツ項目に関連する、任意の他のタイプの認識可能な特徴もしくは特性、または他の属性を識別することが可能であり、ならびにテキスト用語に関して議論された方式と類似の方式で、コンテンツおよび/または他のこのような属性に対する特定の属性の関連性を、判定することができる。このようなコンテンツ項目属性の非排他的なリストは、以下を含む。すなわち、コンテンツ項目のタイプ(例えば、音声ストリームまたは音声ファイル、ビデオストリームまたはビデオファイル、画像など)、コンテンツ項目のソース、画像コンテンツ内またはビデオコンテンツ内の特定のオブジェクト、ストリーム項目またはファイルコンテンツ項目内の情報の特定のパターン、コンテンツ項目に関連する特定のタイプのメタデータなどである。このような属性をそれぞれ、用語として扱い、指定された属性に関連する検索結果を提供して、および/または1つもしくは複数の関連する属性のテーマもしくは他のグループを定義するなどできる。
加えて、図2I〜2Lの実施例は、ニューラルネットワークおよび誤差逆伝播法学習を使用して、判定された関連性情報を経時的に改善することができ、他の実施形態では、他のタイプの機械学習技術または適応システムを代わりに使用することができる。一実施例として、ある他の実施形態では、当初判定された関連性情報を、図2I〜2Lの実施例で議論されたのと類似の構造を有する、確率的ベイジアンニューラルネットワークを使用して表すことができる、ノード値は、ネットワーク内の先行する結合されたノードからの対応する入力値に基づく条件付きの確率を表して、確率的信念伝搬を使用して、特定の関連性値を判定して、および学習は、条件付きの確率値を更新して、フィードバックに経時的に対応することを含む。
加えて、クエリ用語または選好情報を指定するユーザに関する実施例を既に議論したが、様々な実施形態では、他のタイプの情報を様々な方式で使用することができる。例えば、ユーザ特有の情報のグループを、自動的に分析して、および使用して、そのユーザに関する選好情報を判定することができ、その結果、ユーザ特有の情報のグループを、使用して、その選好情報に関連する他のコンテンツを自動的に判定することができる。分析可能な、このようなユーザ特有の情報の非排他的な実施例は、電子メールおよび他の通信のグループ(例えば、特定の期間の間にユーザが送信および/または受信したすべての電子メール、ユーザのブログ内または他の記録セット内の一部もしくはすべての入力など)、様々なタイプのユーザ動作のログまたは履歴(例えば、実行された検索の履歴および/もしくは結果として生じる検索結果との相互作用)、ユーザのソーシャルネットワークおよび他の関係に関する情報などを含む。あるいは、ある実施形態では、代わりに、このようなユーザ特有の情報の分析に基づいて、ユーザが関心を持つテーマを自動的に判定するために、および/またはユーザの現在の関心に関連する、このようなユーザ特有の情報の特定の断片の取出しを可能にするためになど、そのユーザ(および/または他のユーザ)が関心を持つ可能性がある文書の集成として、1つまたは複数のこのようなユーザ特有の情報のグループを扱うことができる。
例えば、ユーザは、文書にアクセスしている可能性があり、およびその文書からの情報のコンテンツを使用して、(例えば、そのユーザのコンピューティングシステムから、インターネットまたは他の外部ネットワークもしくはデータストアからなど)他の関連するコンテンツ項目を識別することができる。1つの特定の説明に役立つ実施例として、ユーザ、ジョン・ドウは、その履歴書を編集している場合があり、ならびにそのユーザの電子メールストアおよびWebから関連する職業履歴データまたは他の関連データを取得することを望むことができる。電子メールストアは、例えば、会社1および会社2に関してそのユーザによって行なわれた過去の仕事に関する電子メールを有して、それらの電子メールのヘッダは、それぞれの会社名を含むことができる。(ローカルであれ、リモートであれ)そのユーザに関するデータストアは、そのユーザの1つもしくは複数の過去の履歴書または履歴書サンプルを含むこともでき、および仕事関連のソーシャルネットワーキングサイトは、そのユーザの過去の雇用の履歴を有することができる。このような状況で、特定のユーザが履歴を開いた状況を使用して、そのユーザがクエリ用語「ドウ」を用いて指定する検索を自動的に拡張または補完することができ、追加のクエリ用語「ジョン」、「会社1」、「会社2」、「履歴書」、その履歴書からの職種もしくは記述情報、その履歴書もしくは他の格納されたプロファイルからのそのユーザに関する地理的場所情報、またはそのユーザに関する選好情報などのうちの1つまたは複数を追加するなどできる。拡張された検索は、次いで、会社1および会社2に関してユーザによって行なわれた過去の仕事に関係する電子メール、会社1および会社2に関する他の格納された文書、過去の履歴書または履歴書の例、仕事関連のソーシャルネットワーキングサイトからの雇用履歴情報など、様々なタイプの関連文書または他の情報を識別することができる。
関心領域に関する関連性情報を判定する実施例、およびこのような判定された関連性情報の考えられる使用に関する追加の詳細は、そのそれぞれの全体が、参照により本明細書に組み込まれている、2008年12月12日に出願した、「Electronic Profile Development,Storage,Use,and Systems Therefore」という表題の特許文献1、2008年12月12日に出願した、「Advertising Selection and Display Based on Electronic Profile Information」という表題の特許文献2、2009年2月25日に出願した、「Determining Relevant Information for Domains Of Interest」という表題の特許文献3、2009年2月25日に出願した、「Electronic Profile Development,Storage,Use,and Systems For Taking Action Based Thereon」という表題の特許文献4、2009年2月25日に出願した、「Platform for Data Aggregation,Communication,Rule Evaluation,And Combinations Thereof,Using Templated Auto−Generation」という表題の特許文献5において利用可能である。
さらに、他のところでより詳細に記述されるように、これらの記述された技術を、関連するコンテンツ項目を識別または取り出す以外の状況において使用することができる。例えば、コンテンツ項目の第1のグループの自動化された分析を使用して、(例えば、一致するパターンまたは類似のパターンを有するデータに基づいて)第1のグループのコンテンツ項目内のデータのタイプまたは分類に対応するテーマを識別することができ、およびそれらの識別されたテーマを使用して、クエリ用語として使用される、別のデータ項目のタイプを分類して、またはそうでない場合、当該タイプを判定することができる。1つの説明に役立つ実施例として、暗号化方式のタイプに対応するテーマを識別するように、様々なタイプの暗号化されたデータを分析することができる。暗号化されたファイル、もしくは暗号化されたデータの他の断片を、後で供給する場合、またはそうでない場合、それらを指定する場合、DSRDサービスを自動的に使用して、その指定されたデータ断片を暗号化するために使用される可能性が最も高い暗号化方式のうちの1つまたは複数を識別することができる。より一般的には、コンテンツ項目の第1のグループから識別されたテーマは、後のクエリが、1つもしくは複数の対応する識別されたテーマを、考えられる解決法として自動的に判定するあるタイプの数学的な問題または他の問題を提示することができるような、対象範囲に関連する有効なタイプの解決法とすることができる。これらの記述された技術を、様々な他の方式で同様に使用することができることを理解されよう。
図3は、関心領域に関する関連性情報を判定する技術を実行するのに適したシステムの一実施形態例を示すブロック図である。特に、図3は、DSRDシステム340の一実施形態を実行するのに適したコンピューティングシステム300、ならびに様々なユーザコンピューティングシステム350、ならびに他のコンピューティングシステム360、370、および380を図示する。図示される実施形態では、コンピューティングシステム300は、CPU305と、様々なI/O構成要素310と、記憶装置320と、メモリ330とを含む構成要素を有する。図示されるI/O構成要素は、ディスプレイ311と、ネットワーク接続312と、コンピュータ可読媒体ドライブ313と、他のI/Oデバイス315(例えば、キーボード、マウス、スピーカなど)とを含む。加えて、図示されるユーザコンピューティングシステム350は、CPU351と、I/O構成要素352と、記憶装置354と、メモリ357と含めて、サーバコンピューティングシステム300の構成要素に類似した構成要素を有するが、一部の詳細(例えば、特定のI/O構成要素)は図示されない。他のコンピューティングシステム360、370、および380はそれぞれ、コンピューティングシステム300に関して図示される構成要素のうちの一部またはすべてに類似する構成要素を含むこともできるが、このような構成要素は、説明を簡潔にするために、本実施例では図示されない。
DSRDシステム340は、DSRDサービスの一実施形態を提供するためになど、CPU305によってメモリ330内で実行可能なソフトウェア命令を含むことができる。特に、DSRDシステム340は、(例えば、インターネットおよび/またはWWWを経由して、プライベートセルラーネットワークを経由してなど)ネットワーク390を介して、コンピューティングシステム350、360、370、および380のうちのいくつかまたはすべてと相互に作用して、情報および要求を取得して、および、応答して情報を提供する。例えば、DSRDシステム340は、本実施例では、要求された検索結果および/または領域に関して判定されたテーマもしくは他の用語間関係に関する情報を提供する要求、ならびに、それに応じた応答など、ユーザコンピューティングシステム350と相互に作用している様々なユーザ(図示せず)から要求を受信する。ある実施形態では、DSRDシステム340は、(それらのユーザから直接的であれ、それらのユーザの代わりに別のシステムからであれ)特定のユーザの代わりにユーザ特有の勧告の要求を受信して、および領域特定の判定された関連性情報に少なくとも一部基づく、対応するユーザ特有の勧告を提供することをさらにすることができるが、他の実施形態では、1つもしくは複数の他のシステム335および/または365は、代わりに、DSRDシステム340によって提供された領域特定の判定された関連性情報を使用して、このようなユーザ特有の勧告を生成および提供することができる。加えて、ユーザコンピューティングシステム350のうちの1つまたは複数は、他のところでより詳細に議論されるように、DSRDシステム340と相互に作用して、様々な他のタイプの動作を実行して、ユーザ動作に関する様々なタイプのフィードバックを提供するなどできる。他のコンピューティングシステム350は、DSRDシステム340との相互作用の一部として、様々なソフトウェアを実行している場合がある。例えば、ユーザコンピューティングシステム350はそれぞれ、Webブラウザ358または他のソフトウェアをメモリ357内で実行しており、DSRDシステム340と相互に作用して、DSRDシステム340によって提供されたDSRDサービスのWebベースのGUIと相互に作用することができる。
領域特定の関連性情報を判定するため、DSRDシステム340は、領域特定の文書または他のコンテンツを1つもしくは複数のソースから取得して、およびその情報を分析して、領域特定の関連性情報を自動的に判定する。様々な実施形態において、領域特定のコンテンツのソースは異なり、ローカル記憶装置320上の領域関連情報322、他のリモートコンピューティングシステム370上のオプションの領域情報375、1人もしくは複数のユーザによる分析のために、ユーザコンピューティングシステム350から、および/または他のコンピューティングシステム360上のオプションの他のシステム365から供給された情報などをオプションで含めなどできる。他のコンピューティングシステム360上のオプションの他のシステム365、および/または、メモリ330内で実行しているオプションの他のシステム335は、様々な実施形態において、(例えば、ユーザコンピューティングシステム350のユーザと相互に作用するために)判定された関連性情報をDSRDシステム340から取得して、ならびにその取得された情報を様々な方式で使用する関連サービス、および/または分析するためにコンテンツをDSRDシステムに提供するコンテンツ提供サービスなど、様々な方式を有することができる。例えば、特定のオプションの他のシステム365は、領域情報を維持して、分析するためにそれをDSRDシステム340に提供して、ならびに結果として生じる判定された関連性情報をDSRDシステム340から取得して、およびこれを使用することができるが、関連性情報(例えば、テキスト分析情報、生成されたニューラルネットワークなど)の判定の際にDSRDシステム340によって使用される情報のうちの少なくともいくつかは、コンピューティングシステム300上に格納されており、および他のシステム365に提供されない。あるいは、他の実施形態では、DSRDシステム340は、任意のこのようなオプションの他のサービスと相互に作用せずに、1つまたは複数の領域に関して判定された関連性情報を生成して、およびこれを使用することができる。さらに、1人または複数のオプションの他の第3者は、様々な他の方式で、他のコンピューティングシステム380のうちの1つまたは複数を使用して、およびDSRDサービスと相互に作用することができる。
1つまたは複数の関心領域に関する情報322(例えば、分析されるべき領域特定のコンテンツ、または既に分析されている領域特定のコンテンツ)と、領域特定のコンテンツの分析の結果に関係する情報324(例えば、生成されたニューラルネットワークデータ構造、用語間関係の確率表示を含むベイジアンネットワークデータ構造、確率表示情報のサブセットを表す、生成された決定木データ構造など、領域特定の関連性情報、判定された得点、ならびに特定の用語、テーマ、および文書に関係する他の情報など)と、様々な領域特定の情報および他のフィードバック情報とのユーザの相互作用に関する情報を反映するための情報326と、様々なユーザ情報328(例えば、特定の用語を選好するか、もしくは他の関心、または通信機構もしくは相互作用機構に関係するより一般的な選好)となど、DSRDシステム340の動作に関する様々な情報を、記憶装置320または他の場所に(例えば、1つまたは複数の他のコンピューティングシステム380上にリモートで)格納することができる。他の実施形態では、DSRDシステム340によって使用もしくは生成される情報のうちの一部もしくはすべてを、他のコンピューティングシステム380上、または他の記憶ノード/記憶システム(図示せず)上を含めて、他の方式で格納することができる。DSRDシステム340は、(例えば、判定された関連性情報をユーザに提供するときに)ユーザとのDSRDシステム340の相互作用に基づいて、情報を生成することによって、ユーザと相互に作用し、およびDSRDシステム340から判定された関連性情報をそれらのユーザに提供する、オプションの他のシステム335および/または365から、フィードバック情報を生成するためにユーザと相互に作用している、1つまたは複数のシステムによってなど、様々な方式でフィードバック情報326を取得することができる。
コンピューティングシステム300、350、360、370、および380は、単なる実例であり、本発明の範囲を限定することが意図されないことを理解されよう。これらのコンピューティングシステムは、代わりに、それぞれ、複数の相互に作用しているコンピューティングシステムまたはコンピューティングデバイスを含むことができ、およびこれらのコンピューティングシステムを、インターネットなど、1つまたは複数のネットワークを介して、Webを経由して、またはプライベートネットワーク(例えば、移動体通信網など)を経由して、を含めて、図示されない他のデバイスに接続することができる。より一般的には、コンピューティングシステムは、デスクトップまたは他のコンピュータ、データベースサーバ、ネットワーク記憶デバイスおよび他のネットワークデバイス、PDA、携帯電話および無線電話および他の電話システム、ポケットベル、電子手帳、インターネット機器、(例えば、セットトップボックスおよび/またはパーソナルビデオレコーダ/デジタルビデオレコーダを使用する)テレビベースのシステム、ブロードキャストシステム、ならびに任意の適切な通信プロトコルを使用する適切な通信機能を含む、様々な他の消費者製品を含むが、これらに限定されない、相互に作用して、記述されるタイプの機能性を実行することができるハードウェアまたはソフトウェアの任意の組合せを含むことができる。加えて、図示されるDSRDシステム340によって提供される機能性を、ある実施形態では、他のところでより詳細に議論されるように、様々なモジュール内に分散することができる。同様に、ある実施形態では、DSRDシステム340の機能性のうちのいくつかは、提供されない場合があり、および/または他の追加の機能性が利用可能な場合もある。
使用されている間に、メモリ内または記憶装置上に格納されているとして、様々な項目を図示するが、メモリ管理およびデータの完全性のために、メモリと他の記憶デバイスとの間で、これらの項目またはそれらの部分を転送することができることを理解されよう。あるいは、他の実施形態では、ソフトウェアモジュールおよび/またはシステムのうちの一部もしくはすべては、メモリ内または別のデバイス上で実行して、およびコンピュータ間通信を経由して、図示されるコンピューティングシステムと通信することができる。さらに、ある実施形態では、1つもしくは複数の特定用途向け集積回路(ASIC)、標準の集積回路、(例えば、適切な命令を実行することによって、ならびにマイクロコントローラおよび/または埋込み式コントローラを含む)コントローラ、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブル論理素子(CPLD)など、ならびにRFID技術を用いるデバイスに限定されないが、これらを含めて、ファームウェア内および/またはハードウェア内で少なくとも一部など、他の方式で、システムおよび/またはモジュールのうちの一部もしくはすべてを実装することできるか、または提供することができる。モジュール、システム、およびデータ構造のうちの一部またはすべてを、1つもしくは複数のこのようなコンピュータ可読媒体上に格納されて、および適切な読取りデバイスによって読取り可能な1つもしくは複数のバーコード内または他の関連コード内で符号化されるなどを含めて、ハードディスク、メモリ、ネットワーク、または適切なドライブによってもしくは適切な接続を経由して読み取られることになる携帯用メディア商品などのコンピュータ可読媒体上に(例えば、ソフトウェア命令または構造化されたデータとして)格納することができる。これらのシステム、モジュール、およびデータ構造を、生成されたデータ信号として(例えば、搬送波の一部として)、無線ベースの媒体、および有線ベース/ケーブルベースの媒体を含む様々なコンピュータ可読伝送媒体上で送信することができ、および様々な方式をとり、またはより一般的には、任意のコンピュータ可読媒体上で仲介することができる。このようなコンピュータプログラム製品は、他の実施形態では、他の方式をとることもできる。したがって、本発明を、他のコンピュータシステム構成を用いて実施することができる。
図4は、DSRDサービスルーチン400の一実施形態例のフロー図である。関心領域に関する関連性情報の判定、ならびにユーザまたは他のエンティティとの対応する相互作用を管理するためになど、例えば、図1A〜図1CのDSRDサービス105および/または図3のDSRDシステム340の実行によってこのルーチンを提供することができる。図示される実施形態では、このルーチンは、(例えば、DSRDサービスの人間のオペレータによって指令されるように、第3者エンティティによって要求されるようになど)特定の領域に関する情報を前処理して、このような情報に基づいて、後の要求に応答する際に使用するために、少なくともいくつかのタイプの領域特定の関連性情報を判定して、または代わりに、少なくともある状況では、ユーザもしくは他のエンティティからの要求に応答して、少なくともあるタイプの領域特有の関連性情報を動的に生成するためになど、1つまたは複数の関心領域に関する情報を様々な時点で分析する。
図示される実施形態では、このルーチンは、要求または他の情報の表示を受信するブロック405から始まる。このルーチンは、ブロック410に続き、表示された領域に関する関連性関連情報を判定するため、要求を受信するか、または分析されることになる領域特有のコンテンツを提供しているかを判定して、および受信された場合または提供された場合、ブロック415に続く。ブロック415〜450において、このルーチンは、次いで、領域特有の情報を分析して、その領域に関する関連性関連情報を判定して、および後で使用するために、その情報を格納する。加えて、ブロック415〜450を、関心領域に関する関連性関連情報の初めの判定を実行するとして図示するが、少なくともある実施形態では、ブロック415〜450のうちの一部またはすべてを、同様に実行して、ユーザフィードバックに基づいて、予め判定された関連性情報を訂正するために、および/または新たに利用可能な領域特有のコンテンツに基づいて、予め判定された関連性情報を拡張するためになど、予め判定された関連性を変更することができる。
特に、ブロック415において、このルーチンは、領域に関する文書または他の領域特定の情報を取得して、ブロック405で現在受信されている文書、予め受信されて、および後で使用するために格納された文書、ブロック405で受信された要求において指示された外部位置から取り出された文書など、分析される。ブロック415の後で、このルーチンは、420に続き、領域分析マネージャルーチンを実行して、利用可能な領域特有のコンテンツに関する用語情報を分析してこのようなルーチンの一実施例を、図5に関して示している。ブロック420の後で、このルーチンは、ブロック430に続き、用語間関連性判定マネージャルーチンを実行して、(例えば、ブロック420によって生成されたデータに基づいて)その領域に関する、関連する用語間関係(例えば、テーマ関連情報)を判定して、このようなルーチンの一実施例を、図6に関して示している。ブロック430の後で、このルーチンは、ブロック440に続き、関連性文書判定マネージャルーチンを実行して、(例えば、ブロック420によって生成されたデータに基づいて)特定の用語およびテーマに関連する領域の特定の文書を判定して、このようなルーチンの一実施例を、図7に関して示している。ブロック440の後で、このルーチンは、ブロック445に続き、用語関係勧告生成マネージャルーチンを実行して、このような用語間関係に少なくとも一部基づいて、ユーザ特有の勧告を生成する際に後で使用するために、(例えば、ブロック430および/または440によって生成されたデータに基づいて)領域(1つまたは複数)に関する特定の用語間の関係の確率表示を生成して、このようなルーチンの一実施例を、図8A〜8Bに関して示している。ブロック445の後で、ブロック447に続き、ルーチンをオプションで実行するか、またはそうでない場合、(例えば、このような指示された用語および/または追加用語に少なくとも一部基づいて、ユーザ特有の勧告を生成する際に後で使用するために)図1Aに関して議論されたオプションのモジュール127によって実行することができるような、分析されている領域に関係する関心の特定の用語に関連するコンテンツ項目(例えば、ブロック445の用語関係勧告生成マネージャルーチンの出力に基づいてなど、他の指示された用語に関して特定の関心があるとして識別された追加用語コンテンツ項目)を識別する働きをするが、ある実施形態では、このようなコンテンツ項目の識別は、この時点で実行されないか、まったく実行されない。ブロック447の後で、このルーチンは、ブロック450に続き、その情報を、要求に応答して動的に判定した場合、または先の要求に対処するために供給している場合など、ブロック420〜445から判定された関連性情報を格納して、および/または、判定された関連性情報のうちの一部もしくはすべてをリクエスタにオプションで提供する。ブロック420〜445から判定された関連性情報を、揮発性メモリ記憶装置および/または不揮発性記憶装置を含めて、様々な方式で格納することができ、ならびに他のところでより詳細に議論されるように、(例えば、ニューラルネットワーク、ベイジアンネットワーク、決定木など)様々な方式で格納することができる。
そうではなく、ブロック410において、別のタイプの要求または情報を受信したことが判定された場合、このルーチンは、代わりにブロック460に続き、要求を受信して、指示された領域に関して判定された関連性情報を提供するかどうかを判定する。このような判定された関連性情報を、様々な理由で、および検索要求に応答して、またはユーザが1つもしくは複数の関心テーマに関する情報を指定するのを支援する一環としてなど、様々な時点で、ならびに(例えば、ユーザのクライアントデバイス上の表示もしくは他の提示のためにユーザに提供されたWebページまたは他の情報スクリーンの一部として、そのサービスによって使用されることになる情報の要求に応答して、別のサービスに対して、など)様々な方式で提供することができる。ブロック460において、要求を受信して、指示された領域に関して判定された関連性情報を提供することを判定した場合、このルーチンは、ブロック465に続き、その要求された関連性情報を既に判定して、およびブロック415〜450において後で使用するために格納しているかどうか、または要求された関連性情報のうちの一部もしくはすべてを動的に生成するべきかどうかを判定する。他の実施形態では、このような要求に応答して提供された関連性情報を常に予め判定して、および格納しているか、もしくは、常に、動的に判定している場合、またはその要求が、格納された情報もしくは動的に判定された情報を提供するかどうかを指定する場合などには、このような判定を行わなくてもよい。図示される実施形態では、ブロック465において、格納された関連性情報を使用することを判定した場合、このルーチンは、ブロック470に続き、予め判定されて、および格納された情報から、要求された関連性情報を取得する。
加えて、様々な実施形態では、様々な方式でブロック470の動作を実行することができる。例えば、ある実施形態では、少なくともあるタイプの判定された関連性情報は、その情報を受信することが許可されたユーザ、または他のエンティティのサブセットにだけ利用可能な場合あり、およびそのように利用可能である場合、ブロック460〜475のうちの1つまたは複数に関する動作は、そのリクエスタが要求された情報を受信することを許可する(例えば、その情報にアクセスするために適切な料金を支払っている、機密の要求された情報を受信することが許可されているとして検証されている特定の識別性を有する、など)かどうかを判定することをさらに含むことができる。加えて、電子メッセージ、または関連サービスによってなど、DSRDサービスによって提供された1つもしくは複数のAPIを使用したプログラマブル相互作用を含めて、様々な方式で、要求を受信することができ、および情報を提供することができる。あるいは、(例えば、Webベースの情報検索GUI、またはDSRDサービスもしく他の関連サービスによって提供された他のGUIに基づいて)ユーザからWebベースの要求を受信することができ、および要求された情報を、その要求に応答して送信された、1つまたは複数の生成されたWebページの一部としてユーザに供給することができる。
代わりに、ブロック465において、要求された関連性情報のうちの少なくともいくつかを動的に取得することを判定した場合、このルーチンは、代わりに、ブロック475に続き、その情報を動的に取得することを実行する。特に、ルーチン例400に示されるように、ブロック475の実行は、ブロック420〜445(ならびに、存在する場合、オプションで、ブロック447)に対応する他のルーチンのうちの1つまたは複数を実行することと、および結果として生じる情報をルーチンから取得することとを含むことができる。加えて、ここでは図示しないが、ある実施形態では、ブロック475の実行は、同様にブロック415の実行を開始することによってなど、分析されることになる文書もしくは他のコンテンツを取得することをさらに含むこともでき、または代わりに、使用されることになる、このようなコンテンツを、ブロック475の実行の一環として、ブロック405において受信して、ならびにブロック420〜445(および/または、オプションのブロック447)に対応する、ルーチンのうちの1つまたは複数に提供することができる。ブロック470または475の後で、このルーチンは、ブロック480に続き、他でより詳細に議論されるように、様々な実施形態では、様々な方式で実行可能な、取得された情報をユーザまたは他のリクエスタに提供する。さらに、ブロック480の実行は、少なくともある状況では、当初、ある情報を提供するために、および後で、追加情報の情報を提供するために、または初めの情報の提供の後で、ユーザもしくは他のリクエスタによってとられた行動に基づいて、そのユーザもしくは他のリクエスタとの他の相互作用を実行するためになど、ユーザまたは他のリクエスタとの複数の相互作用を含むことができることを理解されよう。ブロック480の後で、このルーチンは、ブロック485に続き、ユーザもしくは他のリクエスタによって提供された関連性情報の使用からフィードバックをオプションで取得または判定して、および取得または判定した場合、図示された実施形態では、学習動作を実行する際に後で使用するために、フィードバックを維持して、予め判定された関連性情報を改善する(他の実施形態では、このルーチンは、代わりに、少なくともある状況では、フィードバック情報を使用して、ブロック420〜445のうちの1つまたは複数に対応するルーチンを再度実行するためになど、任意のこのような取得されたフィードバックを速やかに使用することができる)。
代わりに、ブロック460において、表示された領域に関して判定された関連性情報を提供する要求を受信していないことを判定した場合、このルーチンは、代わりに、ブロック462に続き、1つまたは複数の表示された領域に関して判定された関連性情報に基づいて、ユーザにユーザ特有の勧告を提供することに関する要求を、ユーザからまたはユーザの代わりに(例えば、そのユーザと相互に作用している別のサービスから)受信しているかどうかを判定する。受信している場合、このルーチンは、ブロック464に続き、用語関係勧告生成マネージャルーチンを実行して、ブロック445に関して予め生成された確率表示、または代わりに、現在の要求に応答している時に動的に生成される確率表示など、領域(1つもしくは複数)に関する特定の用語間の関係の確率表示に基づいて指示された領域(1つもしくは複数)に関する、ユーザに関するユーザ特有の勧告を生成する。他の実施形態では、別のサービスは、代わりに、ブロック445で実行されたルーチンが、後で使用するために、用語間関係情報の確率表示を単に生成して、およびその生成された情報を(例えば、ブロック450、480、490のうちの1つまたは複数に関してなど)他のサービスに提供するように、DSRDサービスによって生成された確率表示情報を使用して、このようなユーザ特有の勧告を提供することができる。ブロック464の後で、このルーチンは、ブロック480に続き、生成された勧告情報をリクエスタに提供する。
代わりに、ブロック462において、指示された領域に関して判定された関連性情報に基づいて勧告を提供する要求を受信していないことを判定した場合、このルーチンは、代わりに、ブロック490に続き、1つまたは複数の他の表示された動作を適切に実行する。例えば、ブロック490において、分析されることになる新しい領域に関する情報および/または関連性情報を予め判定した領域に関する新しい情報もしくは更新された情報など、領域特定のコンテンツを受信して、および後で分析するために格納することができる。あるいは、ブロック490において、予め判定された関連性情報の使用に関するフィードバック情報など、他のタイプの情報を受信して、および使用することができ、ならびに様々な方式で使用することができる。例えば、1つまたは複数の予め定義された基準を、(例えば、取得された最少量のフィードバックまたは最大量のフィードバック、対応する関連性情報のこれまでの判定以来の最少時間量または最大時間量などに基づいて)ブロック490で受信されたフィードバックおよび/またはブロック485で格納されたフィードバックによって満たす場合、他のところでより詳細に記述されるように、このフィードバック情報を使用して、ブロック420〜445のうちの1つまたは複数に対応する、これらのルーチンの追加の実行を始動して、予め判定された関連性情報を学習および更新することができる。加えて、ブロック490において、DSRDサービスが相互に作用するユーザもしくは他のエンティティからの要求、またはDSRDサービスの人間のオペレータからの要求など、(例えば、後続のフィードバック情報、利用可能な後続の追加の領域特有のコンテンツなどに基づいて)予め判定された関連性情報を更新する要求など、他のタイプの要求を受信して、および処理することができる。同様に、DSRDサービスの人間のオペレータから様々な管理要求を受信して、および処理することができる。
ブロック450、485、または490の後で、このルーチンは、ブロック495に続き、終了するための明示的な指示を受信するまでなど、継続するかどうかを判定する。継続することを判定した場合、このルーチンはブロック405に戻り、およびそうでない場合、ブロック499に続き、および終了する。
図5は、領域分析マネージャルーチン500の一実施形態例のフロー図である。領域に関する領域特有のコンテンツを分析して、特定の文書内の特定の用語、およびすべての文書を通した特定の用語の使用を判定するためになど、例えば、図1AのDSRDサービス105の領域分析マネージャモジュール110および/または図3のDSRDシステム340のモジュールの実行によって、このルーチンを提供することができる。加えて、少なくともある状況では、図4のブロック420の実行に基づいてルーチン500を実行することができる。本実施例では、ルーチン500を、領域に関する領域特定のコンテンツの初めの分析に関して実行するが、他の実施形態では、同様に実行して、他の文書の先の分析が完了した後で、領域に関して利用可能になる追加の文書を分析するためになど、予め分析された情報を更新することができる。さらに、他のルーチンの方式と類似の方式で、ルーチン500は、その判定された領域の使用に先立って、ならびに、このような情報に関する要求に応答して動的に、領域に関する用語分析情報を判定することができる。
このルーチンの図示された実施形態は、領域に関して分析されることになる文書の指示または別の要求を受信するブロック505から始まる。このルーチンは、ブロック510に続き、分析されることになる文書を受信したかどうかを判定する。受信した場合、このルーチンは、ブロック515に続き、それらの文書のそれぞれを分析して、それらの文書内に存在する用語を判定する。加えて、他のところでより詳細に議論されるように、文書に関する用語の判定は、様々な実施形態において、様々なタイプの用語処理を含み、(例えば、そこから関連用語の組合せが生じる用語を使用して)用語を正規化して、共通の用語(例えば、「the」、「a」、「an」、「of」、「and」など)または他の指示された用語を除去して、後で分析するために複数の語を単一の用語に共に集約して、文書内の用語のインデックスを生成するなどできる。ブロック515の後で、このルーチンは、ブロック520に続き、それぞれの文書の用語に関する用語頻度判定を実行して、およびブロック530において、それらの文書のすべてを通してそれぞれの用語に関する逆文書頻度判定を実行する。ブロック540において、このルーチンは、次いで、ブロック520および530において生成された情報に基づいて、それぞれの用語および文書の組合せに関するTF−IDF得点を判定する。ブロック540の後で、このルーチンは、ブロック560に続き、後で使用するために、判定された情報を格納して、および(例えば、図4のブロック475に関してなど、判定された情報に関するルーチン500の動的な起動に対する応答として、または図4のブロック430および/もしくは400に対応してなど、図6の関連テーマ判定マネージャルーチン600および/もしくは図7の関連文書判定マネージャルーチン700による使用のために)その判定された情報を出力としてオプションで提供する。
代わりに、ブロック510において、分析されることになる文書を受信しなかったことを判定した場合、このルーチンは、代わりに、ブロック585に続き、1つまたは複数の他の指示された動作を適切に実行する。例えば、これらの他の動作は、予め生成された文書用語分析情報に関する要求、予め判定された文書分析情報を更新して、利用可能な新しい領域特有のコンテンツを反映する要求、DSRDサービスの人間のオペレータからの管理要求などを受信して、これらに応答することを含むことができる。他のところでより詳細に議論されるように、予め判定された文書分析情報を更新して、利用可能な新しい領域特有の文書を反映するとき、このルーチンは、ある実施形態では、それらの新しい文書に関して、ステップ515〜560を実行することができる一方、他の実施形態では、このような新しい文書を(例えば、1つもしくは複数の類似性測定値に基づいて、新しい文書が最も類似する、1つもしくは複数の他の予め分析された文書を識別することによって、および新しい文書を表すために、他の識別された文書(1つもしくは複数)内の用語に関して判定されたTF−IDF得点を使用してなど、新しい文書を表すための他の識別された文書(1つもしくは複数)に関して分析された関連性情報を平均化して、またはそうでない場合、使用することによって)他の方式で分析して、またはそうでない場合、このような新しい文書を組み込むことができる。
ブロック560または585の後で、このルーチンは、ブロック595に続き、終了するための明示的な表示を受信するまでなど、継続するかどうかを判定する。継続することを判定した場合、このルーチンはブロック505に戻り、およびそうでない場合、ブロック599に続き、および終了する。図5の様々なブロックは、様々な実施形態において、(例えば、複数のコンピューティングシステム上で分散された方式で)連続または並行して、異なる文書を分析することによって、を含めて、様々な方式で実行することができることを理解されよう。
図6は、用語間関連性判定マネージャルーチン600の一実施形態例のフロー図である。領域の文書に関する文書用語分析情報を使用して、その領域に関して考えられる用語間テーマを含めて、用語間の関係を判定するなど、例えば、図1Aの用語間関連性判定マネージャモジュール130および/または図3のDSRDシステム340のモジュールの実行によって、このルーチンを提供することができる。例えば、図4のブロック430の実行によって、または代わりに、他の方式でルーチン600を開始することができる。加えて、このルーチンの図示される実施形態は、領域に関する関連用語間関係情報の初めの判定、ならびに、予め判定された用語間関係情報の更新を記述して、後続のフィードバックおよび/またはその領域に関して考えられるテーマに関する他の情報を反映する。さらに、他のルーチンの方式に類似した方式で、ルーチン600は、判定された関連性情報の使用に先立って、ならびに、このような情報に関する要求に応答して動的に、領域に関する関連性情報を判定することができる。
加えて、図示される実施形態では、図6における領域に関する用語間関係の関連性情報の判定を、図7における領域に関する文書関連の関連性情報の判定とは別に実行しているとして図示するが、他の実施形態では、このようなタイプの関連性情報の判定を、他の方式で実行することができる。例えば、特定の実施形態では、用語間関係の関連性情報および文書関連の関連性情報のうちの1つだけを判定することができ、領域に関する用語間の関係関連の関連性情報および文書関連の関連性情報の両方の判定を、単一のルーチンの一環として共に実行することができ、両方のタイプの判定に共通の情報を一度実行して、および次いで、2つの別個のルーチン間で共有することができる。
このルーチンの図示される実施形態は、(例えば、図5のルーチン500の出力として、動的な判定要求の一部として供給された情報としてなど)領域の文書に関する文書用語分析情報を受信するか、または別の要求を受信するブロック605から始まる。このルーチンは、ブロック610に続き、文書用語分析情報を受信したかどうかを判定して、および受信した場合、ブロック615に続く。図示される実施形態では、ブロック615〜650を実行して、関心がある領域の1つまたは複数の用語のそれぞれのグループに関するテーマ関連情報を判定する。例えば、それらの文書のうちのいずれかの中に存在するそれぞれの用語を使用すること(オプションで、共通の用語および/または他の表示された用語を除去すること)によって、分析されることになる用語を選択することができる。あるいは、分析されることになる用語のグループは、例えば、その領域の文書内に存在する、2つの用語または別の指示された数量の用語のそれぞれの組合せ、(例えば、指定されたしきい値を超え)互いに十分潜在的に関係すると判定される2つの用語または別の表示された数量の用語のそれぞれの組合せなどを含むことができる。加えて、ブロック615〜650を繰り返して実行して、複数の用語の相互関連性に関する情報を評価して、および訂正して、最初に、それぞれの用語に関して個々にブロック615〜650を実行して、次に、(例えば、それらの用語に関するブロック615〜650の実行から個々に利用可能な情報に基づいて)2つの用語の少なくともある組合せに関する判定を実行して、次に、(例えば、2つの用語の予め選択された組合せに十分関係する、特定の用語に関してブロック615〜650の実行から利用可能な情報に基づいて)3つの用語の少なくともある組合せに関する判定を実行するなどできる。あるいは、ある実施形態では、代わりに、考慮されることになる、1つもしくは複数の用語のいくつかのグループまたはすべてのグループに関して、ブロック615〜650のうちの一部またはすべてを(例えば、複数のコンピューティングシステムで分散された方式で)並行して実行することができる。
特に、図示される実施形態では、このルーチンは、ブロック615において、第1のこのようなグループから始めて、考慮されることになる1つまたは複数の用語の次のグループを選択して、およびブロック620において、その第1の文書から始めて、考慮されることになる領域の次の文書を同様に選択する。ブロック625において、このルーチンは、次いで、選択された文書に関して、それぞれの選択された用語に関して正規化されたTF−IDF得点を平均化すること、またはそうでない場合、当該TF−IDF得点を集約することに基づいてなど、選択された文書に対する選択された用語(1つまたは複数)の正規化された平均的な関連性を判定する。ブロック635において、このルーチンは、次いで、分析されることになるさらなる文書が存在するかどうかを判定して、存在する場合、ブロック620に戻る。そうでない場合、このルーチンは、ブロック640に続き、ブロック625において判定された関連性得点に基づいて、現在選択された用語(1つまたは複数)に関して最も関連する文書を判定する。次に、ブロック645において、このルーチンは、判定された最も関連する文書のうちの1つもしくは複数を識別して、およびそれらの識別された文書を使用して、識別された文書(1つもしくは複数)内のそれらの他の用語の用語頻度、または識別された文書(1つもしくは複数)に対するそれらの他の用語の関連性の指示に基づいてなど、選択された用語(1つもしくは複数)に潜在的に最も関連する他の用語を判定する。
加えて、ある実施形態では、選択された用語(1つもしくは複数)に最も関連すると判定される他の用語を、テーマとして考えられる使用のために、および/またはそれらの用語のその組み合わされたグループに関して、ブロック615〜650について考えられる、後の分析のために、選択された用語(1つもしくは複数)のうちの1つもしくは複数と組み合わせ、それらの用語の組み合わされたグループに関係し得る追加の他の用語をオプションで発見するなどできる。現在選択されている用語に対する追加の他の用語の考えられる関係のこのような進行中の分析を、選択された用語のグループを、最も関連する他の用語のそれぞれと個々に組み合わせることによって、最も関連する他の用語のすべてと組み合わせることによって、最も関連する他の用語のいくつかのサブコンビネーションまたはすべてのサブコンビネーションと組み合わせることによってなど、様々な方式で実行することができる。あるいは、他の実施形態では、他の方式で、最も関連する他の用語のうちの一部もしくはすべてを、選択された用語のうちの一部もしくはすべてと組み合わせ、考えられるテーマを識別することができ、および/または、複数のユーザがその用語を共に使用することからの、後のフィードバックを使用して、用語のどのグループがその領域に関するテーマとして共に関係するかを精緻化することができる。
ブロック645の後で、このルーチンは、ブロック650に続き、考慮すべき1つまたは複数の用語のさらなるグループが存在するかどうかを判定して、および存在する場合、ブロック615に戻る。そうでない場合、このルーチンは、ブロック660に続き、図示される実施形態では、ニューラルネットワークを生成して、ブロック625、640、および645に関して生成された情報に一部基づいてなど、その領域内の他の用語に対するその領域内の用語の関連性を反映す。ブロック680に関して議論されるように、このような生成されたニューラルネットワークを、フィードバックに基づいて後で更新して、並行して、入力用語および/または出力用語のうちの一部もしくはすべてに関してなど、その領域に関する特定の用語の相互関連性の判定を精緻化することもできる。ブロック660の後で、このルーチンは、ブロック670に続き、判定された関連するテーマ関連情報および生成されたニューラルネットワークを格納して、および適切な場合、(例えば、その情報を動的に生成する要求に対する応答として)判定された情報のうちの一部またはすべてを出力としてオプションで提供する。
代わりに、ブロック610において、文書用語分析情報を、受信していないことを判定した場合、このルーチンは、代わりに、ブロック675に続き、予め判定されて、および提供された関連性情報の使用に基づいてなど、フィードバック情報を受信したかどうか、またはフィードバック情報が判定可能かどうかを判定する。フィードバック情報が受信された場合、またはフィードバック情報が判定可能である場合、このルーチンは、ブロック680に続き、そのフィードバック情報を使用して、他のところでより詳細に議論されるように、そのフィードバックに対応する、予め生成されたニューラルネットワークを更新する。ブロック680の実行は、更新されたニューラルネットワーク情報をさらに格納して、およびその更新された情報を、そのルーチンの出力として、リクエスタにオプションで提供する。そうではなく、ブロック675において、フィードバック情報を受信していないことを判定した場合、このルーチンは、代わりに、ブロック685に続き、1つまたは複数の他の指示された動作を適切に実行する。例えば、このような他の指示された動作は、領域に関して予め判定されたテーマ関連情報(例えば、ニューラルネットワークが更新された後でなど、その領域に関する、特定の予め生成されたニューラルネットワークの現在のバージョンからのテーマ関連情報)を供給する要求を受信すること、その領域に関して判定されたテーマ関連情報を精緻化する際に、後で使用するために、ユーザフィードバック情報(例えば、テーマを表すために共に選択された用語の特定のグループ)を受信すること、ユーザ、もしくは他のエンティティ、または他の人間のオペレータからの要求を受信して、(例えば、その領域に関して利用可能なユーザフィードバックおよび/または追加の領域特有のコンテンツに基づいて)予め判定されたテーマ関連情報に対する更新を実行すること、DSRDサービスの人間のオペレータから他の管理要求を受信することなどを含むことができる。後で使用するために受信されるフィードバック情報を、様々な方式で扱うことができる。例えば、(例えば、取得された最小量のフィードバックまたは最大量のフィードバック、対応する関連性情報の先の判定以来の最小時間量または最大時間量などに基づいて)1つまたは複数の予め定義された基準を、フィードバックによって満たす場合、ブロック685の実行は、そのフィードバック情報を、ブロック680において使用のために供給する、ルーチン600の後続の実行を始動することができる。
ブロック670、680、または685の後で、このルーチンは、ブロック695に続き、終了するための明示的な表示を受信するまでなど、継続するかどうかを判定する。継続することを判定した場合、このルーチンはブロック605に戻り、およびそうでない場合、ブロック699に続き、および終了する。
図7は、関連文書判定マネージャルーチン700の一実施形態例のフロー図である。このルーチンを、例えば、図1Aの関連文書判定マネージャモジュール120および/または図3のDSRDシステム340のモジュールの実行によって提供して、領域の文書に関する文書用語分析情報を使用して、その領域に関する用語と文書との間の関係を判定するなどできる。例えば、図4のブロック440の実行によって、または代わりに、他の方式でルーチン700を開始することができる。加えて、このルーチンの図示される実施形態は、領域に関する関連文書関連情報の初めの判定、ならびに、予め判定された文書関連の関連性情報を更新することを記述して、後続のフィードバックおよび/またはその領域に関する文書についての他の情報を反映する。さらに、他のルーチンの方式に類似した方式で、ルーチン700は、その判定された関連性情報の使用に先立って、ならびに、このような情報に関する要求に応答して動的に、領域に関する文書関連の関連性情報を判定することができる。
このルーチンの図示される実施形態は、(例えば、図5のルーチン500の出力として、動的な判定要求の一部として供給される情報としてなど)領域の文書に関する文書用語分析情報を受信するか、別の要求を受信するブロック705から始まる。このルーチンは、ブロック710に続き、文書用語分析情報を受信したかどうかを判定して、および受信した場合、ブロック715に続く。図示される実施形態では、ブロック715〜745を実行して、図6のブロック615〜650に類似した方式でなど、関心がある領域の1つまたは複数の用語のそれぞれのグループに関して文書関連情報を判定する。分析されることになる用語を、例えば、それらの文書のうちのいずれかの中に存在するそれぞれの用語を使用すること(オプションで、共通の用語および/または他の表示された用語を除去すること)によって、または、図6に関してより詳細に記述されるように、他の方式で選択することができる。
特に、図示される実施形態では、このルーチンは、ブロック715において、第1のこのようなグループから始めて、考慮されることになる1つまたは複数の用語の次のグループを選択して、およびブロック720において、その第1の文書から始めて、考慮されることになる領域の次の文書を同様に選択する。ブロック725において、このルーチンは、次いで、選択された文書に関する、それぞれの選択された用語に関して正規化されたTF−IDF得点を平均化すること、またはそうでない場合、当該TF−IDF得点を集約することに基づいてなど、選択された文書に対する選択された用語(1つもしくは複数)の正規化された平均的な関連性を判定する。ブロック735において、このルーチンは、次いで、分析されることになる、さらなる文書が存在するかどうかを判定して、および存在する場合、ブロック720に戻る。存在しない場合、このルーチンは、ブロック740に続き、ブロック725において判定される関連得点に基づいて、現在選択されている用語(1つまたは複数)に関して最も関連する文書を判定する。次に、ブロック745において、このルーチンは、考慮すべき1つまたは複数の用語のさらなるグループが存在するかどうかを判定して、および存在する場合、ブロック715に戻る。図6に関して議論された方式と類似した方式で、ブロック715〜745を繰り返して実行して、複数の用語および複数の文書の関連性に関する情報を評価して、および訂正して、最初に、それぞれの用語に関して個々にブロック715〜745を実行して、次に、(例えば、それらの用語に関するブロック715〜745の実行から利用可能な情報に個々に基づいて)2つの用語の少なくともある組合せに関する判定を実行して、次に、(例えば、2つの用語の予め選択された組合せに十分関係する、特定の用語に関するブロック715〜745の実行から利用可能な情報に基づいて)3つの用語の少なくともある組合せに関する判定を実行するなどできる。あるいは、ある実施形態では、ブロック715〜745のうちの一部またはすべてを、代わりに、考慮されることになる1つもしくは複数の用語、および/または1つもしくは複数の文書のうちのいくつかのグループまたはすべてのグループに関して、(例えば、複数のコンピューティングシステムで分散された方式で)並行して実行することができる。
そうでない場合、このルーチンは、ブロック750に続き、図示される実施形態において、ニューラルネットワークを生成して、ブロック725および740に関して生成された情報に少なくとも一部基づいてなど、その領域内の文書に対するその領域内の用語の関連性を反映する。ブロック780に関して議論されたように、このような生成されたニューラルネットワークを、フィードバックに基づいて、後で更新して、並行して、用語および/または文書のうちの一部もしくはすべてに関してなど、その領域の特定の文書に対するその領域に関する特定の用語の関連性の判定を精緻化することもできる。ブロック750の後で、このルーチンは、ブロック755に続き、判定された関連文書関連情報、および生成されたニューラルネットワークを格納して、ならびに適切な場合、(例えば、その情報を動的に生成する要求に対する応答として)その判定された情報のうちの一部またはすべてを出力としてオプションで提供する。
そうではなく、ブロック710において、文書用語分析情報を受信していないことを判定した場合、このルーチンは、代わりに、ブロック775に続き、予め判定されて、および提供された関連性情報の使用に基づいてなど、フィードバック情報を受信したかどうか、またはフィードバック情報が判定可能であるかどうかを判定する。フィードバックを受信したか、または判定可能である場合、このルーチンは、ブロック780に続き、他でより詳細に議論されるように、そのフィードバック情報を使用して、そのフィードバックに対応する、予め生成されたニューラルネットワークを更新する。ブロック780の実行は、更新されたニューラルネットワーク情報をさらに格納して、およびその更新された情報を、そのルーチンの出力として、リクエスタにオプションで提供する。
そうではなく、ブロック775において、フィードバック情報を受信していないことを判定した場合、このルーチンは、代わりに、ブロック785に続き、1つまたは複数の他の表示された動作を適切に実行する。例えば、このような他の指示された動作は、領域に関して予め判定された文書関連情報(例えば、ニューラルネットワークが更新された後でなど、その領域に関する、特定の予め生成されたニューラルネットワークの現在のバージョンからの文書関連情報)を供給する要求を受信すること、その領域に関して判定された文書関連情報を精緻化する際に、後で使用するために、ユーザフィードバック情報(例えば、指定されたテーマまたは用語の他のグループに対応する使用に関する特定の文書)を受信すること、ユーザ、もしくは他のエンティティ、または他の人間のオペレータからの要求を受信して、(例えば、その領域に関して利用可能なユーザフィードバックおよび/または追加の領域特有のコンテンツに基づいて)予め判定された文書関連情報に対する更新を実行すること、DSRDサービスの人間のオペレータから他の管理要求を受信することなどを含むことができる。後で使用するために受信されるフィードバック情報を、様々な方式で扱うことができる。例えば、(例えば、取得された最小量のフィードバックまたは最大量のフィードバック、対応する関連性情報のこれまでの判定以来の最小時間量または最大時間量などに基づいて)1つもしくは複数の予め定義された基準を、フィードバックによって満たした場合、ブロック785の実行は、そのフィードバック情報をブロック780において使用するために供給する、ルーチン700の後続の実行を始動することができる。
ブロック755、780、または785の後で、このルーチンは、ブロック795に続き、終了するための明示的な表示を受信するまでなど、継続するかどうかを判定する。継続することを判定した場合、このルーチンはブロック705に戻り、およびそうでない場合、ブロック799に続き、および終了する。
図8A〜8Bは、用語関係勧告生成マネージャルーチン800の一実施形態例のフロー図を図示する。このルーチンを、例えば、図1Aの用語関係勧告生成マネージャモジュール125および/または図3のDSRDシステム340のモジュールの実行によって、提供して、1つもしくは複数の領域に関する用語間の関係の確率表示を生成して、および/または、用語間関係情報の生成された確率表示を使用して、ユーザ特有の勧告もしくは他の情報をユーザに提供するなどできる。例えば、図4のブロック445および/もしくは464の実行によって、または他の方式で、ルーチン800を開始することができる。
図示される実施形態では、ルーチン800は、(例えば、領域の文書に関する文書用語分析情報に基づいてなど、図1Aのモジュール130によって、および図6に関して記述されたように)別のモジュールによって生成された用語間関係情報に基づいて、ベイジアンネットワーク確率表示データ構造、および、オプションで、対応する決定木を生成するが、他の実施形態では、用語間関係データの他のタイプの表示(例えば、非確率表示)を使用することができ、および/または領域文書の分析に基づく以外の方式で用語間関係情報を判定することができる。加えて、図示される実施形態では、ルーチン800は、用語間関係情報の確率表示の生成と、その生成された用語間関係情報の確率表示の後続の使用の両方を実行して、ユーザ特有の勧告をユーザに提供するが、他の実施形態では、このようなタイプの機能性を、(両方がDSRDサービスの一実施形態によって実行されようと、1つまたは両方が別のサービスによって実行されようと)別個のルーチンに分離することができる。このルーチンの図示される実施形態は、領域に関する用語間関係情報の確率表示の初めの生成を記述するが、このような予め生成された情報を更新することを明示的に議論せず、後続のフィードバックおよび/またはその領域に関する用語間関係に関する他の情報を反映する一方、このルーチンの他の実施形態は、このような更新を実行することができる、または代わりに、任意のこのような更新は、代わりに、ルーチンによって使用される、基礎となる用語間関係情報に関して発生する場合があり、およびこのルーチンは、領域に関する新しい用語間関係情報の確率表示を生成して、その更新された、基礎となる情報を反映することができる。さらに、他のルーチンの方式に類似した方式で、ルーチン800は、その生成された情報の使用に先立って、ならびに、このような情報に関する要求に応答して動的に、領域に関する用語間関係情報の確率表示を生成することができる。
加えて、図示される実施形態では、図8の領域に関する用語間関係情報の確率表示の生成を、図6の領域に関して、基礎となる用語間関係の関連性情報の判定とは別に実行されているとして図示するが、他の実施形態では、他の方式でこれらの活動を実行することができる。例えば、ある特定の実施形態では、基礎となる用語間関係の関連性情報および用語間関係情報の確率表示のうちの1つだけを生成すること、またはそうでない場合、それを判定することができ、領域に関して基礎となる用語間関係関連情報と用語間関係情報の確率表示の両方の判定を、単一のルーチンの一部として共に実行することができ、両方のタイプの活動に共通する情報を一度実行して、および次いで、2つの個別のルーチン間で共有することができる。
このルーチンの図示される実施形態は、指示を受信して、または別の要求を受信して、1つまたは複数の関心領域に関する用語間関係の確率表示を生成するブロック805から始まる。ある実施形態では、このルーチンは、(例えば、ブロック430によって生成された入力としてデータを受信するために、このルーチンを図4のブロック445の一部として実行するとき)基礎となる判定された用語間関連性情報に関する情報、関連用語に基づいて、ユーザ特有の勧告を判定する際に使用するための特定のユーザの特定の用語関連選好に関する情報などを含む入力を受信することができる。このルーチンは、ブロック810に続き、(例えば、明示的な要求に基づいて、基礎となる判定された用語間関連性情報の受信に基づいてなど)用語間関係の確率表示を生成するべきかどうかを判定して、および生成するべきである場合、ブロック815に続く。図示される実施形態では、ブロック815〜835を実行して、後で使用する目的で用語間関係の確率表示データを生成して、およびブロック850〜870を実行して、用語間関係の予め生成された確率表示を使用して、ユーザ特有の勧告を判定して、ユーザに提供する。
特に、ブロック815に関して、このルーチンは、ブロック805において受信された情報に基づいて、ルーチン600によって生成された、格納された情報を取り出すことによって、および/またはルーチン600と動的に相互に作用して、このような情報を取得することによってなど、1つまたは複数の関心領域に関する用語間関係に関して、基礎となる判定された関連性情報を取得する。このルーチンは、ブロック820に続き、基礎となる関連性情報を分析して、(例えば、第2の用語が、第1の用語に因果的に(causally)依存しているか、またはそうでない場合、第1の用語に依存している状態で)1つもしくは複数の他の第2の用語に影響を与える、1つまたは複数の第1の用語をそれぞれが含む、有効な用語間関係を判定する。このルーチンは、次いで、ブロック820に続き、選択された用語を、領域(1つもしくは複数)内のその用語に関する選好または関心に対応する確率変数ノードを用いて表して、および依存または他の影響を、それらのノード間の有向リンクまたはエッジを用いて表す、1つもしくは複数の有向グラフ(例えば、DAG、または有向非循環グラフ)を生成する。このルーチンは、次いで、ブロック825に続き、確率情報を判定して、1つまたは複数の他のノードに依存する、それらのノードに関する条件付きの確率表と、オプションで、他のノードに依存しない、それらのノードに関する不確実性を表すための事前確率値とを含む、生成された有向グラフ(1つまたは複数)に関して使用する。他のところでより詳細に議論されるように、有向グラフ(1つまたは複数)内のモデルに対する用語間関係の判定、およびそれらのグラフノードに関する確率情報の判定を、様々な実施形態において、領域文書の分析から判定された関連性情報に少なくとも一部基づくこと、および/またはユーザフィードバックに基づいて行われている学習もしくは他の変更に基づくことを含めて、様々な方式で実行することができる。さらに、相互依存しない複数の有向グラフを作成する場合、ある実施形態では、これらの複数のグラフを、(例えば、追加の関連性がより少ない用語間関係を形成することによって)組み合わせて、単一のより大きな有向グラフになる一方、他の実施形態では、これらの複数の有向グラフを、代わりに、使用して、領域(1つまたは複数)を表すことになる。
ブロック825の後で、このルーチンは、ブロック830に続き、有向グラフ(1つまたは複数)および判定された確率情報から、領域(1つまたは複数)に関する関連用語間関係の1つまたは複数のベイジアンネットワーク確率表示を生成する。少なくともある実施形態では、この生成されたベイジアンネットワークは、何万または何百万のノード、および対応する数のノード間エッジを有して、特定の関心領域を表すことができることを理解されよう。さらに、少なくともある実施形態では、このルーチンは、ブロック830において、それぞれが、それらの生成されたベイジアンネットワークのサブセットを表す、1つもしくは複数の(例えば、何百もしくは何千、または何十万の)決定木を生成して、ベイジアンネットワーク全体を使用するよりも、より迅速な方式で実行可能な、後のランタイム処理を可能にするなどする。他のところでより詳細に議論されるように、生成されたベイジアンネットワーク(1つまたは複数)および決定木(1つまたは複数)を、様々な実施形態において、様々な方式で実行することができる。例えば、ある実施形態では、(例えば、ブロック877〜888に関して議論されたように)ユーザの用語選好および1つまたは複数の関心対象用語に関する情報を識別した後で、用語選好および対象用語(1つもしくは複数)に関係する(もしあれば)ベイジアンネットワークの一部に対応する、部分的なベイジアンネットワークおよび/または1つもしくは複数の部分的な決定木(1つもしくは複数)のインスタンスを作成して、確定ノード、または用語選好に関する他の確定情報、および対象用語(1つもしくは複数)に関するユーザ特有の用語関連性情報をさらに含めるなどできる。ブロック830の後で、このルーチンは、ブロック835に続き、後で使用するために、生成された情報を格納して、および(例えば、この情報の生成を、特定の生成された情報に関する要求に応答して実行した場合)その生成された情報のうちの一部またはすべても出力としてオプションで提供する。
代わりに、ブロック810において、用語間関係の確率表示を、生成していないことを判定した場合、このルーチンは、代わりにブロック845に続き、(例えば、明示的な要求に基づいて、ユーザに関して指定された用語関連選好の受信に基づいてなど)ユーザ特有の勧告を、判定および提供するべきであるかどうかを判定して、ならびに判定および提供するべきである場合、ブロック850に続く。ブロック850において、このルーチンを、ブロック805で受信され、ユーザに関して格納された選好情報から取り出され、(直接的に、であれ、または中間サービスを経由して、であれ)ユーザと動的に相互に作用することによって判定される、などする場合がある、1つもしくは複数の指示された領域から1つもしくは複数の特定の用語に関する対象ユーザの選好または他の関心に関する情報を取得する。ブロック855において、このルーチンは、ブロック830および835に関して、予め生成されおよび格納された決定木のうちの1つもしくは複数、または代わりに、ブロック830および835に関して、予め生成され、および格納されたベイジアンネットワーク全体など、ユーザの領域(1つもしくは複数)および指示された選好に対応する、格納された確率表示情報を取り出す。他の実施形態では、このルーチンは、代わりに、ブロック815〜835のうちのいくつかまたはすべての実行を動的に開始して、所望される用語間関係の確率情報を取得することができる。
ブロック855の後で、このルーチンは、ブロック860に続き、確定として使用される、対象ユーザの既知の関心について利用可能な情報に基づいて、対象ユーザの関心がある確率が十分ありそうな1つまたは複数の追加のユーザ特有の対象用語を識別および選択する。他のところで議論されたように、このような対象用語を、以下など、様々な方式で識別することができる。すなわち、要求内で指示された1つまたは複数の関心対象用語の確率を判定して、およびそれらのうちのいくつかまたはすべてを選択すること、生成されたベイジアンネットワーク内で形成された、いくつかの用語またはすべての用語(例えば、既知の確定関心用語から直接的にもしくは間接的に独立しない他の用語)への対象ユーザの関心確率を判定すること、および最高の判定された確率を有する用語のサブセットを選択すること、などである。
ブロック860の後で、このルーチンは、ブロック865に続き、選択された追加の対象用語(1つまたは複数)に少なくとも一部基づいて、対象ユーザに関する1つまたは複数の勧告を判定して、およびブロック870において、(例えば、直接的に、1つまたは複数の中間サービスを経由してなど)判定された勧告(1つまたは複数)の指示をその対象ユーザに提供する。例えば、これらの生成された勧告は、ある実施形態では、1つまたは複数の領域文書を含むことができ、および当該領域文書を含む場合、このルーチンは、ブロック860において、様々な候補文書に関する情報(例えば、選択された対象用語に対する様々な候補文書の関連性に関する情報)をさらに取り出して、および選択された対象用語(1つもしくは複数)に対して(または、選択された対象用語(1つもしくは複数)と対象ユーザの既知の関心確定用語の組合せに対して)最も大きな関連性を有する情報に基づいて、勧告されることになる特定の候補文書を判定することができる。ある実施形態では、これらの勧告を、他の方式で生成することができ、および/または他の形を有することもできる。例えば、候補文書のうちの一部もしくはすべてを、要求の一部として供給することができ、および/または(例えば、対象ユーザの関心に関して、および/または任意のユーザの関心に関して、何の情報も利用可能でない第2の領域(1つもしくは複数)内の勧告を可能にするためになど、対象ユーザの既知の関心確定用語が、1つもしくは複数の第1の関心領域に対応することが既知であり、1つもしくは複数の他の第2の領域に関する、既知の関心確定用語に関すると判定される追加の対象用語を識別する場合)候補文書のうちの一部もしくはすべては、対象ユーザの既知の関心確定用語が対応することが既知である領域以外の領域に関係する場合もある。加えて、少なくともある実施形態では、選択された追加の対象用語(1つもしくは複数)を判定して、提供された勧告のうちの一部またはすべてとして使用して、対象ユーザにとって実際に関心があるものである、もしくはそうでない場合、対象ユーザの現在の活動に関連しているとして、それらの用語の考えられる選択または他の識別のために対象ユーザに提供することなどできる。後で使用するために、対象ユーザの関心がある可能性があるとして、または実際に関心があるとして、選択された追加の対象用語(1つもしくは複数)を格納するために、対象ユーザが勧告を要求していない場合ですら、対象ユーザに対して、判定された勧告(1つもしくは複数)を積極的に推奨するために、追加の対象用語(1つもしくは複数)に基づいて、対象ユーザにとって関心がある可能性があり得る広告または他の第3者情報を識別するためになど、選択された追加の対象用語(1つもしくは複数)および/または対象ユーザに関して判定された勧告(1つもしくは複数)を対象ユーザに提供すること、および/またはそれらを使用して、勧告を生成することの代わりであれ、それらに加えてであれ、他の実施形態では、それらを、他の方式でさらに使用することができる。
代わりに、ブロック845において、ユーザ特有の勧告を判定および提供しないことを判定した場合、このルーチンは、代わりに、ブロック875に続き、(例えば、明示的な要求に基づいて、ユーザおよび/または関心対象用語(1つもしくは複数)に関して指定された用語関連選好の受信に基づいてなど)ユーザ特有の方式で特定のユーザに関して1つもしくは複数の指示された対象用語の関連性を判定すべきかどうかを判定して、および判定すべきである場合、ブロック877に続く。DSRDサービスと相互作用して、特定のユーザが、自身に対して第3者サービスが関連するコンテンツを有する、1つもしくは複数の特定の対象用語に関心を持つ可能性があるかどうかを判定する第3者サービスから、特定のユーザが、1つもしくは複数の対象用語に関係する広告に関心を持つ可能性があるかどうかを判定するために、DSRDサービスまたは他のサービスによってなど、このような要求を、様々な方式で開始することができる。ブロック877において、このルーチンは、自身に対して特定のユーザの考えられる選好または他の関心を判定することになる、1つもしくは複数の関心対象用語に関する情報を取得して、およびブロック879において、1つもしくは複数の領域に関する、1つもしくは複数の特定の用語に関する特定のユーザの選好または他の関心に関する情報を取得する。ブロック877内および/または879において、様々な実施形態で、ブロック805において受信されることによって、特定の識別されたユーザに関して格納された選好情報から取り出されることによって、(直接的に、であれ、中間サーバを経由して、であれ)特定の識別されたユーザと動的に相互作用することによって判定されることによってなど、様々な方式で情報を取得することができる。さらに、ある実施形態および状況では、特定のユーザを識別することができる一方、他の実施形態では、受信された要求は、(例えば、リクエスタが代わりにその識別されていないユーザに関する選好情報を供給する場合など、そのリクエスタによって既知であるが、要求内で識別されない特定のユーザに関して、選好情報が利用可能であり、および匿名のユーザの考えられる選好を示す、そのリクエスタに関する情報、または匿名のユーザの考えられる選好に関係する他の文脈的情報をオプションで有する匿名のユーザに関して、仮定に基づいた用語選好を有する仮定に基づいたユーザに関して、など)特定のユーザを識別せずに、特定のユーザの用語選好を指示することができる。加えて、ある実施形態では、対象用語(1つまたは複数)の関連性が判定されるユーザは、単一の人物を指す一方、他の実施形態では、ユーザは、(例えば、事業または機関など、人間でないエンティティ、クラブ、または少なくともある共通の選好、もしくはそうでない場合、集約された選好を有する人々の他の集合など、複数の人の集まりまたはグループなど)他の形を有する場合もある。ブロック881において、このルーチンは、次いで、ブロック830および835に関して予め生成されて、および格納された決定木のうちの1つもしくは複数、または代わりに、ブロック830および835に関して予め生成されて、および格納された単一のまたは複数のベイジアンネットワーク全体など、関連領域(1つもしくは複数)に対応する、格納された確率表示情報を取り出す。他の実施形態では、このルーチンは、代わりに、ブロック815〜835のうちの一部またはすべての実行を動的に開始して、所望される用語間関係の確率情報を取得することができる。
ブロック881の後で、このルーチンは、ブロック883に続き、取り出された確率表示情報が、用語選好のうちの1つまたは複数を、対象用語(1つまたは複数)に関連させるベイジアンネットワークの1つまたは複数の経路など、ユーザの用語選好と対象用語(1つまたは複数)との間の関係を示すかどうかを判定する。ブロック885において、取り出された確率表示情報がこのような関係を示さないことを判定した場合、このルーチンは、ブロック889に続き、関連性情報の欠如の指示をリクエスタに提供して、ユーザの現在の用語選好を考慮して対象用語(1つまたは複数)に関する、特定のユーザの考えられる選好を判定する。そうでない場合、このルーチンは、ブロック886に続き、用語選好から対象用語(1つまたは複数)までの、1つもしくは複数の経路、および/または用語選好と対象用語(1つまたは複数)との間の影響に対応する、1つもしくは複数の決定木を含むベイジアンネットワークのサブグラフなど、ユーザの用語選好と対象用語(1つまたは複数)との間の関係に対応する確率表示情報のサブセットをオプションで生成、または選択する。他の実施形態では、特定のユーザに特定の任意の新しいデータ構造を生成せずに、既存のベイジアンネットワークおよび/または決定木を使用することができる。
ブロック886の後で、このルーチンは、ブロック887に続き、オプションで生成された確率表示情報サブセットまたは他の予め生成された確率表示情報に基づいて、それぞれの対象用語に関して個々におよび/または複数の対象用語の組合せに関してなど、特定のユーザが対象用語(1つもしくは複数)に関する選好または他の関心を有する確率または他の可能性を判定する。ブロック888において、このルーチンは、次いで、対象用語(1つまたは複数)に関して判定された可能性の表示をリクエスタに提供する。
そうではなく、ブロック875において、特定のユーザに関する1つまたは複数の表示された対象用語のユーザ特有の関連性を判定および提供しないことを判定した場合、このルーチンは、代わりに、ブロック890に続き、1つまたは複数の他の指示された動作を適切に実行する。例えば、ある実施形態では、このルーチンは、予め生成された確率表示情報に関係する更新(例えば、基礎となる用語間関連性情報に対する更新、ユーザフィードバックまたは用語間関連性に関する他の学習からの更新など)を受信することができ、およびそれらの更新を受信する場合、予め生成された確率表示情報をオプションで変更して、それらの更新を反映して、および/または新しい確率表示情報の生成を開始して、それらの更新を反映することができる。加えて、ある実施形態では、このルーチンは、予め生成された確率表示情報を供給する要求を受信して、およびこれに応答して、(例えば、領域文書および他のコンテンツ項目が変更し得る実施形態、判定された用語間関連性情報がユーザフィードバックに基づいて変更し得る実施形態などにおいて)基礎となる用語間関連性情報が現在利用可能であるかどうかに基づいて、新しい確率表示情報の生成を周期的に開始して、様々な周期的なハウスキーピング動作を実行することなどできる。
ブロック835、870、または890の後で、このルーチンは、ブロック895に続き、終了のための明示的な表示を受信するまでなど、継続するかどうかを判定する。継続することを判定した場合、このルーチンはブロック805に戻り、およびそうでない場合、ブロック899に続き、終了する。
ある実施形態では、より多くのルーチン間で分割される、またはより少ないルーチンに統合されるなど、上記で議論されたルーチンによって提供される機能性を、代替的な方法で提供することができることを理解されよう。同様に、ある実施形態では、図示されるルーチンは、他の図示されるルーチンが、代わりに、それぞれ、このような機能性に欠けるとき、もしくはこのような機能性を含むとき、または提供される機能性の量が変更されたときなど、記述されたよりも、より多い機能性またはより少ない機能性を提供することができる。加えて、様々な動作は、特定の方式(例えば、連続して、もしくは並行して)で、および/または特定の順序で実行されているとして図示される場合があるが、当業者は、他の実施形態では、他の順序で、他の方式でこれらの動作を実行することができることを理解されよう。当業者は、単一のデータ構造を複数のデータ構造に分割させることによって、または複数のデータ構造を単一のデータ構造に統合させることによってなど、上記で議論されたデータ構造を異なる方式で構成することができることも理解されよう。同様に、ある実施形態では、図示されるデータ構造は、他の図示されたデータ構造が、代わりに、それぞれ、このような情報に欠けるとき、もしくはこのような情報を含むときなど、または、格納された情報の量もしくはタイプが変更されたときなど、記述されたよりも、より多い情報もしくはより少ない情報を格納することができる。
前述の説明から、図示のために、特定の実施形態を本明細書において記述しているが、本発明の趣旨および範囲から逸脱せずに、様々な変更を行うことができることを理解されよう。したがって、本発明は、指定される特許請求の範囲、および本明細書で列挙される要素による以外で、限定されない。加えて、本発明の一部の態様を、時には、一定の請求項の形で提示する場合があるが、本発明者は、本発明の様々な態様を任意の利用可能な請求項の形で企図する。例えば、ある時に、コンピュータ可読媒体の形で実施されているとして、本発明の一部の態様だけを列挙する場合があるが、他の態様も、同様に、そのように実施することができる。