JP2008542951A

JP2008542951A - 関連性ネットワーク

Info

Publication number: JP2008542951A
Application number: JP2008515798A
Authority: JP
Inventors: カシアン・フランクス; コーネリア・エー・マイヤーズ; ラフ・エム・ポドウスキ
Original assignee: University of California
Current assignee: University of California
Priority date: 2005-06-06
Filing date: 2006-06-05
Publication date: 2008-11-27
Also published as: US7987191B2; US20120054206A1; WO2006133050A2; US9026543B2; CA2610088A1; KR20080031262A; AU2006255181A1; CN101223525A; RU2007149528A; US20080162514A1; CN101223525B; WO2006133050A3; EP1891558A2

Abstract

関連性ネットワークを生成するためのコンピュータ実装されるシステムおよび処理方法が開示される。システムは、関係付けされるデータ項目の集合を与え、各データ項目内のターム間の関連性を表わす可変長データベクトルを生成する。システムは、文書、画像、または他の任意の種類のファイルについて関連性ネットワークを生成するために使用することができる。そして、この関連性ネットワークは、データ項目の集合内のターム間の関係を発見するために照会することができる。

Description

本発明は、ベクトルに基づく情報記憶および検索システムに関する。より詳しくは、本発明は、情報の関連性ネットワークを構築および視覚化するためにコンテキスト（context）ベクトルを記憶、生成、検索するためのシステムに関する。

＜関連する出願への相互参照＞
本願は、２００５年６月６日に出願された米国仮特許出願第６０／６８８，２４２号明細書の利益を主張し、その全体を引用してここに組み込む。

＜連邦政府後援の研究開発に関する表明＞
本発明は、契約番号DE-AC02-05CH11231のもとで米国エネルギー省によって支援された業務の間に行われた。政府は本発明において一定の権利を有する。

語句（phrase）に基づく探索またはキーワード探索は、電子データについて使用される一般的な探索方法である。キーワード探索は、探索クエリー内の単語の実例（instance）について情報データベースにわたって探索する。しかし、キーワード探索は、関連性に基づく結果を与えず、探索クエリーの結果は、多くの場合、探索クエリー内の単語の実例以外の互いに関連性のない項目を含む。例えば、技術会社Appleによる製品の探索を意図するユーザは、探索クエリー“Apple”を入力する。しかし、探索結果は、果物のapple（りんご）、音楽レーベルAppleによる曲、等に関する項目を含むことがあり得る。従って、語句に基づく探索の探索クエリーの結果は、多くの場合、ユーザの探索の意図と関係がない。

探索の意図に関連する探索クエリーの結果を提供するために、キーワード探索の代わりに、あるオブジェクトを他のオブジェクトに関連付ける探索方法が、多くの場合、使用される。そのような関連性に基づく探索方法は、幅広く多様であり、正確なものから全般的なあらゆるものを含むアプローチまで多岐にわたる。テキストオブジェクトに関する方法は、正確さおよびアプローチ、質および量において幅広く多様であり得る。例えば、発明の名称を“System and Method of Context Vector Generation and Retrieval”とするCaid他による米国特許第５，６１９，７０９号明細書は、より向上した自動結合アプローチとは反対に、コンテキストベクトル生成および旧式のニューラルネットワークアプローチに依存する。Weissman他による米国特許第６，８１６，８５７号明細書は、意味に基づく広告をウェブサイトに配置する目的のために関連性を決定する、または、現在使用している探索エンジンにおける文書の関連性を評価する、距離計算方法を使用する。

しかし、これらの関連性に基づく探索は、オブジェクトを互いに関連付けるために関連する情報を分析することにおいて人が用いる過程をシミュレートしない。探索者は、興味のあるオブジェクトを用いて開始し、典型的に、あるコンテキスト内で探索し、文献の読み取りおよび分析の処理の間に収集された情報の間の関連性を形成する。興味のあるコンテキストは、この柔軟な処理の間に、発見された情報に応じて、または、探索者の処理を通して、変化し、洗練され、新たな方向をとり得る。探索者は、探索処理を完了した後、特定の主題のまたは興味のあるコンテキストに関する情報の価値のある収集物とともに終了する。例えば、興味のある探索者のオブジェクトが音楽の時期であり、コンテキストがバロック様式であるならば、探索者は作品を互いに関連付け、作品を作曲家に関連付け、作品を地理的な場所または時期に関連付けることが可能である。一般的な関連性に基づく探索は、柔軟でなく、対話的でないので、この過程をシミュレートしない。それらは、ユーザが探索の間にコンテキストおよび個々の関連性を定義および制御することを可能とせず、関連性の質および量についてユーザによって対話的に決定され、視覚化されることを可能としない。

ここでのある実施形態は、関連性ネットワークとともに使用するための情報データベースから生成されるベクトルの分析、設計、実現のためのシステムおよびコンピュータ実装される方法を提供する。また、ある実施形態は、関連性ネットワークとともに使用するための関連性に基づくネットワーク生成エンジンを提供する。

一実施形態において、電子データベース内のオブジェクト間の関連性を決定するシステムが提供される。まず、未処理のテキスト文書またはデータのようなオブジェクトが取得される。そして、関連のないデータがフィルタリングで除去され、オブジェクト間の距離を計算することによってオブジェクトが処理される。距離の計量は、例えば、指数関数型減衰計算とすることが可能である。そして、距離スコアは、オブジェクト間の関連性についての関連性スコア値を生成するために使用される。関連性スコア値を使用するベクトルが生成および記憶される。ある実施形態において、可変長ベクトルは、作業中のオブジェクトに関する指定されたフレーム内のオブジェクト間の距離を表わすデータを記憶することが可能である。ベクトル内の各オブジェクトはそれ自身のベクトルを有し得るので、ベクトルは関連性ネットワークを構築するために使用することが可能である。さらに、関連性ネットワーク内のオブジェクト間の接続の構成を、ユーザによる探索、視覚化、または他の解読のために利用することができる。ある実施形態において、一意のオブジェクトは強調表示することが可能であり、他の実施形態において、共通のオブジェクトは強調表示することが可能である。

もう１つの実施形態において、関連性を発見するためのネットワーク生成エンジンが提供される。２つまたはより多くのベクトルの間で発見された共通部分を有する属性について処理を行うとき、ネットワーク生成エンジンは、テキスト、単語、またはオブジェクトの間の明白な、一意の、隠れた関連性を識別することが可能である。

一実施形態において、ネットワーク生成エンジンは、ベクトルの集合を含む関連性データベースについて実現することが可能である。入力クエリーオブジェクトは、クエリーオブジェクトについて関連性データベースから全ての直接の関連性および関連付けされる関連性を抽出するための指針として使用される。エンジンは、これらの関連性にスコアを与え、ランク付けし、共通部分を有するオブジェクトの類似度スコアを計量し、他のオブジェクトへのクエリーオブジェクトの関連性、および、類似度スコアを使用したそれらの関連性の強さを表わすもう１つの関連性ネットワークを構築することが可能である。クエリーオブジェクトの結果の関連性ネットワークは、さらなる解読のために必要ならば視覚化することができる。関連性ネットワークが構築されるとき、送信されたオブジェクトが特定のコンテキスト内にとどまることを保証するために、フィルタ形式での主題のコンテキストは、結果のネットワーク内で抽出される関連性の種類を制御するために使用することができる。

本発明の一実施形態は、集合における異なる項目間の関連性を生成および識別するコンピュータの方法およびシステムである。一実施形態において、データ集合内のデータ項目間で多対多の関連性が生成される。一例として、データ項目は遺伝子とすることが可能であり、データ集合はGENBANK遺伝子データベースとすることが可能である。以下でより詳細に説明するように、システムの実施形態は、データ集合内のデータ項目を分析し、その後、データ集合内のデータ項目間の関連性を反映するクエリーオブジェクトベクトルのような可変長データベクトルを生成する。そして、データベクトルは記憶され、データ項目間の関連性を分析するデータマイニングツールの一部として使用されることができる。例えば、胃癌に関するGenbank内の全ての遺伝子について探索することが可能である。

本発明の一実施形態において、まず、２つのデータ項目間の直接の相関関係を分析し、そして、データ項目間のさらなる隠れた関連性を探すことによって、データ項目間の関連性を示すデータベクトルが生成される。一実施形態において、これらの隠れた関連性は、データ集合内の各タームが他のタームから有する距離を繰り返し分析することによって決定される。したがって、例えば、２つの単語がデータ集合内で互いに関連付けされることがより多くの回数発見されるほど、ターム間の関連性がより密接に形成される。ある実施形態において、各データ項目を通して“フレーム”を移動することによってタームが分析される。例えば、データ項目が文書であるならば、フレームは３行に及ぶが一度に１行ずつ文書を通して移動することが可能である。フレームが文書の各行を移動するに従って、フレーム内のターム間の距離が分析される。この分析の間に、フレーム内の各ターム間の関連性を記憶するデータベクトルが生成される。一実施形態において、全体のデータ集合内の各タームは１つのベクトルによって表現される。そのベクトルは、そのタームとそれが関連するタームとの間の距離および関連性を与える。

本発明のもう１つの実施形態は、探索照会の有効な結果を提供するために記憶されたデータベクトルを使用するシステムおよび方法である。人または装置が探索の一部としてタームを入力すると、そのタームについてのデータベクトルが位置決めされ、探索タームに最も関連するタームがデータベクトルから識別される。そして、システムは、探索を展開するために、最も関連するタームについてデータベクトルを検索する。そして、最も関連するタームに関連付けされるタームを識別することができ、処理は、元の探索タームと、それに関連するタームの全てとの間で関連性ネットワークを構築するために継続することができる。クエリーが実行され、最も関連するタームを含むベクトルがスコアを与えられると、関連性ネットワークが構築される。そして、送信されたタームの結果のネットワークがさらなる解読のための視覚化のために作成されることが可能である。一実施形態において、各々の探索タームがその結果にどのように関連付けされるかを表わすリンクの網とともにタームがコンピュータ画面に表示される。関連性ネットワークが構築されるとき、送信されたタームが特定のコンテキスト内にとどまることを保証するために、フィルタ形式での主題のコンテキストは、結果のネットワーク内で抽出される関連性の種類を制御するために使用することができる。

ここで開示されるシステムおよび方法は、ユーザが対話的に情報マイニング、隠れた関連性および接続の抽出、オブジェクトの関連性ネットワークの構築および比較を可能とし、抽出された関連性の種類を精緻なものにするために対話的に主題のコンテキストの制御に適用することを可能とする。システムおよび方法は、情報データベース内のオブジェクトが互いにどのように関連付けされるか、どのコンテキストにおいてそれらが関連付けされるか、それらの関連性の強さについての情報をユーザに提供する。

ここで説明するある実施形態は、実験の過程の間に研究者が行うのと同様に、ユーザについての対話的なロールを組み合わせ、自動化されたテキストマイニング方法の繰り返しの処理にそれを適用することによって、方向を選択する能力をユーザに与え、探索される情報における興味のあるオブジェクト間に接続が作られるように関連性を定義する。オブジェクト、主題、および他のコンテキストの間の関連性を対話的に定義および抽出することは、テキスト内の関連性の調査および発見のために有益なレベルの正確さを提供する。

例えば、ユーザがインターネットのような電子情報データベース内のバロック作品（Baroque compositions）について探索するならば、ユーザは関連性ネットワークシステムにターム“Baroque”を送信することが可能である。また、ユーザは、バロック芸術に関する結果を避けるために、“compositions”のようなフィルタタームを使用することによって、バロック音楽の方向に探索を方向付けるように選択することが可能である。そして、システムは、ターム“Baroque”と強く関連付けされる作品についての情報だけでなく、作曲者名“Bach”（バッハ）および“Handel”（ヘンデル）のような、“Baroque”に関するタームと強く関連付けされる作品、“viola da gamba”（ビオラダガンバ）または“harpsichord”（ハープシコード）のようなバロック音楽と関連付けされる楽器を含む作品、または“Classical”のような関連する芸術の時期、等についての情報を与える。

一実施形態において、ここで開示される関連性ネットワークシステムは、タームの一義化のために使用することが可能であり、これは、全く同じであるが、識別子または記号または実際の単語として重複する頭字語のような、コンテキストに依存して異なる意味を有する２つの文字列を識別する能力を与える。例えば、単語“cleave”は互いに反対の２つの定義を有する。

図１は、電子情報データベースを使用して関連性ネットワークを生成するための処理１００を表わす。ある実施形態において、限定しないが、電子情報データベースは、文字の集合または他の形式のテキスト、画像、音声、映像、または電子的に分析可能な他の任意のデータを含むことが可能である。従って、情報データベース内のオブジェクトまたはターム（term）は、文書、文字、単語、画像、音楽、または映像とすることが可能である。

表わされた実施形態において、システムは、まず、状態１０１において、処理する電子情報データベースを選択する。一例において、データベースは音楽作品のデータベースである。そして、状態１０２において、システムはデータベース内のタームについてベクトルを生成する。データベース内の作品間の異なる強さの関連性を捕捉するために、ある方法でベクトルが生成される。ベクトルが生成されると、状態１０３において、システムは、ユーザからクエリー（query）“Ｑ”を受信する。クエリーは、例えば、ユーザがクエリーＱにリストされた作品に類似の作品を見つけたいときに実行される。ある実施形態において、システムは、クエリーに応答したデータ処理の労力を減少させるために、クエリーを受信する前にベクトルを生成することが可能である。他の実施形態において、クエリーを受信した後にベクトルを生成することが可能である。ある実施形態においてベクトルはターム間の関連性を記憶するために使用されるが、他の実施形態において他のデータ構造を使用することが可能である。ベクトルを使用するある実施形態において、ベクトル空間表現方式は可変長のクエリーオブジェクトベクトルを使用する。可変長ベクトルは、ターム間の関連性に基づいて決定される複数の構成要素の値または成分を有することが可能である。さらに、可変長ベクトルは、各ベクトル内の関連付けされるタームの数に基づいてサイジングすることが可能である。

ある実施形態において、関連付けされるタームは、互いに直接または間接のいずれかの関連性を有するタームである。ある実施形態において、１つのタームは“第１”タームであり、第２タームは“コアターム”である。ある実施形態において、直接の関連性は、関連付けされるタームとベクトル内で同一のフレーム内にコアタームが発見される場合である。ある実施形態において、間接の関連性は、コアタームおよび関連付けされるタームそれぞれが、それぞれのベクトル内に共通のタームを共有する場合である。また、ターム間の他の関連性は、ここで説明するある実施形態とともに使用するために生成することが可能である。

図１に戻り、状態１０３におけるユーザからのタームＱについてのクエリーに応答して、状態１０４において、システムはタームＱについての可変長ベクトルに基づいてＱについて関連性ネットワークを生成する。ある実施形態において、関連性ネットワークは関連性ベクトルのネットワークからなり、関連性ベクトルの互いへの接続およびそれらの接続の強さは、定義されたコンテキストおよび主題の中で共有された一意の属性に基づく。コンテキストおよび主題は、以下でより詳細に説明される。状態１０４において関連性ネットワークが生成されると、状態１０５において、システムはＱと関連付けされるタームを返すことが可能である。例えば、返されるタームは、Ｑと同一の作曲者による作品、Ｑに関する作品、またはＱに基づく推奨を指すことが可能である。

＜１．関連性ネットワークについてベクトルを生成する＞
図２は、データベース内に記憶されたデータから可変長ベクトルを生成する処理１０２の一実施形態についてのフローチャートである。処理１０２は、状態２０１において、データベース内の各々の文書を取得する。状態２０２において、取得された各々の文書について、ストップワード（a, of, as, the, on等のようなありふれた単語）のような、問題とされない、または価値の低いデータを除去するために文書が解析される。状態２０２において、各々の文書が解析された後、情報データベースは価値のあるタームのみを含む。

そして、状態２０３において、各々の解析された文書について、システムは文書内にフレームを挿入する。フレームは、文書内の１行またはより多くの行のテキストに及ぶかぶせ物と考えることができる。例えば、フレームは、文書内の３行または３文に及ぶことが可能である。状態２０３においてフレームが挿入されると、処理１０２は状態２０４に移り、ここで、フレーム内で処理される第１行内で第１タームが選択される。図４は、図３Ａおよび３Ｂに表わされたサンプルのデータとともに使用するためのフレーム４００の一実施形態を表わす。状態２０４においてフレームの処理中の文内で第１タームが選択された後、状態２０５において、第１ターム（“コアターム”）とフレーム内の他のターム（“関連付けされるターム”）との間の関連性データの集合が生成される。システムは、コアタームについての関連性データを記録し、これは、各々のコアタームについて計算された第１タームからの距離スコアのようなデータを含む。ある実施形態において、図５に表わされているように、関連性データは関連性記憶モジュールに記憶することが可能である。第１タームについて関連性データが生成されると、処理１０２は判定状態２０６に移り、ここで、フレームの処理中の文における最終タームが分析されているか否か判定が行われる。現在のタームが最終タームでないならば、処理１０２は状態２０７に移り、ここで、フレーム内の次のタームが捕捉される。そして、処理１０２は、状態２０５において新たに捕捉されたタームとフレーム内の他のコアタームとの間の関連性データを計算するために状態２０５に戻る。処理されるタームがフレームの処理中の文内の最終タームならば、処理１０２は状態２０８に移り、ここで、フレームは、分析される文書内で１文または１行だけ前に移る。タームがフレームについての処理中の文内の最終タームでないならば、処理１０２は状態２０５に戻る。

状態１０２がもう１行または１文だけ前にフレームを進めると、判定状態２０９において、フレームが文書の最後に位置しているか否か判定が行われる。処理１０２が文書の最後に位置していないという判定を行うならば、処理１０２は状態２０４に戻り、ここで、移動したフレームの処理中の文内の第１タームが選択される。フレームが文書の最後に位置しているという判定が行われるならば、処理１０２は判定状態２１０に移り、ここで、処理がデータベース内の最後の文書に位置しているか否か判定が行われる。処理１０２がデータベース内の最終文書に位置していないならば、処理１０２は状態２１１に移り、ここで、データベース内の次の文書が選択される。そして、処理１０２は状態２０３に戻り、ここで、新たに取得された文書内にフレームが挿入される。

判定状態２１０において、処理１０２が最後の文書に位置しているという判定が行われるならば、処理は状態２１２に移り、ここで、データベース内の第１タームについて、関連性記憶モジュール等から、記録された関連性データを検索する。そして、処理は状態２１３に移り、ここで、状態２１２からの関連性データを使用して可変長のクエリーオブジェクトベクトルが生成される。ある実施形態において、クエリーオブジェクトベクトル内に記憶することが可能な状態２１２からの関連性データ値は、クエリーオブジェクトベクトル内に記憶されるとき増大させることが可能である。関連性データ値を増大させる例は、一意の関連性のデータ値を増加させ、共通の関連性についてのデータ値を減少させることを含む。図６Ｂは、図６Ａの関連性記憶モジュールについてのサンプルのクエリーオブジェクトベクトルを表わす。次に、処理は判定状態２１４に移り、分析されるタームがデータベース内の最終タームであるかどうか判定するために検査する。分析される最終タームでないならば、処理は状態２１５に移り、ここで、データベース内の次のタームが選択される。そして、処理１０２は状態２１３に戻り、次のタームについてのクエリーオブジェクトベクトルが生成される。判定状態２１４において処理１０２が最終タームに位置しているという判定が行われると、終了状態２１６において処理が終了する。

図３Ａは、テキスト文書を含む情報データベースからのサンプルの文書３００を表わす。図３Ｂは、図３Ａの文書からそれが解析された後に記憶されたデータ３１０を表わす。図３Ａと３Ｂとの間の差異から分かるように、この実施形態において、システムは“they”３０１、“from”３０２、“until”３０３、“they’re”３０４のようなストップワードを除去し、および、見出された文書の識別情報３１１およびそのターム３１２に従って各々の文を構成する。

図４に表わされているように、コンテキストまたはフレーム４００の一実施形態は、関連付けされる周辺のタームからなり、最終的に、フレーム内で分析される現在のコアターム“red”４１２と関連付けされる。一実施形態において、フレーム４００およびそれが取り囲む領域は、文書内で距離閾値を使用することによって構成される。例えば、図４において、距離閾値は、分析されるコアターム４１０を含む文の１文前および１文後である。タームが距離閾値内であるならば、関連付けされるタームと考えられ、コンテキストフレーム４００の部分となる。一方、タームが距離閾値の外にあるならば、コンテキストフレーム４００の部分とはならず、コアタームへの距離スコア（関連性スコアとも呼ぶ）を受信しない。文、段落、文字、または他のオブジェクトの数とともに、文書内の単語数を使用して、距離閾値を計算することができ、フレーム化されたコンテキスト４００の大きさは文書が読み込まれるに従って増大および変動し、新たな統計データが収集される。一実施形態において、分析されるデジタルコンテンツは未処理のテキスト文書であり、フレーム４００はフレーム毎に３、４、または５個の文に設定される。図４における例は３文のコンテキストフレーム４００を有する。

システムは、文書、または、情報データベースを含む他の解析されるデータを通してフレーム４００を移動することが可能である。フレームは文書の集合を通して１行ずつ移動するので、作業中の文書を表わす識別情報３１１を含め、タームは自動的に互いに関連付けすることができる。タームは文書を通して移動するフレームの内部および外部に流れるので、関連付けされるタームは距離スコアによるコアタームへの関連の強さを定義することができる。例えば、図４において、システムがコアターム“red”について距離スコアを計算すると、フレームのフォーカスは次のターム“pink”に移動し、フォーカスはフレームの中央の行内の最終ターム“raspberry”に到達するまで移動する。システムはターム“raspberry”と関連付けされるタームについて距離スコアを計算した後、フレームは１行進み、コアタームのフォーカスは次の行の第１ターム“Hummingbirds”とともに始まる。さらに、ターム“bloom”で始まる文はフレームの外部に流れ、ターム“one”で始まる文がフレーム内に流れる。

各々の関連付けされるタームに距離スコアを与えることによって、文書内の各々のコアターム４１０は、その関連性記憶モジュールの要素として、関連性スコアが与えられた一群の関連付けされるタームを含む統計的に重要なオブジェクトとなる。そして、２つのターム間の距離スコアは、処理が全体の情報データベースの分析を完了した後、２つのターム間の関連性スコアを生成するために使用することが可能である。例えば、一実施形態において、２つのターム間の距離スコアは、それらは情報データベースを通してフレーム内に繰り返し現れるので、関連性スコアを生成するために合計することが可能である。

単一の文書内のフレーム４００の使用は、関連性スコアが数千または数百万の文書にわたって生成されるとき、特に効果的となる。ここでのある実施形態において単語間の重要な関連性は、２つまたはより多くのターム間の強い、かつ一意の接続によって時間にわたって定義される。タームへの関連性スコアは、人が繰り返しによって学習する方法に匹敵し得る。人は、２つのタームを一緒に繰り返して聞くならば、それらを記憶し、関連付ける傾向があるが、人が２つのタームを一緒に聞くことがあまり多くないならば、それらを記憶も、関連付けもしない。ここで説明するある実施形態において、システムは、多くの場合に一緒に現れる２つまたはより多くのタームに高い関連性スコアを与える。ある他の実施形態において、非常に独特な属性の集合を共有する２つまたはより多くのタームは高いスコアが与えられる。

上述したように、システムは、コアタームについて生成される関連性記憶モジュールと呼ばれるファイルにおいて、コアターム４１０とその関連付けされるタームとの間の関連性にスコアを与えることが可能である。一実施形態において、関連性記憶モジュールは、文書の統計値とともに、統計的な、かつ距離に基づくオブジェクトの関連性に関する情報を記憶するデータベーススキーマである。従って、関連性記憶モジュールは、探索されるデータにおいて意味の感度を効果的に捕捉することが可能であり、それは、全てのタームの組の密接度が認識され、距離についてスコアを与えられ、記憶されることを要求する。従って、関連性記憶モジュールは、単語、段落、探索クエリー、オブジェクト、文書、文書識別情報、画像の部分、タームの部分、テキストの部分、系列の部分または部分、ターム、文書に分割されたオブジェクトの任意の部分、数値データ、財務データ、科学データのような同様に表現される他の多くの種類の情報項目のような情報を効果的に記憶することが可能である。一実施形態において、関連性記憶モジュールおよびベクトルにおける全ての関連付けされるタームは、それ自身の関連性記憶モジュールおよびベクトルのコアタームでもあり、それによって、高次元の多対多のスコアが与えられた関連付けされる関連性ネットワークを可能とする。ある実施形態において、これは、強い類似度が、例えば、タームの部分の間、ターム間、タームとそれらが現れる文書との間に発生することを可能とする。

ある実施形態において、ベクトルまたはモジュールの長さはデータベースの大きさおよびシステムの性能に影響し得るので、関連性ネットワークのより高速な生成を容易にするために、または、記憶装置の制限のために、関連性記憶モジュールおよびベクトルの長さを制限することが可能である。他の実施形態において、関連性記憶モジュールまたはベクトルは、サポート可能なだけ多くの要素を含むことが可能である。ある実施形態において、システムは、照会される情報データベースを最もよく表現し、ユーザによる参照を容易にするために、高いスコアを有するある数のターム、または、ある閾値を超えるスコアを有するタームを提示することが可能である。

図５は、フレーム４００内で分析される現在のタームがコアターム“red”４１０である状態において、図４からのターム“red”についてのサンプルの関連性記憶モジュール５００を表わす。表わされている関連性記憶モジュール５００は、３つのセクション、タームに関する統計値５１０、タームを含む文書に関する統計値５２０、関連付けされるタームに関する統計値５３０を有する。表示されている実施形態において、第１セクションである、タームに関する統計値５１０は、分析されるテキスト内のタームの発生数、タームを含む文の数５１２、コアタームと関連付けされる他のタームの数５１３、コアタームと他のタームと間の関連付けの数５１４のような情報を含むことが可能である。表示されている関連性記憶モジュール５００は、データベース（図３Ａ）内で分析される第１文書内のターム“red”４１０の分析によるデータを含むのみであるので、図５におけるデータは未完成の分析を表わす。従って、ターム“red”４１０はそれまで１回のみ発生しているので、ただ１つの文４１２内で、ターム“red”４１０についての発生の数５１０および文の数５１１は両方とも１に等しい。同様に、それまで分析された全ての１８個のタームは、フレーム４００内の現在のタームの全てであるので、それらは全て、ターム“red”４１０と関連付けされる。さらに、これらの関連付けされるタームのいずれも２度と現れていないので、それらはターム“red”４１０についての全ての１８個の個々の関連付け５１４である。

文書統計値セクション５２０は、好ましくは、タームを含む文書５２１、タームを含む文書内の文の数５２２、タームに関する文書についてのスコア５２３を識別する。表わされている例において、ただ１つの文書５２４がリストされており、これは、ターム“red”を含むことが分析されたただ１つの文書であるためである。任意の他のよく知られた識別情報の方式は“ＵＲＬ（uniform resource locator）”アドレスのような文書識別情報を記録するために使用することが可能であるが、文書５２４はそのタイトルによって識別される。さらに、ターム“red”を含むただ１つの文５２５が文書内で発見された。従って、１であるスコア５２６がその文書に割り当てられた。表わされている実施形態において、文書に関連付けされるスコア５２６は文書内のタームの出現数であるが、他の実施形態において、スコアを与える他の方法を使用することが可能である。

関連付けされるタームのセクション５３０は、限定しないが、関連付けされるターム５３１、コアタームに関する各々の関連付けされるタームの出現数５３２、関連付けされるターム／コアタームの組についての対応する距離スコア５３３のようなデータを含む。他の実施形態において、関連付けされるタームのセクション５３０は、コアタームに関する関連付けされるターム、および、関連付けされるタームのコアタームへの距離を含む、それまで処理された文の数についてのデータも含むことが可能である。

ターム間の関連性を計量するための距離スコア５３３は、移動するフレーム内で適用される。例えば、図４は、コアターム“red”付近の３つの文のフレーム４００を表わす。フレーム４００およびそのコアタームのフォーカス４１０が文書を通して移動するに従って、コアターム４１０に関するフレーム４００内の各タームに距離スコアを割り当てるために計算が適用される。

距離スコア５３３は、任意のよく知られた方法によって計算することが可能である。さらに、コアタームのより近くに接近した関連付けされるタームに、より大きい値を与えるために、関連付けされるタームに割り当てられた距離スコア値５３３は、コアタームへの距離が増加するに従って効果的に減衰させることが可能である。これは、好ましくは、フィボナッチ数列を逆に使用して適用することが可能である。言い換えると、フィボナッチ数列を逆に使用する一実施形態において、コアタームから関連付けされるタームへの距離スコアは、
Ｓ_ｉｊ＝φ^Δｘ
ここで、Ｓ_ｉｊ＝コアタームｉと関連付けされるタームｊとの間の距離スコア、
φ＝０．６１８は黄金比の“ファイ”成分（φは黄金比φ＝１．６１８０３４の小数成分である）、
Δｘ＝｜ｘ_ｉ−ｘ_ｊ｜はコアタームｉと関連付けされるタームｊとの間の相対位置である。

図５に戻り、関連付けされるターム“cardinal”についてのターム“red”へのこの等式を使用する距離スコア５３６は、これらは隣接するタームであり（Δｘ＝１）、０．６１８＝０．６１８^１である。同様に、関連付けされるターム“bloom”についてのターム“red”への距離スコア５３７は、“bloom”は“red”から１０個のターム離れているので（Δｘ＝１０）、０．００８＝０．６１８^１０である。ある実施形態において、システムは、関連付けされるタームと１回目の出現から離れたコアタームとの間の２回目の出現に遭遇するので、システムは、関連性についての距離スコアの実行中の合計を保持するために、１回目の出現に２回目の出現の距離スコアを加えることが可能である。例えば、図５において、システムが“red”を含むフレーム内で再びターム“cardinal”５３４に遭遇し、かつ２回目の出現についての距離スコアが０．００８ならば、システムは、“red”の関連性記憶モジュール５００における“cardinal”についての距離スコア５３６を０．６２６＝０．６１８＋０．００８に更新することが可能である。他の実施形態において、システムが情報データベースを処理するときに、距離スコアの値を更新するために他の方法を使用することが可能である。

黄金比である、連続したフィボナッチ数の比に基づく系列が、生物学、材料科学を含む多くの自然現象において見出されるので、フィボナッチ数に基づく計算は効果的に使用することが可能である。従って、フィボナッチ数は、文法および人間が作成したパターンとの関連性を有し、情報の解読への効果を与え得る。

もう１つの実施形態において、拡張指数型重みつき移動平均（Enhanced Exponentially Weighted Moving Average（ＥＥＭＡ））、指数型重みつき移動平均（Exponentially Weighted Moving Average（ＥＷＭＡ））の時系列計算の変形は、フレーム内のターム間の距離スコアを計算するために使用することが可能である。ＥＥＭＡを使用するサンプルの等式は、次のように定義することが可能である。
ＥＥＭＡ＝１／（Ｋ＊（Ｃ−Ｐ）＋Ｐ）
ここで、Ｃ＝コアタームの位置、
Ｐ＝前の期間の単純移動平均（Simple Moving Average（ＳＭＡ））
Ｎ＝ＥＥＭＡについての期間の数
Ｋ＝ｅ^{（−Ｃ／５．０）} 平滑定数

さらにもう１つの実施形態において、標準の指数関数型減衰アルゴリズムを適用することができる。以下は、距離スコアを計算するために使用することができる指数関数型減衰についての２つの等式である。
コアタームｉが関連付けされるタームｊの前にくるならば、
Ｓ_ｉｊ＝１／ｅ（ｊ−ｉ）
コアタームｉが関連付けされるタームｊの後にくるならば、
Ｓ_ｉｊ＝１／ｅ（ｉ−ｊ）
ここで、Ｓ_ｉｊ＝オブジェクトｉとｊとの間の関連性スコアである。

図６Ａは、システムが図３Ａの文書を含む情報データベースの分析を完了した後の、ターム“red”についての関連性記憶モジュール６００を表わす。サンプルの関連性記憶モジュール６００において、システムは、分析された情報データベースが合計で１２個の文６１２内にターム“red”の１２個の出現６１１を含むと判定した。さらに、“red”と関連付けされる３１９個のターム、および、それらのタームと“red”との間の４５０個の関連性が存在する。文書“Gardening Journal”６２５は合計４つの“red”が出現する４つの文６２６を含み、文書“Top News Stories”６２８は１つの出現６３０を有する１つの文のみを含む。さらに、関連付けされるターム“cardinal”６３４はredと６個の関連性を有し、redの個々の距離スコアについて４．１２４の合計距離スコア６３６に等しく合計され、関連付けされるターム“paste”６３７は、０．００８の合計距離スコアについて“red”との１つの関連付けされる出現のみ有する。

システムが情報データベース内の各々の文書を処理した後、各々の関連性記憶モジュールはクエリーオブジェクトベクトルを生成するために使用することが可能である。図６Ｂは、図６Ａの関連性記憶モジュール６００から生成されたサンプルのクエリーオブジェクトベクトル６５０を表わす。表わされている実施形態において、関連性記憶モジュール６００からの距離スコア６３３は、以下でさらに詳細に説明されるように、共通の関連性を強調することによってクエリーオブジェクトベクトル６５０についての関連性スコア６５３を計算するために使用される。そして、システムは、それらの関連性スコア６５３に従ってクエリーオブジェクトベクトル６５０内の関連付けされるタームをランク付けする。例えば、図６Ｂにおいて、関連付けされるターム“Cardinal”６５４は、最も高い関連性スコアを有するので、1番目にランク付けされる。ターム“Paste”６５５は、最も低い関連性スコアを有するので、“red”と関連付けされるタームの合計数に等しい３１９にランク付けされる。従って、各々の関連性記憶モジュールは、クエリーオブジェクトベクトル２１３を生成するために使用される。

従って、図６Ｂは、ここで説明するシステムおよび方法の１つの効果を説明する。キーワードに基づく探索において、ユーザが彼女のクエリーにおいてターム“red”を使用した赤いセーター（red sweaters）を探すならば、彼女はターム“red”を有するセーターが具体的にリストされた結果のみ受け取る。一方、ユーザがここで説明するシステムの一実施形態に探索を送信したならば、ユーザは“赤（red）”のセーターについての結果だけでなく、緋色（cardinal）、栗色（maroon）、暗い赤紫色（raspberry）のような赤の他の色調を有するセーターについても結果を受け取る。

ある実施形態において、システムは、クエリーオブジェクトベクトルについての個々の関連性スコア値を生成するために、関連性記憶モジュールからのデータを効果的に使用することが可能である。例えば、一実施形態において、隠れた関連性の発見に役立つような、一意の関連性を強調する目的で距離スコアを修正することが可能である。隠れた関連性は、ユーザに知られていない可能な重要な新たな関連性のリストを提示することによって仮定的な定式化を助けるために使用することが可能である。一実施形態において、次の一意性関数は一意性を強調する関連性スコアを計算するために使用することが可能である。
Ｕ_ｉｊ＝Ｓ_ｉｊ・Ｂ_ｉｊ
ここで、Ｓ_ｉｊ＝タームｉとｊとの間の距離に基づく関連性スコア
Ｂ_ｉｊ＝タームｉについてのタームｊとの関連性のバイアス
ここで、Ｂ_ｉｊ＝Ａ_ｉ／Ａ_ｊ
Ａ_ｉ＝タームｉの関連性の合計数
Ａ_ｊ＝タームｊの関連性の合計数

もう１つの実施形態において、距離スコアは、直接の関連性に基づく明確な定義を生成するように共通の関連性を強調する目的で修正することが可能である。直接の関連性は、たいへん類似したオブジェクトのリストを生成するために使用することができる。一実施形態において、次の共通性関数は、共通に関連付けされるタームを強調する関連性スコアを計算するために使用することが可能である。
Ｂ_ｉｊ＝Ａ_ｊ／Ａ_ｉ
ここで、Ａ_ｉ＝タームｉの関連性の合計数
Ａ_ｊ＝タームｊの関連性の合計数

従って、図２の処理が完了するときまでに、各々の解析される文書内の各タームはそれ自身のクエリーオブジェクトベクトルを有し、すなわち、各タームは、クエリーオブジェクトベクトルについてのコアターム、および、他のタームのクエリーオブジェクトベクトルについての関連付けされるタームである。ある実施形態において、各々のクエリーオブジェクトベクトルは、一意または共通のいずれかの関連性を強調することが可能である。さらに、ある実施形態において、各々の文書は、それ自身の関連性記憶モジュールおよびクエリーオブジェクトベクトルを有する。そして、これらのベクトルは関連性ネットワークを構築するために使用することが可能である。

＜２．関連性ネットワークを構築する＞
図７は、上述した関連性ネットワークの実施形態とともに使用するためのネットワーク生成エンジンのための処理７００を表わす。特に、開示は、上述したように、テキスト文書を含む電子情報データベースから生成されたクエリーオブジェクトベクトルを使用して関連性ネットワークを生成するための一実施形態である。ユーザによって入力される探索クエリータームに応答して、探索クエリータームに基づいてクエリーオブジェクトベクトルからの関連性の抽出から関連性ネットワークを生成することが可能である。ある実施形態において、関連性ネットワークは、タームの拡張されたベクトルのネットワーク、それらの互いへの接続、それらの接続の強さからなり、接続は定義されたフレーム内の共有の属性に基づく。表わされたサンプルのフローチャートを説明するが、ある実施形態はテキスト文書およびタームを使用し、他の実施形態において、クエリータームは音声データ、映像データ、画像データ、または他の任意の種類の電子データとすることが可能である。

まず、状態７０１において、ユーザはシステムに少なくとも１つのクエリータームＱを送信する。ある実施形態において、複数のタームがシステムに送信されることが可能であり、１つのクエリータームまたは複数のクエリータームとして処理することが可能である。ある実施形態において、Ｑが情報データベースに存在しないならば、システムは何のデータも返さない。状態７０２において、クエリーの受信に応答して、システムは、クエリータームについてのベクトルであるクエリーオブジェクトベクトル（query object vector（ＱＯＶ））を検索する。そして、処理７００は状態７０３に移り、ここでユーザまたはシステムは、クエリーの結果に焦点を合わせるために、クエリーとともに使用するためのフィルタを設定する。このフィルタは、状態７０３において、例えば、探索タームＱについて検索されたベクトルからタームをフィルタリングすることによって、設定することが可能である。これは、図８Ａを参照して以下でより詳細に説明される。次に、状態７０４において、システムはベクトルを拡張されたＱＯＶに拡張する。この処理は、図８Ｂを参照して以下でより詳細に説明する。そして、処理７００は状態７０５に移り、ここでシステムは拡張された関連付けされるオブジェクトベクトル（associated object vector（ＡＯＶ））を生成するためにＱＯＶを使用する。これは、図８Ｃおよび８Ｄを参照して以下でより詳細に説明する。そして、システムは、拡張されたＡＯＶと拡張されたＱＯＶとの間で関連付けされるタームを見つけるために状態７０６に移る。そして、状態７０７において、クエリーＱについての探索結果が提供される。探索結果を提供する処理は、図８Ｅを参照して以下で説明する。最後に、処理７００は、クエリーの結果に基づいて関連性ネットワークの視覚的な表現を提供する。

一実施形態において、探索処理の間に抽出される関連性の種類を制御するために、および、関連性ネットワークが構築されるときにある定義されたコンテキスト内にタームがとどまることを保証するために、システムは関連する主題およびカテゴリのオントロジー（ontology）の形態のようなフィルタを使用する。ある実施形態において、フィルタについて選択されたタームは探索される情報データベースにも存在するのでフィルタを利用することが可能であり、従って、フィルタのタームはそれら自身のベクトルを有する。クエリーの結果に焦点を合わせるために、フィルタはクエリーとともに提供することが可能である。フィルタは、それによってクエリーの結果が制御される単語、記号、オブジェクトのリストとすることが可能である。例えば、フィルタの語句“genes and inferred relationships to drugs”は、遺伝子データに関する情報データベースにおいて行われるゲノム探索のために使用することが可能である。

ある実施形態において、フィルタは完全ベクトル（complete vector）とすることが可能であり、その要素は関連性抽出処理を制御する文書のデータベース内のフレームデータまたはコンテキストの全体の集合を表わす。ベクトルフィルタと共通部分を有することが発見された任意の探索結果は、使用されるフィルタの種類に従って処理される。

ここで開示されるシステムおよび方法とともに使用するために、多くの異なる種類のフィルタを挙げることが可能である。１つの種類のフィルタである排除フィルタは、そのフィルタと合致しないタームおよびベクトルを能動的に除去することができる。特定の主題からの要素が、任意の態様の処理についてクエリーオブジェクトベクトルおよび関連付けされるオブジェクトベクトルから除去されることを保証するために、排除フィルタを使用することが可能である。図８Ａは、タームＺ_１からＺ_ｎを含むサンプルの排除フィルタベクトル８１０を表わす。フィルタベクトルは、クエリーの結果に焦点を合わせるために、クエリーＱ８０１について検索されたクエリーオブジェクトベクトル８２０に適用される。図８Ａに表わされているように、システムは、好ましくは、フィルタベクトルに現れるタームの実例を除去する。タームＺ_１、Ｚ_２、Ｚ_３は、それらのタームが排除フィルタ８１０に現れるので、最後のクエリーオブジェクトベクトル８２５からフィルタリングされた。

一方、選択フィルタは、そのフィルタに合致するタームおよびベクトルを能動的に選択することが可能である。選択フィルタは、特定の主題からの要素のみが特定の処理のために使用されることを確実にするために使用することが可能である。一実施形態において、処理は、拡張されたクエリータームのベクトルおよび関連付けされるタームのベクトルの生成のために、最高のクエリータームのベクトルの要素および関連付けされるタームのベクトルの要素の選択を含む。また、フィルタの要素は、拡張されたクエリータームのベクトルにおいて使用される最終タームの選択が、拡張された関連付けされる比較および関連性スコア計算に影響を与える。

もう１つの種類のフィルタである重み付けフィルタは、タームまたはベクトルが再整理されるように、あるタームおよびベクトルの関連性スコアを調整することが可能である。重み付けフィルタはタームの特定のグループの重み付けを変更するために使用することが可能であり、それによって、アルゴリズムの処理および計算結果にそれらの影響を及ぼす。

フィルタは、好ましくは、任意の時点の間に適用することが可能であり、ここで、システムは、クエリーに応答して検索されるクエリーオブジェクトベクトルを拡張する。フィルタの使用は、結果として、関連性が、主題を含み得るタームの特定の集合に根拠を置くシステムの機能となる。システムは、主題のフィルタリングなしで、どのような関連性を探すべきか不明であるならば、有益であり得ない全ての種類の推測される関連性を検索することが可能である。例えば、フィルタなしで情報データベースに探索クエリーターム“red”をユーザが送信することは、たいへん幅広い結果を受信し得る。一方、ユーザが、“red”についてのコンテキストとしてフィルタの語句またはベクトル“flowers”のようなフィルタ内に発見されない全てのタームを排除する選択フィルタを利用するならば、赤色の植物群に関係する特定のタームはクエリー結果において最も発見され得る。ある実施形態において、ユーザが探索クエリーを好みに適合させるために、フィルタは予め定義され、互換性を有することが可能である。システムのユーザは特定のコンテキスト内にこのクエリータームとのどのような関係が存在するかを発見することを望み得るので、この種類のコンテキスト制御を用いてタームの関連性のネットワークを生成することは、以前に識別されていない接続が前面にもたらされることを可能とする。

図８Ｂは、図８ＡのフィルタリングされたＱＯＶ８２５を使用して拡張されたＱＯＶ８５０を生成する１つの典型的な方法を表わすデータフロー図である。まず、システムは、クエリータームＱ８０１に関する３０個の最も強いタームＡ_１からＡ_３０８２６を識別する。これらの３０個の最も強いタームは拡張されたＱＯＶ８５０の最初８２６に付加される。次に、システムは、拡張されたＱＯＶ８５０を完成するために、それらの３０個のタームＡ_１からＡ_３０８３０の各々についてベクトルを検索し、それらの３０個のベクトル８３１の各々について最高の３つの最も強いターム（すなわち、Ａ_１についてＡ_１，１からＡ_１，３、Ａ_２についてＡ_２，１からＡ_２，３、・・・、Ａ_１０についてＡ_１０，１からＡ_１０，３）を挿入する。表わされているシステムの実施形態は処理のための３０個のタームを選択したが、他の実施形態において、処理のために他の任意の数のタームを使用することが可能である。

図８Ｃおよび８Ｄは、図８ＡのフィルタリングされたＱＯＶ８２５を使用して拡張されたＡＯＶ８７５を生成する１つの方法を表わすデータフロー図である。まず、システムは、Ｑ８０１に関連する３０個の最も強いタームＡ_１からＡ_３０８２６を識別し、それらのベクトル８２７を検索し、各タームＡ_１からＡ_３０について拡張されたＡＯＶ８７５を始める。そして、システムは、Ａ_１からＡ_３０の各々に関連する第１次元ベクトルから３つの最も強いターム（すなわち、Ａ_１についてＡ_１，１からＡ_１，３、Ａ_２についてＡ_２，１からＡ_２，３、・・・、Ａ_３０についてＡ_３０，１からＡ_３０，３）８３０を識別し、それらの関連付けされるタームを対応する拡張されたＡＯＶ８７５、Ａ_１からＡ_３０に付加し、それらのベクトル８３１を検索する。同様に、システムは、各々のＡ_１，１からＡ_３０，３に関連する第２次元ベクトルから３個の最も強いターム（すなわち、Ａ_１，１についてＡ_{１，１，１}からＡ_{１，１，３}、Ａ_１，２についてＡ_{１，２，１}からＡ_{１，２，３}、・・・、Ａ_３０，３についてＡ_{３０，３，１}からＡ_{３０，３，３}）８４０を検索し、それらのベクトル８４１を検索する。再び、システムは、各々のＡ_{１，１，１}からＡ_{３０，３，３}に関連する第３次元ベクトルから３個の最も強いターム（すなわち、Ａ_{１，１，１}についてＡ_{１，１，１，１}からＡ_{１，１，１，３}、Ａ_{１，１，２}についてＡ_{１，１，２，１}からＡ_{１，１，２，３}、・・・、Ａ_{３０，３，３}についてＡ_{３０，３，３，１}からＡ_{３０，３，３，３}）８５０を検索する。そして、拡張されたＡＯＶ８７５を完成するために拡張された既にＡＯＶ８７５内に存在する第１次元ターム８３０の後に、第３次元ベクトル８５０から最高の３個の関連付けされるタームが挿入される。図８Ｃおよび８ＤはＡ_１についての拡張されたＡＯＶ８７５の生成を表わすが、表わされた実施形態において、処理は、各々のＡ_１からＡ_３０８２６について合計３０個の拡張されたＡＯＶを生成する。

図８Ｅは、クエリーＱ８０１についての探索結果を生成するために、ＡＯＶ８７５と拡張されたＱＯＶ８５０との間で関連付けされるタームを発見するために、拡張されたＱＯＶ８５０とともに拡張されたＡＯＶ８７５を使用する１つの典型的な方法を表わすデータフロー図である。拡張されたベクトル８５０および８７５は、拡張されたベクトル８５０および８７５における共通部分を有するターム間の類似度を判定する機能に渡される。一実施形態において、図８Ｅに表わされているように、クエリータームＱ８０１について関連付けされるターム８８０を位置決めするために、各々の拡張されたＡＯＶ８７５およびＱＯＶ８５０の共通部分を取得することが可能である。他の実施形態において、関連付けされるタームを位置決めするために他の機能を使用することが可能である。

ある実施形態において、Ｑについての関連付けされるタームが位置決めされた後、クエリータームＱと各々の関連付けされるタームとの間の類似度スコアを計算することが可能である。そして、関連付けされるタームは、最も高い類似度スコアを有する関連付けされるタームが１番目にランク付けされるように、それらの類似度スコア値によってランク付けすることが可能である。ある実施形態において、類似度スコア機能は補正係数の距離の計量とすることが可能であり、その値は、関連付けされるタームと初期のクエリータームとの間で最終的な類似度の計量を示すスコア、すなわち、結果が初期のクエリータームとどのくらい合致しているか、として結果の合致したタームに割り当てることができる。

一実施形態において、２つのベクトル間の類似度スコアは、共通部分を有するタームから関連性スコアを合計し、それに、共通部分を有するタームのみからなるベクトルの長さを乗算することによって計算することが可能である。もう１つの実施形態において、２つのベクトル間の類似度スコアは次の等式を使用する補正係数の距離計量関数とすることが可能である。

Ｖ＝クエリーベクトル
Ｗ＝クエリーベクトルと比較される任意のベクトル

もう１つの実施形態において、異なる大きさのベクトル間の類似度スコアを計算するために、中央揃えされていないピアソンの補正係数の距離の計量を使用することが可能である。

ある実施形態において、クエリー結果ターム８８０が位置決めされた後、そのクエリーについて返される各々の要素のベクトルは、また、抽出され、比較され、類似度についてスコアが与えられる。このステップは、好ましくは、その結果が、それらのベクトルの内容が共通部分を有することによってネットワークを形成することを可能とする。共通部分を有することによって生成されたネットワークは、初期のクエリー結果がどのように関係するか、どのコンテキストにおいてそれらが関係するか、それらの接続は直接かまたは間接か、およびそれらの関連性の強さを判定するために使用することが可能である。

従って、そのデータを使用して構築されるクエリー結果データおよび関連性ネットワークは、他のタームへのクエリーターム８０１の関連性、ベクトルのお互いとの関係、および類似度スコアを使用したそれらの関連性の強さを表わす。ある実施形態において、クエリー結果タームの結果の関連性ネットワーク８８０および／またはクエリーに関連するベクトルは、必要ならばさらなる解読のために視覚化することができる。例えば、図９は、ターム“red”についてのクエリーに応答して生成された関連性ネットワークについての（縮尺して描かれていない）グラフの視覚化９００を表わす。ターム“red”へのより高い関連性スコアを有するタームは、“cardinal”６５４のように、“red”により近くに現れている。より低い関連性スコアを有するタームは、“paste”６５５のように、より遠くに現れている。ユーザは、好ましくは、情報データベースにおけるターム間の関連性を迅速に理解するために、図９に類似の視覚化を使用することが可能である。

＜３．システム構成要素の例＞
図１０は、一実施形態による関連性ネットワークシステム１０００を表わす。関連性ネットワークシステム１０００は、エンドユーザのコンピューティングデバイス１０２０にホストウェブサイトのぺージを生成および提供するウェブサーバ１０１０を含む。デスクトップコンピュータ１０２０として示されているが、コンピューティングデバイス１０２０は、携帯電話およびＰＤＡ（Personal Digital Assistant）のような他の各種の装置を含むことが可能である。ウェブサーバ１０１０は、単一の物理的なサーバまたは物理的なサーバの集合として実現することが可能である。その代わりに、ある実施形態は、対話型テレビジョンシステム、オンラインサービスネットワーク、またはユーザが電話のキーパッド入力および／または音声を介して手に入れる品目を選択する電話に基づくシステムのような、他の種類の複数ユーザ対話型システムにおいて実現することが可能である。

ウェブサーバ１０１０は、ユーザに、データベースまたはデータベースの集合１０２０内に表わされた電子情報へのアクセスを提供する。ウェブサーバ上で、またはウェブサーバと結合して動作する情報取得プロセッサ１０１５は、ユーザに彼らが見つけたい情報について探索クエリーを入力するための機能を提供する。一実施形態において、データベース１０２０内に表わされる情報は、文書、文字、単語、画像、曲、映像、または電子的に記憶することが可能な任意の他のデータを含むことが可能である。数１０万、数１００万バイトの多くのデータをデータベースに記憶することが可能である。

一実施形態において、情報データベース１０２０内の文書または他のオブジェクトは、情報取得プロセッサ１０１５を使用して検索することが可能である。各々のオフジェクトは、例えば、情報取得プロセッサ１０１５を介して項目について探索を実行することによって、または、ツリーリストの閲覧からオブジェクトを選択することによって位置決めすることが可能である。

図１０に表わされているように、関連性ネットワークシステム１０００は、他のタスクの中で、情報データベース１０２０内の情報について関連性ベクトルを生成する役割を果たす関連性プロセッサ１０３０を含む。そして、これらの関連性ベクトルは、関連性データベース１０４０に記憶される。ある実施形態において、関連性プロセッサ１０３０は、情報データベース１０２０内に記憶することが可能な新たなデータに応答して関連性データベース１０４０を生成および維持管理するために、情報データベースの定期的および選択的な分析または“処理”を実行する。

情報取得プロセッサ１０１５によって受信されるクエリーに応答して、関連性ネットワークシステム１０００はネットワーク生成器１０５０にクエリーを送信し、ネットワーク生成器１０５０は、クエリーに加えて、クエリーに基づいて関連性ネットワークを生成するために、関連性データベース１０３０から関連性ベクトル情報を受信する。ある関連性ネットワークシステムの実施形態において、上述したように、ウェブ空間内に生成することが可能なかなりの大量の関連性に取り組むために、生成される関連性の数について設定限界を設けることができる。

そして、結果の関連性ネットワークはクエリー結果プロセッサ１０６０に送信され、クエリー結果プロセッサ１０６０は、結果を処理し、選択的に関連性ネットワークの視覚的な表現を生成し、このデータを情報取得プロセッサ１０１５に送信する。そして、結果のデータは、インターネットを介してクエリーを送信したコンピューティングデバイス１０２０に返すことが可能である。

＜４．例：音楽データベース＞
本発明の一実施形態は、音楽データベースに関する人間が生成したコンテンツの間の関連性を発見するように実現することが可能である。音楽に関する人間が生成したコンテンツのいくつかの例は、プレイリスト、ブログ、推奨リストである。システムは、インターネットのような大規模なデータ空間にわたるディレクトリまたはリポジトリ内のそれらの位置に基づいて音楽ファイルの間の関連性を決定することが可能である。この関連性データは、アーティスト、アルバム、曲のタイトル、リリース年のような情報を含むことが可能であり、関連性記憶モジュールに記憶され、そして、上述したようにクエリーオブジェクトベクトルに転送されることが可能である。そして、アーティストまたは曲についてのようなクエリーに応答して、システムは、クエリーにアーティストまたは曲に関する関連性ネットワークを生成および提示し、関連性ネットワークを選択的に視覚化することが可能である。

＜５．結論＞
上述した特徴の全ては、汎用のコンピュータによって実行されるソフトウェアモジュールによって実現し、自動化することが可能である。ソフトウェアモジュールは任意の種類のコンピュータ記憶装置または媒体に記憶することが可能である。ここで説明された様々な実施形態および特徴の全ての組み合わせは、本発明の範囲内に存在する。

様々な本発明の特徴およびサービスがある好ましい実施形態に関して説明されたが、ここに記載された効果および特徴の全てを提供するとは限らない実施形態、およびここに記載された課題の全てを解決するとは限らない実施形態を含む、この技術分野の当業者に明らかな他の実施形態もまた本発明の範囲内に存在する。例えば、上述したある例はユーザに探索クエリー結果を提供することを含むが、本発明は、スペルチェック、財務関連性ネットワーク、遺伝子解読、またはそれらの探索クエリー結果に基づくユーザへの広告の提供のような、他のシステムにおいて使用することが可能である。本発明の範囲は特許請求の範囲によってのみ定義される。

関連性ネットワークを生成するためのシステムの一実施形態についてのフローチャートである。テキスト文書を含む電子情報データベースに基づいて関連性ネットワークとともに使用するためのベクトルを生成するためのシステムの一実施形態についてのフローチャートである。テキスト文書を含む情報データベースからのサンプルの文書を表わす。解析された後の図３Ａの文書を表わす。図３Ａおよび図３Ｂのサンプルのデータとともに使用するためのフレームの一実施形態を表わす。フレームにおいて分析される現在のタームがコアターム“red”である状態において、図４からのターム“red”についてのサンプルの関連性記憶モジュールを表わす。システムが図３Ａの文書を含む情報データベースの分析を完了した後の、ターム“red”についての関連性記憶モジュールを表わす。図６Ａの関連性記憶モジュールについてのサンプルのクエリーオブジェクトベクトルを表わす。ネットワーク生成エンジンのためのサンプルのフローチャートを表わす。クエリーオブジェクトベクトルに適用されるサンプルの排除フィルタベクトルを表わす。図８Ａのフィルタリングされたクエリーオブジェクトベクトルを使用して拡張されたクエリーオブジェクトベクトルを生成する１つのサンプルの方法を表わす。図８Ａのフィルタリングされたクエリーオブジェクトベクトルを使用して拡張された関連付けされるオブジェクトベクトルを生成する１つのサンプルの方法を表わす。図８Ａのフィルタリングされたクエリーオブジェクトベクトルを使用して拡張された関連付けされるオブジェクトベクトルを生成する１つのサンプルの方法を表わす。クエリーについての探索結果を生成するために、関連付けされるオブジェクトベクトルと拡張されたクエリーオブジェクトベクトルとの間の関連付けされるタームを発見するために、拡張されたクエリーオブジェクトベクトルとともに拡張された関連付けされるオブジェクトベクトルを使用する１つのサンプルの方法を表わす。ターム“red”についてのクエリーに応答して生成された関連性ネットワークについてのグラフの視覚化を表わす。一実施形態による関連性ネットワークシステムを表わす。

符号の説明

１０００関連性ネットワークシステム
１０１０ウェブサーバ
１０１５情報取得プロセッサ
１０２０情報データベース
１０３０関連性プロセッサ
１０４０関連性データベース
１０５０ネットワーク生成器
１０６０クエリー結果プロセッサ

Claims

関連性ネットワークを生成するためのコンピュータ実装される方法であって、
（ａ）関連付けされるデータ項目の集合を提供する過程を有し、前記データ項目は複数のタームを含み、
（ｂ）処理される第１データ項目を選択するステップと、
（ｃ）前記第１データ項目にフレームを適用するステップとをさらに有し、前記フレームは前記データ項目内のタームの第１集合を含み、
（ｄ）前記フレーム内のタームについてデータベクトルを計算するステップと、
（ｅ）前記データ項目内のタームの第２集合を含むように前記フレームを移動するステップと、
（ｆ）前記データ項目内のタームの全てについてのデータベクトルが計算されるまでステップ（ｄ）〜（ｅ）を繰り返すことによって関連性ネットワークを生成するステップと、
（ｇ）記憶装置に前記関連性ネットワークを記憶するステップと
を有する方法。
前記第１データ項目内の一意のタームについて前記データベクトルに重み値を付加するステップを有する請求項１に記載の方法。
前記重み値は前記第１データ項目内の前記タームの頻度に関する請求項２に記載の方法。
前記データ項目は文書であり、前記タームは単語である請求項１に記載の方法。
前記フレームは前記データ項目内の少なくとも３つの文を含む請求項４に記載の方法。
前記データ項目から特定のタームを除去するステップをさらに有する請求項１に記載の方法。
前記計算するステップは、前記フレーム内のターム間の減衰率を取得するためにフィボナッチ数列を逆に使用するステップを有する請求項１に記載の方法。
データ項目間の関連性を生成するためのシステムであって、
関連付けされるデータ項目の集合を有する記憶装置を備え、各データ項目は複数のタームを含み、
関連付けするために前記データ項目内の複数のタームを選択するフレームを生成するように構成されたフレーム生成器と、
前記フレーム内のデータ項目間の関連性を表わすデータベクトルを生成するように構成されたベクトル生成器と
をさらに備えるシステム。
前記ベクトル生成器は、前記フレーム内の前記データ項目の各々に距離の計量を割り当てるための命令を有する請求項８に記載のシステム。
前記命令はフィボナッチ減衰計算を使用する請求項９に記載のシステム。
前記ベクトル生成器は、文書の集合全体におけるタームの頻度によって分割されたフレーム内のタームの頻度に基づいてデータベクトルを修正するための命令を有する請求項８に記載のシステム。
前記文書からリストされたストップワードを除去するための命令をさらに有する請求項８に記載のシステム。
複数単語の語句を有するタームを単一のタームとして処理するための命令をさらに有する請求項８に記載のシステム。
ユーザからクエリータームを受け取り、前記クエリータームと関連付けされる関連性ベクトルを決定するための入力モジュールをさらに備える請求項８に記載のシステム。
前記クエリータームについて全ての関連性ベクトルを抽出するための命令を有する抽出モジュールをさらに有する請求項１４に記載のシステム。
一意性のスコアに従って前記関連性ベクトルのリストを生成するための命令を有するリスト生成器をさらに備える請求項１５に記載のシステム。
前記ベクトル生成器はターム間の距離を計算するための命令を有する請求項８に記載のシステム。