JP2008542951A - 関連性ネットワーク - Google Patents

関連性ネットワーク Download PDF

Info

Publication number
JP2008542951A
JP2008542951A JP2008515798A JP2008515798A JP2008542951A JP 2008542951 A JP2008542951 A JP 2008542951A JP 2008515798 A JP2008515798 A JP 2008515798A JP 2008515798 A JP2008515798 A JP 2008515798A JP 2008542951 A JP2008542951 A JP 2008542951A
Authority
JP
Japan
Prior art keywords
term
terms
data
vector
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008515798A
Other languages
English (en)
Inventor
カシアン・フランクス
コーネリア・エー・マイヤーズ
ラフ・エム・ポドウスキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of JP2008542951A publication Critical patent/JP2008542951A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

関連性ネットワークを生成するためのコンピュータ実装されるシステムおよび処理方法が開示される。システムは、関係付けされるデータ項目の集合を与え、各データ項目内のターム間の関連性を表わす可変長データベクトルを生成する。システムは、文書、画像、または他の任意の種類のファイルについて関連性ネットワークを生成するために使用することができる。そして、この関連性ネットワークは、データ項目の集合内のターム間の関係を発見するために照会することができる。

Description

本発明は、ベクトルに基づく情報記憶および検索システムに関する。より詳しくは、本発明は、情報の関連性ネットワークを構築および視覚化するためにコンテキスト(context)ベクトルを記憶、生成、検索するためのシステムに関する。
<関連する出願への相互参照>
本願は、2005年6月6日に出願された米国仮特許出願第60/688,242号明細書の利益を主張し、その全体を引用してここに組み込む。
<連邦政府後援の研究開発に関する表明>
本発明は、契約番号DE-AC02-05CH11231のもとで米国エネルギー省によって支援された業務の間に行われた。政府は本発明において一定の権利を有する。
語句(phrase)に基づく探索またはキーワード探索は、電子データについて使用される一般的な探索方法である。キーワード探索は、探索クエリー内の単語の実例(instance)について情報データベースにわたって探索する。しかし、キーワード探索は、関連性に基づく結果を与えず、探索クエリーの結果は、多くの場合、探索クエリー内の単語の実例以外の互いに関連性のない項目を含む。例えば、技術会社Appleによる製品の探索を意図するユーザは、探索クエリー“Apple”を入力する。しかし、探索結果は、果物のapple(りんご)、音楽レーベルAppleによる曲、等に関する項目を含むことがあり得る。従って、語句に基づく探索の探索クエリーの結果は、多くの場合、ユーザの探索の意図と関係がない。
探索の意図に関連する探索クエリーの結果を提供するために、キーワード探索の代わりに、あるオブジェクトを他のオブジェクトに関連付ける探索方法が、多くの場合、使用される。そのような関連性に基づく探索方法は、幅広く多様であり、正確なものから全般的なあらゆるものを含むアプローチまで多岐にわたる。テキストオブジェクトに関する方法は、正確さおよびアプローチ、質および量において幅広く多様であり得る。例えば、発明の名称を“System and Method of Context Vector Generation and Retrieval”とするCaid他による米国特許第5,619,709号明細書は、より向上した自動結合アプローチとは反対に、コンテキストベクトル生成および旧式のニューラルネットワークアプローチに依存する。Weissman他による米国特許第6,816,857号明細書は、意味に基づく広告をウェブサイトに配置する目的のために関連性を決定する、または、現在使用している探索エンジンにおける文書の関連性を評価する、距離計算方法を使用する。
しかし、これらの関連性に基づく探索は、オブジェクトを互いに関連付けるために関連する情報を分析することにおいて人が用いる過程をシミュレートしない。探索者は、興味のあるオブジェクトを用いて開始し、典型的に、あるコンテキスト内で探索し、文献の読み取りおよび分析の処理の間に収集された情報の間の関連性を形成する。興味のあるコンテキストは、この柔軟な処理の間に、発見された情報に応じて、または、探索者の処理を通して、変化し、洗練され、新たな方向をとり得る。探索者は、探索処理を完了した後、特定の主題のまたは興味のあるコンテキストに関する情報の価値のある収集物とともに終了する。例えば、興味のある探索者のオブジェクトが音楽の時期であり、コンテキストがバロック様式であるならば、探索者は作品を互いに関連付け、作品を作曲家に関連付け、作品を地理的な場所または時期に関連付けることが可能である。一般的な関連性に基づく探索は、柔軟でなく、対話的でないので、この過程をシミュレートしない。それらは、ユーザが探索の間にコンテキストおよび個々の関連性を定義および制御することを可能とせず、関連性の質および量についてユーザによって対話的に決定され、視覚化されることを可能としない。
ここでのある実施形態は、関連性ネットワークとともに使用するための情報データベースから生成されるベクトルの分析、設計、実現のためのシステムおよびコンピュータ実装される方法を提供する。また、ある実施形態は、関連性ネットワークとともに使用するための関連性に基づくネットワーク生成エンジンを提供する。
一実施形態において、電子データベース内のオブジェクト間の関連性を決定するシステムが提供される。まず、未処理のテキスト文書またはデータのようなオブジェクトが取得される。そして、関連のないデータがフィルタリングで除去され、オブジェクト間の距離を計算することによってオブジェクトが処理される。距離の計量は、例えば、指数関数型減衰計算とすることが可能である。そして、距離スコアは、オブジェクト間の関連性についての関連性スコア値を生成するために使用される。関連性スコア値を使用するベクトルが生成および記憶される。ある実施形態において、可変長ベクトルは、作業中のオブジェクトに関する指定されたフレーム内のオブジェクト間の距離を表わすデータを記憶することが可能である。ベクトル内の各オブジェクトはそれ自身のベクトルを有し得るので、ベクトルは関連性ネットワークを構築するために使用することが可能である。さらに、関連性ネットワーク内のオブジェクト間の接続の構成を、ユーザによる探索、視覚化、または他の解読のために利用することができる。ある実施形態において、一意のオブジェクトは強調表示することが可能であり、他の実施形態において、共通のオブジェクトは強調表示することが可能である。
もう1つの実施形態において、関連性を発見するためのネットワーク生成エンジンが提供される。2つまたはより多くのベクトルの間で発見された共通部分を有する属性について処理を行うとき、ネットワーク生成エンジンは、テキスト、単語、またはオブジェクトの間の明白な、一意の、隠れた関連性を識別することが可能である。
一実施形態において、ネットワーク生成エンジンは、ベクトルの集合を含む関連性データベースについて実現することが可能である。入力クエリーオブジェクトは、クエリーオブジェクトについて関連性データベースから全ての直接の関連性および関連付けされる関連性を抽出するための指針として使用される。エンジンは、これらの関連性にスコアを与え、ランク付けし、共通部分を有するオブジェクトの類似度スコアを計量し、他のオブジェクトへのクエリーオブジェクトの関連性、および、類似度スコアを使用したそれらの関連性の強さを表わすもう1つの関連性ネットワークを構築することが可能である。クエリーオブジェクトの結果の関連性ネットワークは、さらなる解読のために必要ならば視覚化することができる。関連性ネットワークが構築されるとき、送信されたオブジェクトが特定のコンテキスト内にとどまることを保証するために、フィルタ形式での主題のコンテキストは、結果のネットワーク内で抽出される関連性の種類を制御するために使用することができる。
本発明の一実施形態は、集合における異なる項目間の関連性を生成および識別するコンピュータの方法およびシステムである。一実施形態において、データ集合内のデータ項目間で多対多の関連性が生成される。一例として、データ項目は遺伝子とすることが可能であり、データ集合はGENBANK遺伝子データベースとすることが可能である。以下でより詳細に説明するように、システムの実施形態は、データ集合内のデータ項目を分析し、その後、データ集合内のデータ項目間の関連性を反映するクエリーオブジェクトベクトルのような可変長データベクトルを生成する。そして、データベクトルは記憶され、データ項目間の関連性を分析するデータマイニングツールの一部として使用されることができる。例えば、胃癌に関するGenbank内の全ての遺伝子について探索することが可能である。
本発明の一実施形態において、まず、2つのデータ項目間の直接の相関関係を分析し、そして、データ項目間のさらなる隠れた関連性を探すことによって、データ項目間の関連性を示すデータベクトルが生成される。一実施形態において、これらの隠れた関連性は、データ集合内の各タームが他のタームから有する距離を繰り返し分析することによって決定される。したがって、例えば、2つの単語がデータ集合内で互いに関連付けされることがより多くの回数発見されるほど、ターム間の関連性がより密接に形成される。ある実施形態において、各データ項目を通して“フレーム”を移動することによってタームが分析される。例えば、データ項目が文書であるならば、フレームは3行に及ぶが一度に1行ずつ文書を通して移動することが可能である。フレームが文書の各行を移動するに従って、フレーム内のターム間の距離が分析される。この分析の間に、フレーム内の各ターム間の関連性を記憶するデータベクトルが生成される。一実施形態において、全体のデータ集合内の各タームは1つのベクトルによって表現される。そのベクトルは、そのタームとそれが関連するタームとの間の距離および関連性を与える。
本発明のもう1つの実施形態は、探索照会の有効な結果を提供するために記憶されたデータベクトルを使用するシステムおよび方法である。人または装置が探索の一部としてタームを入力すると、そのタームについてのデータベクトルが位置決めされ、探索タームに最も関連するタームがデータベクトルから識別される。そして、システムは、探索を展開するために、最も関連するタームについてデータベクトルを検索する。そして、最も関連するタームに関連付けされるタームを識別することができ、処理は、元の探索タームと、それに関連するタームの全てとの間で関連性ネットワークを構築するために継続することができる。クエリーが実行され、最も関連するタームを含むベクトルがスコアを与えられると、関連性ネットワークが構築される。そして、送信されたタームの結果のネットワークがさらなる解読のための視覚化のために作成されることが可能である。一実施形態において、各々の探索タームがその結果にどのように関連付けされるかを表わすリンクの網とともにタームがコンピュータ画面に表示される。関連性ネットワークが構築されるとき、送信されたタームが特定のコンテキスト内にとどまることを保証するために、フィルタ形式での主題のコンテキストは、結果のネットワーク内で抽出される関連性の種類を制御するために使用することができる。
ここで開示されるシステムおよび方法は、ユーザが対話的に情報マイニング、隠れた関連性および接続の抽出、オブジェクトの関連性ネットワークの構築および比較を可能とし、抽出された関連性の種類を精緻なものにするために対話的に主題のコンテキストの制御に適用することを可能とする。システムおよび方法は、情報データベース内のオブジェクトが互いにどのように関連付けされるか、どのコンテキストにおいてそれらが関連付けされるか、それらの関連性の強さについての情報をユーザに提供する。
ここで説明するある実施形態は、実験の過程の間に研究者が行うのと同様に、ユーザについての対話的なロールを組み合わせ、自動化されたテキストマイニング方法の繰り返しの処理にそれを適用することによって、方向を選択する能力をユーザに与え、探索される情報における興味のあるオブジェクト間に接続が作られるように関連性を定義する。オブジェクト、主題、および他のコンテキストの間の関連性を対話的に定義および抽出することは、テキスト内の関連性の調査および発見のために有益なレベルの正確さを提供する。
例えば、ユーザがインターネットのような電子情報データベース内のバロック作品(Baroque compositions)について探索するならば、ユーザは関連性ネットワークシステムにターム“Baroque”を送信することが可能である。また、ユーザは、バロック芸術に関する結果を避けるために、“compositions”のようなフィルタタームを使用することによって、バロック音楽の方向に探索を方向付けるように選択することが可能である。そして、システムは、ターム“Baroque”と強く関連付けされる作品についての情報だけでなく、作曲者名“Bach”(バッハ)および“Handel”(ヘンデル)のような、“Baroque”に関するタームと強く関連付けされる作品、“viola da gamba”(ビオラダガンバ)または“harpsichord”(ハープシコード)のようなバロック音楽と関連付けされる楽器を含む作品、または“Classical”のような関連する芸術の時期、等についての情報を与える。
一実施形態において、ここで開示される関連性ネットワークシステムは、タームの一義化のために使用することが可能であり、これは、全く同じであるが、識別子または記号または実際の単語として重複する頭字語のような、コンテキストに依存して異なる意味を有する2つの文字列を識別する能力を与える。例えば、単語“cleave”は互いに反対の2つの定義を有する。
図1は、電子情報データベースを使用して関連性ネットワークを生成するための処理100を表わす。ある実施形態において、限定しないが、電子情報データベースは、文字の集合または他の形式のテキスト、画像、音声、映像、または電子的に分析可能な他の任意のデータを含むことが可能である。従って、情報データベース内のオブジェクトまたはターム(term)は、文書、文字、単語、画像、音楽、または映像とすることが可能である。
表わされた実施形態において、システムは、まず、状態101において、処理する電子情報データベースを選択する。一例において、データベースは音楽作品のデータベースである。そして、状態102において、システムはデータベース内のタームについてベクトルを生成する。データベース内の作品間の異なる強さの関連性を捕捉するために、ある方法でベクトルが生成される。ベクトルが生成されると、状態103において、システムは、ユーザからクエリー(query)“Q”を受信する。クエリーは、例えば、ユーザがクエリーQにリストされた作品に類似の作品を見つけたいときに実行される。ある実施形態において、システムは、クエリーに応答したデータ処理の労力を減少させるために、クエリーを受信する前にベクトルを生成することが可能である。他の実施形態において、クエリーを受信した後にベクトルを生成することが可能である。ある実施形態においてベクトルはターム間の関連性を記憶するために使用されるが、他の実施形態において他のデータ構造を使用することが可能である。ベクトルを使用するある実施形態において、ベクトル空間表現方式は可変長のクエリーオブジェクトベクトルを使用する。可変長ベクトルは、ターム間の関連性に基づいて決定される複数の構成要素の値または成分を有することが可能である。さらに、可変長ベクトルは、各ベクトル内の関連付けされるタームの数に基づいてサイジングすることが可能である。
ある実施形態において、関連付けされるタームは、互いに直接または間接のいずれかの関連性を有するタームである。ある実施形態において、1つのタームは“第1”タームであり、第2タームは“コアターム”である。ある実施形態において、直接の関連性は、関連付けされるタームとベクトル内で同一のフレーム内にコアタームが発見される場合である。ある実施形態において、間接の関連性は、コアタームおよび関連付けされるタームそれぞれが、それぞれのベクトル内に共通のタームを共有する場合である。また、ターム間の他の関連性は、ここで説明するある実施形態とともに使用するために生成することが可能である。
図1に戻り、状態103におけるユーザからのタームQについてのクエリーに応答して、状態104において、システムはタームQについての可変長ベクトルに基づいてQについて関連性ネットワークを生成する。ある実施形態において、関連性ネットワークは関連性ベクトルのネットワークからなり、関連性ベクトルの互いへの接続およびそれらの接続の強さは、定義されたコンテキストおよび主題の中で共有された一意の属性に基づく。コンテキストおよび主題は、以下でより詳細に説明される。状態104において関連性ネットワークが生成されると、状態105において、システムはQと関連付けされるタームを返すことが可能である。例えば、返されるタームは、Qと同一の作曲者による作品、Qに関する作品、またはQに基づく推奨を指すことが可能である。
<1.関連性ネットワークについてベクトルを生成する>
図2は、データベース内に記憶されたデータから可変長ベクトルを生成する処理102の一実施形態についてのフローチャートである。処理102は、状態201において、データベース内の各々の文書を取得する。状態202において、取得された各々の文書について、ストップワード(a, of, as, the, on等のようなありふれた単語)のような、問題とされない、または価値の低いデータを除去するために文書が解析される。状態202において、各々の文書が解析された後、情報データベースは価値のあるタームのみを含む。
そして、状態203において、各々の解析された文書について、システムは文書内にフレームを挿入する。フレームは、文書内の1行またはより多くの行のテキストに及ぶかぶせ物と考えることができる。例えば、フレームは、文書内の3行または3文に及ぶことが可能である。状態203においてフレームが挿入されると、処理102は状態204に移り、ここで、フレーム内で処理される第1行内で第1タームが選択される。図4は、図3Aおよび3Bに表わされたサンプルのデータとともに使用するためのフレーム400の一実施形態を表わす。状態204においてフレームの処理中の文内で第1タームが選択された後、状態205において、第1ターム(“コアターム”)とフレーム内の他のターム(“関連付けされるターム”)との間の関連性データの集合が生成される。システムは、コアタームについての関連性データを記録し、これは、各々のコアタームについて計算された第1タームからの距離スコアのようなデータを含む。ある実施形態において、図5に表わされているように、関連性データは関連性記憶モジュールに記憶することが可能である。第1タームについて関連性データが生成されると、処理102は判定状態206に移り、ここで、フレームの処理中の文における最終タームが分析されているか否か判定が行われる。現在のタームが最終タームでないならば、処理102は状態207に移り、ここで、フレーム内の次のタームが捕捉される。そして、処理102は、状態205において新たに捕捉されたタームとフレーム内の他のコアタームとの間の関連性データを計算するために状態205に戻る。処理されるタームがフレームの処理中の文内の最終タームならば、処理102は状態208に移り、ここで、フレームは、分析される文書内で1文または1行だけ前に移る。タームがフレームについての処理中の文内の最終タームでないならば、処理102は状態205に戻る。
状態102がもう1行または1文だけ前にフレームを進めると、判定状態209において、フレームが文書の最後に位置しているか否か判定が行われる。処理102が文書の最後に位置していないという判定を行うならば、処理102は状態204に戻り、ここで、移動したフレームの処理中の文内の第1タームが選択される。フレームが文書の最後に位置しているという判定が行われるならば、処理102は判定状態210に移り、ここで、処理がデータベース内の最後の文書に位置しているか否か判定が行われる。処理102がデータベース内の最終文書に位置していないならば、処理102は状態211に移り、ここで、データベース内の次の文書が選択される。そして、処理102は状態203に戻り、ここで、新たに取得された文書内にフレームが挿入される。
判定状態210において、処理102が最後の文書に位置しているという判定が行われるならば、処理は状態212に移り、ここで、データベース内の第1タームについて、関連性記憶モジュール等から、記録された関連性データを検索する。そして、処理は状態213に移り、ここで、状態212からの関連性データを使用して可変長のクエリーオブジェクトベクトルが生成される。ある実施形態において、クエリーオブジェクトベクトル内に記憶することが可能な状態212からの関連性データ値は、クエリーオブジェクトベクトル内に記憶されるとき増大させることが可能である。関連性データ値を増大させる例は、一意の関連性のデータ値を増加させ、共通の関連性についてのデータ値を減少させることを含む。図6Bは、図6Aの関連性記憶モジュールについてのサンプルのクエリーオブジェクトベクトルを表わす。次に、処理は判定状態214に移り、分析されるタームがデータベース内の最終タームであるかどうか判定するために検査する。分析される最終タームでないならば、処理は状態215に移り、ここで、データベース内の次のタームが選択される。そして、処理102は状態213に戻り、次のタームについてのクエリーオブジェクトベクトルが生成される。判定状態214において処理102が最終タームに位置しているという判定が行われると、終了状態216において処理が終了する。
図3Aは、テキスト文書を含む情報データベースからのサンプルの文書300を表わす。図3Bは、図3Aの文書からそれが解析された後に記憶されたデータ310を表わす。図3Aと3Bとの間の差異から分かるように、この実施形態において、システムは“they”301、“from”302、“until”303、“they’re”304のようなストップワードを除去し、および、見出された文書の識別情報311およびそのターム312に従って各々の文を構成する。
図4に表わされているように、コンテキストまたはフレーム400の一実施形態は、関連付けされる周辺のタームからなり、最終的に、フレーム内で分析される現在のコアターム“red”412と関連付けされる。一実施形態において、フレーム400およびそれが取り囲む領域は、文書内で距離閾値を使用することによって構成される。例えば、図4において、距離閾値は、分析されるコアターム410を含む文の1文前および1文後である。タームが距離閾値内であるならば、関連付けされるタームと考えられ、コンテキストフレーム400の部分となる。一方、タームが距離閾値の外にあるならば、コンテキストフレーム400の部分とはならず、コアタームへの距離スコア(関連性スコアとも呼ぶ)を受信しない。文、段落、文字、または他のオブジェクトの数とともに、文書内の単語数を使用して、距離閾値を計算することができ、フレーム化されたコンテキスト400の大きさは文書が読み込まれるに従って増大および変動し、新たな統計データが収集される。一実施形態において、分析されるデジタルコンテンツは未処理のテキスト文書であり、フレーム400はフレーム毎に3、4、または5個の文に設定される。図4における例は3文のコンテキストフレーム400を有する。
システムは、文書、または、情報データベースを含む他の解析されるデータを通してフレーム400を移動することが可能である。フレームは文書の集合を通して1行ずつ移動するので、作業中の文書を表わす識別情報311を含め、タームは自動的に互いに関連付けすることができる。タームは文書を通して移動するフレームの内部および外部に流れるので、関連付けされるタームは距離スコアによるコアタームへの関連の強さを定義することができる。例えば、図4において、システムがコアターム“red”について距離スコアを計算すると、フレームのフォーカスは次のターム“pink”に移動し、フォーカスはフレームの中央の行内の最終ターム“raspberry”に到達するまで移動する。システムはターム“raspberry”と関連付けされるタームについて距離スコアを計算した後、フレームは1行進み、コアタームのフォーカスは次の行の第1ターム“Hummingbirds”とともに始まる。さらに、ターム“bloom”で始まる文はフレームの外部に流れ、ターム“one”で始まる文がフレーム内に流れる。
各々の関連付けされるタームに距離スコアを与えることによって、文書内の各々のコアターム410は、その関連性記憶モジュールの要素として、関連性スコアが与えられた一群の関連付けされるタームを含む統計的に重要なオブジェクトとなる。そして、2つのターム間の距離スコアは、処理が全体の情報データベースの分析を完了した後、2つのターム間の関連性スコアを生成するために使用することが可能である。例えば、一実施形態において、2つのターム間の距離スコアは、それらは情報データベースを通してフレーム内に繰り返し現れるので、関連性スコアを生成するために合計することが可能である。
単一の文書内のフレーム400の使用は、関連性スコアが数千または数百万の文書にわたって生成されるとき、特に効果的となる。ここでのある実施形態において単語間の重要な関連性は、2つまたはより多くのターム間の強い、かつ一意の接続によって時間にわたって定義される。タームへの関連性スコアは、人が繰り返しによって学習する方法に匹敵し得る。人は、2つのタームを一緒に繰り返して聞くならば、それらを記憶し、関連付ける傾向があるが、人が2つのタームを一緒に聞くことがあまり多くないならば、それらを記憶も、関連付けもしない。ここで説明するある実施形態において、システムは、多くの場合に一緒に現れる2つまたはより多くのタームに高い関連性スコアを与える。ある他の実施形態において、非常に独特な属性の集合を共有する2つまたはより多くのタームは高いスコアが与えられる。
上述したように、システムは、コアタームについて生成される関連性記憶モジュールと呼ばれるファイルにおいて、コアターム410とその関連付けされるタームとの間の関連性にスコアを与えることが可能である。一実施形態において、関連性記憶モジュールは、文書の統計値とともに、統計的な、かつ距離に基づくオブジェクトの関連性に関する情報を記憶するデータベーススキーマである。従って、関連性記憶モジュールは、探索されるデータにおいて意味の感度を効果的に捕捉することが可能であり、それは、全てのタームの組の密接度が認識され、距離についてスコアを与えられ、記憶されることを要求する。従って、関連性記憶モジュールは、単語、段落、探索クエリー、オブジェクト、文書、文書識別情報、画像の部分、タームの部分、テキストの部分、系列の部分または部分、ターム、文書に分割されたオブジェクトの任意の部分、数値データ、財務データ、科学データのような同様に表現される他の多くの種類の情報項目のような情報を効果的に記憶することが可能である。一実施形態において、関連性記憶モジュールおよびベクトルにおける全ての関連付けされるタームは、それ自身の関連性記憶モジュールおよびベクトルのコアタームでもあり、それによって、高次元の多対多のスコアが与えられた関連付けされる関連性ネットワークを可能とする。ある実施形態において、これは、強い類似度が、例えば、タームの部分の間、ターム間、タームとそれらが現れる文書との間に発生することを可能とする。
ある実施形態において、ベクトルまたはモジュールの長さはデータベースの大きさおよびシステムの性能に影響し得るので、関連性ネットワークのより高速な生成を容易にするために、または、記憶装置の制限のために、関連性記憶モジュールおよびベクトルの長さを制限することが可能である。他の実施形態において、関連性記憶モジュールまたはベクトルは、サポート可能なだけ多くの要素を含むことが可能である。ある実施形態において、システムは、照会される情報データベースを最もよく表現し、ユーザによる参照を容易にするために、高いスコアを有するある数のターム、または、ある閾値を超えるスコアを有するタームを提示することが可能である。
図5は、フレーム400内で分析される現在のタームがコアターム“red”410である状態において、図4からのターム“red”についてのサンプルの関連性記憶モジュール500を表わす。表わされている関連性記憶モジュール500は、3つのセクション、タームに関する統計値510、タームを含む文書に関する統計値520、関連付けされるタームに関する統計値530を有する。表示されている実施形態において、第1セクションである、タームに関する統計値510は、分析されるテキスト内のタームの発生数、タームを含む文の数512、コアタームと関連付けされる他のタームの数513、コアタームと他のタームと間の関連付けの数514のような情報を含むことが可能である。表示されている関連性記憶モジュール500は、データベース(図3A)内で分析される第1文書内のターム“red”410の分析によるデータを含むのみであるので、図5におけるデータは未完成の分析を表わす。従って、ターム“red”410はそれまで1回のみ発生しているので、ただ1つの文412内で、ターム“red”410についての発生の数510および文の数511は両方とも1に等しい。同様に、それまで分析された全ての18個のタームは、フレーム400内の現在のタームの全てであるので、それらは全て、ターム“red”410と関連付けされる。さらに、これらの関連付けされるタームのいずれも2度と現れていないので、それらはターム“red”410についての全ての18個の個々の関連付け514である。
文書統計値セクション520は、好ましくは、タームを含む文書521、タームを含む文書内の文の数522、タームに関する文書についてのスコア523を識別する。表わされている例において、ただ1つの文書524がリストされており、これは、ターム“red”を含むことが分析されたただ1つの文書であるためである。任意の他のよく知られた識別情報の方式は“URL(uniform resource locator)”アドレスのような文書識別情報を記録するために使用することが可能であるが、文書524はそのタイトルによって識別される。さらに、ターム“red”を含むただ1つの文525が文書内で発見された。従って、1であるスコア526がその文書に割り当てられた。表わされている実施形態において、文書に関連付けされるスコア526は文書内のタームの出現数であるが、他の実施形態において、スコアを与える他の方法を使用することが可能である。
関連付けされるタームのセクション530は、限定しないが、関連付けされるターム531、コアタームに関する各々の関連付けされるタームの出現数532、関連付けされるターム/コアタームの組についての対応する距離スコア533のようなデータを含む。他の実施形態において、関連付けされるタームのセクション530は、コアタームに関する関連付けされるターム、および、関連付けされるタームのコアタームへの距離を含む、それまで処理された文の数についてのデータも含むことが可能である。
ターム間の関連性を計量するための距離スコア533は、移動するフレーム内で適用される。例えば、図4は、コアターム“red”付近の3つの文のフレーム400を表わす。フレーム400およびそのコアタームのフォーカス410が文書を通して移動するに従って、コアターム410に関するフレーム400内の各タームに距離スコアを割り当てるために計算が適用される。
距離スコア533は、任意のよく知られた方法によって計算することが可能である。さらに、コアタームのより近くに接近した関連付けされるタームに、より大きい値を与えるために、関連付けされるタームに割り当てられた距離スコア値533は、コアタームへの距離が増加するに従って効果的に減衰させることが可能である。これは、好ましくは、フィボナッチ数列を逆に使用して適用することが可能である。言い換えると、フィボナッチ数列を逆に使用する一実施形態において、コアタームから関連付けされるタームへの距離スコアは、
ij=φΔx
ここで、Sij=コアタームiと関連付けされるタームjとの間の距離スコア、
φ=0.618は黄金比の“ファイ”成分(φは黄金比φ=1.618034の小数成分である)、
Δx=|x−x|はコアタームiと関連付けされるタームjとの間の相対位置である。
図5に戻り、関連付けされるターム“cardinal”についてのターム“red”へのこの等式を使用する距離スコア536は、これらは隣接するタームであり(Δx=1)、0.618=0.618である。同様に、関連付けされるターム“bloom”についてのターム“red”への距離スコア537は、“bloom”は“red”から10個のターム離れているので(Δx=10)、0.008=0.61810である。ある実施形態において、システムは、関連付けされるタームと1回目の出現から離れたコアタームとの間の2回目の出現に遭遇するので、システムは、関連性についての距離スコアの実行中の合計を保持するために、1回目の出現に2回目の出現の距離スコアを加えることが可能である。例えば、図5において、システムが“red”を含むフレーム内で再びターム“cardinal”534に遭遇し、かつ2回目の出現についての距離スコアが0.008ならば、システムは、“red”の関連性記憶モジュール500における“cardinal”についての距離スコア536を0.626=0.618+0.008に更新することが可能である。他の実施形態において、システムが情報データベースを処理するときに、距離スコアの値を更新するために他の方法を使用することが可能である。
黄金比である、連続したフィボナッチ数の比に基づく系列が、生物学、材料科学を含む多くの自然現象において見出されるので、フィボナッチ数に基づく計算は効果的に使用することが可能である。従って、フィボナッチ数は、文法および人間が作成したパターンとの関連性を有し、情報の解読への効果を与え得る。
もう1つの実施形態において、拡張指数型重みつき移動平均(Enhanced Exponentially Weighted Moving Average(EEMA))、指数型重みつき移動平均(Exponentially Weighted Moving Average(EWMA))の時系列計算の変形は、フレーム内のターム間の距離スコアを計算するために使用することが可能である。EEMAを使用するサンプルの等式は、次のように定義することが可能である。
EEMA=1/(K*(C−P)+P)
ここで、C=コアタームの位置、
P=前の期間の単純移動平均(Simple Moving Average(SMA))
N=EEMAについての期間の数
K=e(−C/5.0) 平滑定数
さらにもう1つの実施形態において、標準の指数関数型減衰アルゴリズムを適用することができる。以下は、距離スコアを計算するために使用することができる指数関数型減衰についての2つの等式である。
コアタームiが関連付けされるタームjの前にくるならば、
ij=1/e(j−i)
コアタームiが関連付けされるタームjの後にくるならば、
ij=1/e(i−j)
ここで、Sij=オブジェクトiとjとの間の関連性スコアである。
図6Aは、システムが図3Aの文書を含む情報データベースの分析を完了した後の、ターム“red”についての関連性記憶モジュール600を表わす。サンプルの関連性記憶モジュール600において、システムは、分析された情報データベースが合計で12個の文612内にターム“red”の12個の出現611を含むと判定した。さらに、“red”と関連付けされる319個のターム、および、それらのタームと“red”との間の450個の関連性が存在する。文書“Gardening Journal”625は合計4つの“red”が出現する4つの文626を含み、文書“Top News Stories”628は1つの出現630を有する1つの文のみを含む。さらに、関連付けされるターム“cardinal”634はredと6個の関連性を有し、redの個々の距離スコアについて4.124の合計距離スコア636に等しく合計され、関連付けされるターム“paste”637は、0.008の合計距離スコアについて“red”との1つの関連付けされる出現のみ有する。
システムが情報データベース内の各々の文書を処理した後、各々の関連性記憶モジュールはクエリーオブジェクトベクトルを生成するために使用することが可能である。図6Bは、図6Aの関連性記憶モジュール600から生成されたサンプルのクエリーオブジェクトベクトル650を表わす。表わされている実施形態において、関連性記憶モジュール600からの距離スコア633は、以下でさらに詳細に説明されるように、共通の関連性を強調することによってクエリーオブジェクトベクトル650についての関連性スコア653を計算するために使用される。そして、システムは、それらの関連性スコア653に従ってクエリーオブジェクトベクトル650内の関連付けされるタームをランク付けする。例えば、図6Bにおいて、関連付けされるターム“Cardinal”654は、最も高い関連性スコアを有するので、1番目にランク付けされる。ターム“Paste”655は、最も低い関連性スコアを有するので、“red”と関連付けされるタームの合計数に等しい319にランク付けされる。従って、各々の関連性記憶モジュールは、クエリーオブジェクトベクトル213を生成するために使用される。
従って、図6Bは、ここで説明するシステムおよび方法の1つの効果を説明する。キーワードに基づく探索において、ユーザが彼女のクエリーにおいてターム“red”を使用した赤いセーター(red sweaters)を探すならば、彼女はターム“red”を有するセーターが具体的にリストされた結果のみ受け取る。一方、ユーザがここで説明するシステムの一実施形態に探索を送信したならば、ユーザは“赤(red)”のセーターについての結果だけでなく、緋色(cardinal)、栗色(maroon)、暗い赤紫色(raspberry)のような赤の他の色調を有するセーターについても結果を受け取る。
ある実施形態において、システムは、クエリーオブジェクトベクトルについての個々の関連性スコア値を生成するために、関連性記憶モジュールからのデータを効果的に使用することが可能である。例えば、一実施形態において、隠れた関連性の発見に役立つような、一意の関連性を強調する目的で距離スコアを修正することが可能である。隠れた関連性は、ユーザに知られていない可能な重要な新たな関連性のリストを提示することによって仮定的な定式化を助けるために使用することが可能である。一実施形態において、次の一意性関数は一意性を強調する関連性スコアを計算するために使用することが可能である。
ij=Sij・Bij
ここで、Sij=タームiとjとの間の距離に基づく関連性スコア
ij=タームiについてのタームjとの関連性のバイアス
ここで、Bij=A/A
=タームiの関連性の合計数
=タームjの関連性の合計数
もう1つの実施形態において、距離スコアは、直接の関連性に基づく明確な定義を生成するように共通の関連性を強調する目的で修正することが可能である。直接の関連性は、たいへん類似したオブジェクトのリストを生成するために使用することができる。一実施形態において、次の共通性関数は、共通に関連付けされるタームを強調する関連性スコアを計算するために使用することが可能である。
ij=A/A
ここで、A=タームiの関連性の合計数
=タームjの関連性の合計数
従って、図2の処理が完了するときまでに、各々の解析される文書内の各タームはそれ自身のクエリーオブジェクトベクトルを有し、すなわち、各タームは、クエリーオブジェクトベクトルについてのコアターム、および、他のタームのクエリーオブジェクトベクトルについての関連付けされるタームである。ある実施形態において、各々のクエリーオブジェクトベクトルは、一意または共通のいずれかの関連性を強調することが可能である。さらに、ある実施形態において、各々の文書は、それ自身の関連性記憶モジュールおよびクエリーオブジェクトベクトルを有する。そして、これらのベクトルは関連性ネットワークを構築するために使用することが可能である。
<2.関連性ネットワークを構築する>
図7は、上述した関連性ネットワークの実施形態とともに使用するためのネットワーク生成エンジンのための処理700を表わす。特に、開示は、上述したように、テキスト文書を含む電子情報データベースから生成されたクエリーオブジェクトベクトルを使用して関連性ネットワークを生成するための一実施形態である。ユーザによって入力される探索クエリータームに応答して、探索クエリータームに基づいてクエリーオブジェクトベクトルからの関連性の抽出から関連性ネットワークを生成することが可能である。ある実施形態において、関連性ネットワークは、タームの拡張されたベクトルのネットワーク、それらの互いへの接続、それらの接続の強さからなり、接続は定義されたフレーム内の共有の属性に基づく。表わされたサンプルのフローチャートを説明するが、ある実施形態はテキスト文書およびタームを使用し、他の実施形態において、クエリータームは音声データ、映像データ、画像データ、または他の任意の種類の電子データとすることが可能である。
まず、状態701において、ユーザはシステムに少なくとも1つのクエリータームQを送信する。ある実施形態において、複数のタームがシステムに送信されることが可能であり、1つのクエリータームまたは複数のクエリータームとして処理することが可能である。ある実施形態において、Qが情報データベースに存在しないならば、システムは何のデータも返さない。状態702において、クエリーの受信に応答して、システムは、クエリータームについてのベクトルであるクエリーオブジェクトベクトル(query object vector(QOV))を検索する。そして、処理700は状態703に移り、ここでユーザまたはシステムは、クエリーの結果に焦点を合わせるために、クエリーとともに使用するためのフィルタを設定する。このフィルタは、状態703において、例えば、探索タームQについて検索されたベクトルからタームをフィルタリングすることによって、設定することが可能である。これは、図8Aを参照して以下でより詳細に説明される。次に、状態704において、システムはベクトルを拡張されたQOVに拡張する。この処理は、図8Bを参照して以下でより詳細に説明する。そして、処理700は状態705に移り、ここでシステムは拡張された関連付けされるオブジェクトベクトル(associated object vector(AOV))を生成するためにQOVを使用する。これは、図8Cおよび8Dを参照して以下でより詳細に説明する。そして、システムは、拡張されたAOVと拡張されたQOVとの間で関連付けされるタームを見つけるために状態706に移る。そして、状態707において、クエリーQについての探索結果が提供される。探索結果を提供する処理は、図8Eを参照して以下で説明する。最後に、処理700は、クエリーの結果に基づいて関連性ネットワークの視覚的な表現を提供する。
一実施形態において、探索処理の間に抽出される関連性の種類を制御するために、および、関連性ネットワークが構築されるときにある定義されたコンテキスト内にタームがとどまることを保証するために、システムは関連する主題およびカテゴリのオントロジー(ontology)の形態のようなフィルタを使用する。ある実施形態において、フィルタについて選択されたタームは探索される情報データベースにも存在するのでフィルタを利用することが可能であり、従って、フィルタのタームはそれら自身のベクトルを有する。クエリーの結果に焦点を合わせるために、フィルタはクエリーとともに提供することが可能である。フィルタは、それによってクエリーの結果が制御される単語、記号、オブジェクトのリストとすることが可能である。例えば、フィルタの語句“genes and inferred relationships to drugs”は、遺伝子データに関する情報データベースにおいて行われるゲノム探索のために使用することが可能である。
ある実施形態において、フィルタは完全ベクトル(complete vector)とすることが可能であり、その要素は関連性抽出処理を制御する文書のデータベース内のフレームデータまたはコンテキストの全体の集合を表わす。ベクトルフィルタと共通部分を有することが発見された任意の探索結果は、使用されるフィルタの種類に従って処理される。
ここで開示されるシステムおよび方法とともに使用するために、多くの異なる種類のフィルタを挙げることが可能である。1つの種類のフィルタである排除フィルタは、そのフィルタと合致しないタームおよびベクトルを能動的に除去することができる。特定の主題からの要素が、任意の態様の処理についてクエリーオブジェクトベクトルおよび関連付けされるオブジェクトベクトルから除去されることを保証するために、排除フィルタを使用することが可能である。図8Aは、タームZからZを含むサンプルの排除フィルタベクトル810を表わす。フィルタベクトルは、クエリーの結果に焦点を合わせるために、クエリーQ801について検索されたクエリーオブジェクトベクトル820に適用される。図8Aに表わされているように、システムは、好ましくは、フィルタベクトルに現れるタームの実例を除去する。タームZ、Z、Zは、それらのタームが排除フィルタ810に現れるので、最後のクエリーオブジェクトベクトル825からフィルタリングされた。
一方、選択フィルタは、そのフィルタに合致するタームおよびベクトルを能動的に選択することが可能である。選択フィルタは、特定の主題からの要素のみが特定の処理のために使用されることを確実にするために使用することが可能である。一実施形態において、処理は、拡張されたクエリータームのベクトルおよび関連付けされるタームのベクトルの生成のために、最高のクエリータームのベクトルの要素および関連付けされるタームのベクトルの要素の選択を含む。また、フィルタの要素は、拡張されたクエリータームのベクトルにおいて使用される最終タームの選択が、拡張された関連付けされる比較および関連性スコア計算に影響を与える。
もう1つの種類のフィルタである重み付けフィルタは、タームまたはベクトルが再整理されるように、あるタームおよびベクトルの関連性スコアを調整することが可能である。重み付けフィルタはタームの特定のグループの重み付けを変更するために使用することが可能であり、それによって、アルゴリズムの処理および計算結果にそれらの影響を及ぼす。
フィルタは、好ましくは、任意の時点の間に適用することが可能であり、ここで、システムは、クエリーに応答して検索されるクエリーオブジェクトベクトルを拡張する。フィルタの使用は、結果として、関連性が、主題を含み得るタームの特定の集合に根拠を置くシステムの機能となる。システムは、主題のフィルタリングなしで、どのような関連性を探すべきか不明であるならば、有益であり得ない全ての種類の推測される関連性を検索することが可能である。例えば、フィルタなしで情報データベースに探索クエリーターム“red”をユーザが送信することは、たいへん幅広い結果を受信し得る。一方、ユーザが、“red”についてのコンテキストとしてフィルタの語句またはベクトル“flowers”のようなフィルタ内に発見されない全てのタームを排除する選択フィルタを利用するならば、赤色の植物群に関係する特定のタームはクエリー結果において最も発見され得る。ある実施形態において、ユーザが探索クエリーを好みに適合させるために、フィルタは予め定義され、互換性を有することが可能である。システムのユーザは特定のコンテキスト内にこのクエリータームとのどのような関係が存在するかを発見することを望み得るので、この種類のコンテキスト制御を用いてタームの関連性のネットワークを生成することは、以前に識別されていない接続が前面にもたらされることを可能とする。
図8Bは、図8AのフィルタリングされたQOV825を使用して拡張されたQOV850を生成する1つの典型的な方法を表わすデータフロー図である。まず、システムは、クエリータームQ801に関する30個の最も強いタームAからA30826を識別する。これらの30個の最も強いタームは拡張されたQOV850の最初826に付加される。次に、システムは、拡張されたQOV850を完成するために、それらの30個のタームAからA30830の各々についてベクトルを検索し、それらの30個のベクトル831の各々について最高の3つの最も強いターム(すなわち、AについてA1,1からA1,3、AについてA2,1からA2,3、・・・、A10についてA10,1からA10,3)を挿入する。表わされているシステムの実施形態は処理のための30個のタームを選択したが、他の実施形態において、処理のために他の任意の数のタームを使用することが可能である。
図8Cおよび8Dは、図8AのフィルタリングされたQOV825を使用して拡張されたAOV875を生成する1つの方法を表わすデータフロー図である。まず、システムは、Q801に関連する30個の最も強いタームAからA30826を識別し、それらのベクトル827を検索し、各タームAからA30について拡張されたAOV875を始める。そして、システムは、AからA30の各々に関連する第1次元ベクトルから3つの最も強いターム(すなわち、AについてA1,1からA1,3、AについてA2,1からA2,3、・・・、A30についてA30,1からA30,3)830を識別し、それらの関連付けされるタームを対応する拡張されたAOV875、AからA30に付加し、それらのベクトル831を検索する。同様に、システムは、各々のA1,1からA30,3に関連する第2次元ベクトルから3個の最も強いターム(すなわち、A1,1についてA1,1,1からA1,1,3、A1,2についてA1,2,1からA1,2,3、・・・、A30,3についてA30,3,1からA30,3,3)840を検索し、それらのベクトル841を検索する。再び、システムは、各々のA1,1,1からA30,3,3に関連する第3次元ベクトルから3個の最も強いターム(すなわち、A1,1,1についてA1,1,1,1からA1,1,1,3、A1,1,2についてA1,1,2,1からA1,1,2,3、・・・、A30,3,3についてA30,3,3,1からA30,3,3,3)850を検索する。そして、拡張されたAOV875を完成するために拡張された既にAOV875内に存在する第1次元ターム830の後に、第3次元ベクトル850から最高の3個の関連付けされるタームが挿入される。図8Cおよび8DはAについての拡張されたAOV875の生成を表わすが、表わされた実施形態において、処理は、各々のAからA30826について合計30個の拡張されたAOVを生成する。
図8Eは、クエリーQ801についての探索結果を生成するために、AOV875と拡張されたQOV850との間で関連付けされるタームを発見するために、拡張されたQOV850とともに拡張されたAOV875を使用する1つの典型的な方法を表わすデータフロー図である。拡張されたベクトル850および875は、拡張されたベクトル850および875における共通部分を有するターム間の類似度を判定する機能に渡される。一実施形態において、図8Eに表わされているように、クエリータームQ801について関連付けされるターム880を位置決めするために、各々の拡張されたAOV875およびQOV850の共通部分を取得することが可能である。他の実施形態において、関連付けされるタームを位置決めするために他の機能を使用することが可能である。
ある実施形態において、Qについての関連付けされるタームが位置決めされた後、クエリータームQと各々の関連付けされるタームとの間の類似度スコアを計算することが可能である。そして、関連付けされるタームは、最も高い類似度スコアを有する関連付けされるタームが1番目にランク付けされるように、それらの類似度スコア値によってランク付けすることが可能である。ある実施形態において、類似度スコア機能は補正係数の距離の計量とすることが可能であり、その値は、関連付けされるタームと初期のクエリータームとの間で最終的な類似度の計量を示すスコア、すなわち、結果が初期のクエリータームとどのくらい合致しているか、として結果の合致したタームに割り当てることができる。
一実施形態において、2つのベクトル間の類似度スコアは、共通部分を有するタームから関連性スコアを合計し、それに、共通部分を有するタームのみからなるベクトルの長さを乗算することによって計算することが可能である。もう1つの実施形態において、2つのベクトル間の類似度スコアは次の等式を使用する補正係数の距離計量関数とすることが可能である。
Figure 2008542951
V=クエリーベクトル
W=クエリーベクトルと比較される任意のベクトル
もう1つの実施形態において、異なる大きさのベクトル間の類似度スコアを計算するために、中央揃えされていないピアソンの補正係数の距離の計量を使用することが可能である。
Figure 2008542951
ある実施形態において、クエリー結果ターム880が位置決めされた後、そのクエリーについて返される各々の要素のベクトルは、また、抽出され、比較され、類似度についてスコアが与えられる。このステップは、好ましくは、その結果が、それらのベクトルの内容が共通部分を有することによってネットワークを形成することを可能とする。共通部分を有することによって生成されたネットワークは、初期のクエリー結果がどのように関係するか、どのコンテキストにおいてそれらが関係するか、それらの接続は直接かまたは間接か、およびそれらの関連性の強さを判定するために使用することが可能である。
従って、そのデータを使用して構築されるクエリー結果データおよび関連性ネットワークは、他のタームへのクエリーターム801の関連性、ベクトルのお互いとの関係、および類似度スコアを使用したそれらの関連性の強さを表わす。ある実施形態において、クエリー結果タームの結果の関連性ネットワーク880および/またはクエリーに関連するベクトルは、必要ならばさらなる解読のために視覚化することができる。例えば、図9は、ターム“red”についてのクエリーに応答して生成された関連性ネットワークについての(縮尺して描かれていない)グラフの視覚化900を表わす。ターム“red”へのより高い関連性スコアを有するタームは、“cardinal”654のように、“red”により近くに現れている。より低い関連性スコアを有するタームは、“paste”655のように、より遠くに現れている。ユーザは、好ましくは、情報データベースにおけるターム間の関連性を迅速に理解するために、図9に類似の視覚化を使用することが可能である。
<3.システム構成要素の例>
図10は、一実施形態による関連性ネットワークシステム1000を表わす。関連性ネットワークシステム1000は、エンドユーザのコンピューティングデバイス1020にホストウェブサイトのぺージを生成および提供するウェブサーバ1010を含む。デスクトップコンピュータ1020として示されているが、コンピューティングデバイス1020は、携帯電話およびPDA(Personal Digital Assistant)のような他の各種の装置を含むことが可能である。ウェブサーバ1010は、単一の物理的なサーバまたは物理的なサーバの集合として実現することが可能である。その代わりに、ある実施形態は、対話型テレビジョンシステム、オンラインサービスネットワーク、またはユーザが電話のキーパッド入力および/または音声を介して手に入れる品目を選択する電話に基づくシステムのような、他の種類の複数ユーザ対話型システムにおいて実現することが可能である。
ウェブサーバ1010は、ユーザに、データベースまたはデータベースの集合1020内に表わされた電子情報へのアクセスを提供する。ウェブサーバ上で、またはウェブサーバと結合して動作する情報取得プロセッサ1015は、ユーザに彼らが見つけたい情報について探索クエリーを入力するための機能を提供する。一実施形態において、データベース1020内に表わされる情報は、文書、文字、単語、画像、曲、映像、または電子的に記憶することが可能な任意の他のデータを含むことが可能である。数10万、数100万バイトの多くのデータをデータベースに記憶することが可能である。
一実施形態において、情報データベース1020内の文書または他のオブジェクトは、情報取得プロセッサ1015を使用して検索することが可能である。各々のオフジェクトは、例えば、情報取得プロセッサ1015を介して項目について探索を実行することによって、または、ツリーリストの閲覧からオブジェクトを選択することによって位置決めすることが可能である。
図10に表わされているように、関連性ネットワークシステム1000は、他のタスクの中で、情報データベース1020内の情報について関連性ベクトルを生成する役割を果たす関連性プロセッサ1030を含む。そして、これらの関連性ベクトルは、関連性データベース1040に記憶される。ある実施形態において、関連性プロセッサ1030は、情報データベース1020内に記憶することが可能な新たなデータに応答して関連性データベース1040を生成および維持管理するために、情報データベースの定期的および選択的な分析または“処理”を実行する。
情報取得プロセッサ1015によって受信されるクエリーに応答して、関連性ネットワークシステム1000はネットワーク生成器1050にクエリーを送信し、ネットワーク生成器1050は、クエリーに加えて、クエリーに基づいて関連性ネットワークを生成するために、関連性データベース1030から関連性ベクトル情報を受信する。ある関連性ネットワークシステムの実施形態において、上述したように、ウェブ空間内に生成することが可能なかなりの大量の関連性に取り組むために、生成される関連性の数について設定限界を設けることができる。
そして、結果の関連性ネットワークはクエリー結果プロセッサ1060に送信され、クエリー結果プロセッサ1060は、結果を処理し、選択的に関連性ネットワークの視覚的な表現を生成し、このデータを情報取得プロセッサ1015に送信する。そして、結果のデータは、インターネットを介してクエリーを送信したコンピューティングデバイス1020に返すことが可能である。
<4.例:音楽データベース>
本発明の一実施形態は、音楽データベースに関する人間が生成したコンテンツの間の関連性を発見するように実現することが可能である。音楽に関する人間が生成したコンテンツのいくつかの例は、プレイリスト、ブログ、推奨リストである。システムは、インターネットのような大規模なデータ空間にわたるディレクトリまたはリポジトリ内のそれらの位置に基づいて音楽ファイルの間の関連性を決定することが可能である。この関連性データは、アーティスト、アルバム、曲のタイトル、リリース年のような情報を含むことが可能であり、関連性記憶モジュールに記憶され、そして、上述したようにクエリーオブジェクトベクトルに転送されることが可能である。そして、アーティストまたは曲についてのようなクエリーに応答して、システムは、クエリーにアーティストまたは曲に関する関連性ネットワークを生成および提示し、関連性ネットワークを選択的に視覚化することが可能である。
<5.結論>
上述した特徴の全ては、汎用のコンピュータによって実行されるソフトウェアモジュールによって実現し、自動化することが可能である。ソフトウェアモジュールは任意の種類のコンピュータ記憶装置または媒体に記憶することが可能である。ここで説明された様々な実施形態および特徴の全ての組み合わせは、本発明の範囲内に存在する。
様々な本発明の特徴およびサービスがある好ましい実施形態に関して説明されたが、ここに記載された効果および特徴の全てを提供するとは限らない実施形態、およびここに記載された課題の全てを解決するとは限らない実施形態を含む、この技術分野の当業者に明らかな他の実施形態もまた本発明の範囲内に存在する。例えば、上述したある例はユーザに探索クエリー結果を提供することを含むが、本発明は、スペルチェック、財務関連性ネットワーク、遺伝子解読、またはそれらの探索クエリー結果に基づくユーザへの広告の提供のような、他のシステムにおいて使用することが可能である。本発明の範囲は特許請求の範囲によってのみ定義される。
関連性ネットワークを生成するためのシステムの一実施形態についてのフローチャートである。 テキスト文書を含む電子情報データベースに基づいて関連性ネットワークとともに使用するためのベクトルを生成するためのシステムの一実施形態についてのフローチャートである。 テキスト文書を含む情報データベースからのサンプルの文書を表わす。 解析された後の図3Aの文書を表わす。 図3Aおよび図3Bのサンプルのデータとともに使用するためのフレームの一実施形態を表わす。 フレームにおいて分析される現在のタームがコアターム“red”である状態において、図4からのターム“red”についてのサンプルの関連性記憶モジュールを表わす。 システムが図3Aの文書を含む情報データベースの分析を完了した後の、ターム“red”についての関連性記憶モジュールを表わす。 図6Aの関連性記憶モジュールについてのサンプルのクエリーオブジェクトベクトルを表わす。 ネットワーク生成エンジンのためのサンプルのフローチャートを表わす。 クエリーオブジェクトベクトルに適用されるサンプルの排除フィルタベクトルを表わす。 図8Aのフィルタリングされたクエリーオブジェクトベクトルを使用して拡張されたクエリーオブジェクトベクトルを生成する1つのサンプルの方法を表わす。 図8Aのフィルタリングされたクエリーオブジェクトベクトルを使用して拡張された関連付けされるオブジェクトベクトルを生成する1つのサンプルの方法を表わす。 図8Aのフィルタリングされたクエリーオブジェクトベクトルを使用して拡張された関連付けされるオブジェクトベクトルを生成する1つのサンプルの方法を表わす。 クエリーについての探索結果を生成するために、関連付けされるオブジェクトベクトルと拡張されたクエリーオブジェクトベクトルとの間の関連付けされるタームを発見するために、拡張されたクエリーオブジェクトベクトルとともに拡張された関連付けされるオブジェクトベクトルを使用する1つのサンプルの方法を表わす。 ターム“red”についてのクエリーに応答して生成された関連性ネットワークについてのグラフの視覚化を表わす。 一実施形態による関連性ネットワークシステムを表わす。
符号の説明
1000 関連性ネットワークシステム
1010 ウェブサーバ
1015 情報取得プロセッサ
1020 情報データベース
1030 関連性プロセッサ
1040 関連性データベース
1050 ネットワーク生成器
1060 クエリー結果プロセッサ

Claims (17)

  1. 関連性ネットワークを生成するためのコンピュータ実装される方法であって、
    (a)関連付けされるデータ項目の集合を提供する過程を有し、前記データ項目は複数のタームを含み、
    (b)処理される第1データ項目を選択するステップと、
    (c)前記第1データ項目にフレームを適用するステップとをさらに有し、前記フレームは前記データ項目内のタームの第1集合を含み、
    (d)前記フレーム内のタームについてデータベクトルを計算するステップと、
    (e)前記データ項目内のタームの第2集合を含むように前記フレームを移動するステップと、
    (f)前記データ項目内のタームの全てについてのデータベクトルが計算されるまでステップ(d)〜(e)を繰り返すことによって関連性ネットワークを生成するステップと、
    (g)記憶装置に前記関連性ネットワークを記憶するステップと
    を有する方法。
  2. 前記第1データ項目内の一意のタームについて前記データベクトルに重み値を付加するステップを有する請求項1に記載の方法。
  3. 前記重み値は前記第1データ項目内の前記タームの頻度に関する請求項2に記載の方法。
  4. 前記データ項目は文書であり、前記タームは単語である請求項1に記載の方法。
  5. 前記フレームは前記データ項目内の少なくとも3つの文を含む請求項4に記載の方法。
  6. 前記データ項目から特定のタームを除去するステップをさらに有する請求項1に記載の方法。
  7. 前記計算するステップは、前記フレーム内のターム間の減衰率を取得するためにフィボナッチ数列を逆に使用するステップを有する請求項1に記載の方法。
  8. データ項目間の関連性を生成するためのシステムであって、
    関連付けされるデータ項目の集合を有する記憶装置を備え、各データ項目は複数のタームを含み、
    関連付けするために前記データ項目内の複数のタームを選択するフレームを生成するように構成されたフレーム生成器と、
    前記フレーム内のデータ項目間の関連性を表わすデータベクトルを生成するように構成されたベクトル生成器と
    をさらに備えるシステム。
  9. 前記ベクトル生成器は、前記フレーム内の前記データ項目の各々に距離の計量を割り当てるための命令を有する請求項8に記載のシステム。
  10. 前記命令はフィボナッチ減衰計算を使用する請求項9に記載のシステム。
  11. 前記ベクトル生成器は、文書の集合全体におけるタームの頻度によって分割されたフレーム内のタームの頻度に基づいてデータベクトルを修正するための命令を有する請求項8に記載のシステム。
  12. 前記文書からリストされたストップワードを除去するための命令をさらに有する請求項8に記載のシステム。
  13. 複数単語の語句を有するタームを単一のタームとして処理するための命令をさらに有する請求項8に記載のシステム。
  14. ユーザからクエリータームを受け取り、前記クエリータームと関連付けされる関連性ベクトルを決定するための入力モジュールをさらに備える請求項8に記載のシステム。
  15. 前記クエリータームについて全ての関連性ベクトルを抽出するための命令を有する抽出モジュールをさらに有する請求項14に記載のシステム。
  16. 一意性のスコアに従って前記関連性ベクトルのリストを生成するための命令を有するリスト生成器をさらに備える請求項15に記載のシステム。
  17. 前記ベクトル生成器はターム間の距離を計算するための命令を有する請求項8に記載のシステム。
JP2008515798A 2005-06-06 2006-06-05 関連性ネットワーク Pending JP2008542951A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US68824205P 2005-06-06 2005-06-06
PCT/US2006/021662 WO2006133050A2 (en) 2005-06-06 2006-06-05 Relationship networks

Publications (1)

Publication Number Publication Date
JP2008542951A true JP2008542951A (ja) 2008-11-27

Family

ID=37498976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008515798A Pending JP2008542951A (ja) 2005-06-06 2006-06-05 関連性ネットワーク

Country Status (9)

Country Link
US (2) US7987191B2 (ja)
EP (1) EP1891558A2 (ja)
JP (1) JP2008542951A (ja)
KR (1) KR20080031262A (ja)
CN (1) CN101223525B (ja)
AU (1) AU2006255181A1 (ja)
CA (1) CA2610088A1 (ja)
RU (1) RU2007149528A (ja)
WO (1) WO2006133050A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6034459B1 (ja) * 2015-08-14 2016-11-30 Psソリューションズ株式会社 対話インターフェース
JP2017037602A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
JP2017505937A (ja) * 2013-12-02 2017-02-23 ラクテン ユーエスエー インコーポレイテッド オブジェクトネットワークをモデル化するシステム及び方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9420072B2 (en) 2003-04-25 2016-08-16 Z124 Smartphone databoost
KR100724122B1 (ko) * 2005-09-28 2007-06-04 최진근 데이터의 연관성 구조를 저장하는 번들데이터베이스관리시스템 및 그 관리방법
US20110066624A1 (en) * 2006-08-01 2011-03-17 Divyank Turakhia system and method of generating related words and word concepts
US8108417B2 (en) 2007-04-04 2012-01-31 Intertrust Technologies Corporation Discovering and scoring relationships extracted from human generated lists
US8275681B2 (en) 2007-06-12 2012-09-25 Media Forum, Inc. Desktop extension for readily-sharable and accessible media playlist and media
EP2191399A1 (en) 2007-09-21 2010-06-02 International Business Machines Corporation System and method for analyzing electronic data records
US8326823B2 (en) 2007-11-01 2012-12-04 Ebay Inc. Navigation for large scale graphs
US8370368B2 (en) 2007-11-15 2013-02-05 International Business Machines Corporation System and method for providing user-tailored views
US8250637B2 (en) * 2008-04-29 2012-08-21 International Business Machines Corporation Determining the degree of relevance of duplicate alerts in an entity resolution system
US8015137B2 (en) 2008-04-29 2011-09-06 International Business Machines Corporation Determining the degree of relevance of alerts in an entity resolution system over alert disposition lifecycle
US8326788B2 (en) * 2008-04-29 2012-12-04 International Business Machines Corporation Determining the degree of relevance of alerts in an entity resolution system
US20090271394A1 (en) * 2008-04-29 2009-10-29 Allen Thomas B Determining the degree of relevance of entities and identities in an entity resolution system that maintains alert relevance
US8271483B2 (en) * 2008-09-10 2012-09-18 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
US20110196872A1 (en) * 2008-10-10 2011-08-11 The Regents Of The University Of California Computational Method for Comparing, Classifying, Indexing, and Cataloging of Electronically Stored Linear Information
GB0906004D0 (en) * 2009-04-07 2009-05-20 Omnifone Ltd MusicStation desktop
US9727842B2 (en) * 2009-08-21 2017-08-08 International Business Machines Corporation Determining entity relevance by relationships to other relevant entities
US8788576B2 (en) 2010-09-27 2014-07-22 Z124 High speed parallel data exchange with receiver side data handling
US8751682B2 (en) 2010-09-27 2014-06-10 Z124 Data transfer using high speed connection, high integrity connection, and descriptor
US8499051B2 (en) * 2011-07-21 2013-07-30 Z124 Multiple messaging communication optimization
US9774721B2 (en) 2011-09-27 2017-09-26 Z124 LTE upgrade module
US9495012B2 (en) 2011-09-27 2016-11-15 Z124 Secondary single screen mode activation through user interface activation
WO2014143878A1 (en) * 2013-03-15 2014-09-18 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for recommending relationships within a graph database
EP3238095A4 (en) * 2014-12-23 2018-07-11 Microsoft Technology Licensing, LLC Surfacing relationships between datasets
US10296527B2 (en) 2015-12-08 2019-05-21 Internatioanl Business Machines Corporation Determining an object referenced within informal online communications
CN105760273A (zh) * 2016-01-29 2016-07-13 浪潮通信信息系统有限公司 一种处理指标的方法及装置
CN108073563A (zh) * 2016-11-08 2018-05-25 北京国双科技有限公司 数据的生成方法及装置
US11281993B2 (en) * 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US20230350931A1 (en) * 2019-12-20 2023-11-02 Benevolentai Technology Limited System of searching and filtering entities

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342324A (ja) * 2001-05-16 2002-11-29 Nippon Telegr & Teleph Corp <Ntt> テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2004234512A (ja) * 2003-01-31 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> トピック境界決定方法及び装置及びトピック境界決定プログラム
JP2004334766A (ja) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd 単語分類装置、単語分類方法及び単語分類プログラム
JP2005135139A (ja) * 2003-10-30 2005-05-26 Recruit Co Ltd 構造解析システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JP3195752B2 (ja) * 1997-02-28 2001-08-06 シャープ株式会社 検索装置
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
US6138113A (en) * 1998-08-10 2000-10-24 Altavista Company Method for identifying near duplicate pages in a hyperlinked database
US6473753B1 (en) * 1998-10-09 2002-10-29 Microsoft Corporation Method and system for calculating term-document importance
US6721728B2 (en) * 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US6687690B2 (en) * 2001-06-14 2004-02-03 International Business Machines Corporation Employing a combined function for exception exploration in multidimensional data
US20050120011A1 (en) * 2003-11-26 2005-06-02 Word Data Corp. Code, method, and system for manipulating texts

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342324A (ja) * 2001-05-16 2002-11-29 Nippon Telegr & Teleph Corp <Ntt> テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2004234512A (ja) * 2003-01-31 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> トピック境界決定方法及び装置及びトピック境界決定プログラム
JP2004334766A (ja) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd 単語分類装置、単語分類方法及び単語分類プログラム
JP2005135139A (ja) * 2003-10-30 2005-05-26 Recruit Co Ltd 構造解析システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017505937A (ja) * 2013-12-02 2017-02-23 ラクテン ユーエスエー インコーポレイテッド オブジェクトネットワークをモデル化するシステム及び方法
JP6034459B1 (ja) * 2015-08-14 2016-11-30 Psソリューションズ株式会社 対話インターフェース
JP2017037602A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース

Also Published As

Publication number Publication date
US7987191B2 (en) 2011-07-26
US20120054206A1 (en) 2012-03-01
WO2006133050A2 (en) 2006-12-14
US9026543B2 (en) 2015-05-05
CA2610088A1 (en) 2006-12-14
KR20080031262A (ko) 2008-04-08
AU2006255181A1 (en) 2006-12-14
CN101223525A (zh) 2008-07-16
RU2007149528A (ru) 2009-07-10
US20080162514A1 (en) 2008-07-03
CN101223525B (zh) 2012-04-25
WO2006133050A3 (en) 2007-07-12
EP1891558A2 (en) 2008-02-27

Similar Documents

Publication Publication Date Title
US9026543B2 (en) System and method for generating a relationship network
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
US9846744B2 (en) Media discovery and playlist generation
US8108417B2 (en) Discovering and scoring relationships extracted from human generated lists
US20080154886A1 (en) System and method for summarizing search results
US8108405B2 (en) Refining a search space in response to user input
US7912868B2 (en) Advertisement placement method and system using semantic analysis
US9323827B2 (en) Identifying key terms related to similar passages
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
KR20020022977A (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
WO2019142094A1 (en) System and method for semantic text search
Mohajer The Extraction of Social Networks from Web Using Search Engines
Kumar et al. Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120228