JP2006523899A

JP2006523899A - 類似性分析方法および製造品

Info

Publication number: JP2006523899A
Application number: JP2006510119A
Authority: JP
Inventors: ジャグディッシュチャンド，
Original assignee: ヤフー！インコーポレイテッド
Priority date: 2003-04-16
Filing date: 2004-04-16
Publication date: 2006-10-19
Also published as: KR20060028673A; US6873996B2; US20040210600A1; TW200511038A; WO2004095178A3; EP1616277A2; WO2004095178A8; CN1860474A; WO2004095178A2

Abstract

テキスト・アイテムを体系化するコンピュータに基づく方法であって、テキスト・アイテムの多数の個別グループを受けるステップ、前記多数の個別グループからのそれぞれの個別テキスト・アイテムに対してそれぞれの独自の整数アイテム・コードを割当てるステップ、前記多数のグループの個別グループからテキスト・アイテムのペアを識別するステップ、各それぞれのペアがそれぞれの独自の他のペアに対する順位を持つようにテキスト・アイテムのそれぞれのペアの個別のテキスト・アイテムに割当てられた独自のアイテム・コードに基づいてテキスト・アイテムのペアを整理するステップ、コンピュータ読取可能媒体中に、それぞれの識別されたペアとそれらのそれぞれの独自の順位とのそれぞれの関連を記憶するペア整理情報構造を設けるステップ、を含む前記のコンピュータに基づく方法。

Description

発明の背景
１．発明の分野
本発明は、全体として、情報分析、さらに具体的には、テキスト・アイテムのペア間の関係についての情報の体系化に関する。

２．関連技術の説明
類似性は異なるアイテム間の関連を示す尺度である。イベント、関心事、人々、または製品のようなアイテム間のありうる相関または関係を識別し、よりよく理解するために、人は、アイテム間の類似性を知りたいと欲する傾向がある。類似性は、好みを予測するのに有用でありうる。例えば、類似性は、一つの命題に関心のある人は、別の命題にも関心がありがちであると予測するのに使える。具体的には、例えば、特定の本を購入する人は、一つ以上の他の具体的な本を購入することに関心を持つ傾向があると予測したり、特定のビデオ・ゲーム・オンラインを楽しむ人は、一つ以上の他のビデオ・ゲームを楽しむことに興味を持つ傾向があると予測したりするのに、類似性が使われうる。

図１は、仮定に基づく類似性分析結果を示すコンピュータ・ユーザ・インタフェース画面の概要図である。類似性分析結果は、ホンダ・アコード・セダン、トヨタ・カムリおよびフォード・トーラスという三つの自動車間の類似性を示す。この例において、類似性分析の一次車両は、ホンダ・アコード・セダンである。画面の左部分は、類似性分析が行われる対象の車両を選択するユーザ制御ボタンを示す。この例において、類似性分析の一次車両は、ホンダ・アコード・セダンである。他の車両は、トヨタ・カムリおよびフォード・トーラスである。分析のための時間枠は、２００２年１２月である。画面の中央部の最上部は、アコード・セダンのカムリとの類似性およびアコード・セダンのトーラスとの類似性のベン図グラフを示す。アコード・セダンの円とカムリの円との重複度合が、アコード・セダンとカムリとの類似性をグラフ的に表す。同じく、アコード・セダンの円とトーラスの円との重複度合が、アコード・セダンとカムリとの類似性をグラフ的に表す。重複は、類似性の度合を表わす。画面の中央部の最下部は、三つの自動車間の類似性を示す表を提供する。チャートの最上行は、アコード・セダンのカムリとの類似性の強さの数値的尺度（２３．７％）およびアコード・セダンのトーラスとの類似性の強さの数値的尺度（３．１％）を示す。中央行は、カムリのアコードとの類似性の強さ（３０．６％）およびトーラスとの類似性の強さ（４．２％）を示す。最下行は、トーラスのアコードに対する類似性の強さ（１８．３％）およびカムリとの類似性の強さ（１９．２％）を示す。画面の右部分は、最大の類似性を有する１５車両との一次車両の類似性の強さをランク順にリストした表を示す。この例において、右の表はまた、類似性分析のために左で選択された別の各車両（すなわち、トーラス、６３番）と一次車両との類似性をリストする。この別の車両はトップ１５の類似性の中になくても示される。

類似性分析は、所与のキーワードに対する類似のキーワードを見つけるために使いうる。例えば、次のリストは、キーワード“００７”に類似の仮定類似性分析を通して見出されうるキーワードの仮定事例リストである。

（００７類似性リスト）
ジェームスボンド
ジェームスボンド００７
００７．コム
００７ボンド
ボンド００７
ジェームスボンド，００７
ボンドジェームスボンド
ジェームスボンド００７：ナイトファイア
ジェームスボンドムービーズ
００７ナイトファイア
ボンドジェームス
ボンド，ジェームス
ダイアナザデイ
ジェームスボンドウェブサイト
００７ゲームズ
ジェームスボンドキャラクターズ
ジェームスボンドナイトファイア
ナイトファイア
エージェント００７
ダイアナザデイムービー
上のキーワードの多くは、“００７”に類似のキーワードとして見つけられたものであるけれども、“００７”という用語さえ含んでいない。

類似性分析の実用の一例は、ユーザがインターネット上であるキーワードを使って検索しているかどうか、次にその他にユーザはインターネット上で何を検索しそうであるかという一般的な質問に答えることである。類似性分析は、この質問に答えるのに使える。この分析は、例えば、特定のキーワードへの類似性を有する他のキーワードのトップ１０，１００，１０００の順位付きリストを特定することができる。類似性分析はまた、ある人が花を買えば、その人は他にどんなものを買いたいと思うかという一般的な質問の答にも使える。これらのタイプの質問は、例えばクロス・セリングやマーケット・リサーチに有用である。

通常、アイテム間の類似性は、アイテムを一つ以上グルーピングする際、どれほど頻繁にアイテムが一緒になるのかに少なくとも一部は基づいて判定される。アイテムのグルーピングを定義するには沢山のやり方がある。例えば、ＩＰアドレス、取引識別（ＴＩＤ）、ＵＲＬまたは‘クッキー’に関連するコンピュータ・ネットワーク環境中で起きる可能性のあるグルーピングの数例がある。

ＩＰアドレスは、特定のユーザのコンピュータを識別するのに使える。ＴＩＤは、品物またはサービスの購入のような特定の取引を識別するのに使える。例えば、ユーザは、所与のＩＰアドレスを持ったコンピュータを使ってインターネット・アクセス可能サイトとの接続を形成し、次にインターネットを用い多数のアイテムを購入することができる。所与のＩＰアドレスは、ユーザによって一緒に購入されたアイテムのグルーピングのためのグループ識別（グループＩＤ）として役立ちうる。また、購入取引は、購入したアイテムまたはサービスを含むグルーピングのための、グループＩＤとして役立つＴＩＤを持ちうる。

キーワードのグルーピングは、ＵＲＬと関連させうる。ＵＲＬは、グールプＩＧとして役立つし、キーワードは、グルーピング中のアイテムとして役立つ。このようなキーワード・グルーピングは、例えば、キーワードが一組のＵＲＬを識別するのに使用されるようなキーワードに基づくインターネット検索の記録を保管することによって、長期間に亘って築き上げることができる。その上でユーザは一つ以上の識別されたＵＲＬをインターネット上のウェブ・ページを訪れるのに選択する。グルーピングのデータベースは、長期間に亘って開発できる。選択されたＵＲＬは、グループＩＤとして役立ち、ＵＲＬを識別するのに使われるキーワードはグルーピング内のアイテムである。

インターネット・クッキーは、グルーピングを作成するのに使用できる。クッキーは、サーバ側接続（例えば、ＣＧＩスクリプト）がクライアント側接続上の情報を記憶し検索できる汎用機構である。ＣＧＩ（共通ゲートウェイ・インタフェース）は、外部アプリケーションをＨＴＴＰまたはウェブ・サーバのような情報サーバとインタフェースするのに使用できる。単純な、永続性のある、クライアント側状況を追加すると、ウェブ基調のクライアント／サーバ・アプリケーションの能力を著しく拡大する。サーバはまた、ＨＴＴＰオブジェクトをクライアントに返すとき、一片の状況情報を送り、この情報をクライアントが保存する。その状況オブジェクトには、その状況が有効なＵＲＬの範囲の記述が含まれ、これ以降、その範囲に当てはまるＨＴＴＰリクエストをクライアントがすると、そのリクエストはすべて、そのオブジェクトの現在価値のクライアントからサーバへの伝達を含むことになる。この状況オブジェクトは、クッキーとよばれる。コンピュータのクッキー識別子は、グループＩＤとして役立ち得、そのクッキーと共に記憶される情報は、グルーピング中のアイテムとして役立つ。

インターネットは、アイテム間の類似性研究において有用なデータを集める膨大な機会を生み出した。ＩＰアドレス、ＴＤＩ、ＵＲＬまたはクッキーに基づくグルーピングのようなグルーピングを含む巨大なデータベースが開発可能である。これらのデータベースは、新しいグルーピング情報が追加されるにつれて、長期に亘って発展しうる。

類似性を判定する公知のアプローチの一つは、アイテムの発生数およびアイテムのグルーピングの発生数に基づく計算を含む。例えば、この一アプローチによれば、アイテムｔ１のアイテムｔ２との類似性は、次に関する情報を使うことができる：
Ｎ（ｔ１）：ｔ１を含むグループＩＤの数、
Ｎ（ｔ２）：ｔ２を含むグループＩＤの数、
Ｎ（ｔ１，ｔ２）：ｔ１およびｔ２の両方を含むグループＩｄの数。

アイテムｔ２ｔに対するアイテムｔ１の類似性は、以下のように計算可能である：
Ｎ（ｔ１，ｔ２）／Ｎ（ｔ１）
逆に、アイテムｔ１に対するアイテムｔ２の類似性は、以下のように計算可能である：
Ｎ（ｔ１，ｔ２）／Ｎ（ｔ２）。

類似性分析の実施への初期のアプローチは概ね成功を収めてきたが、それらの使用には欠点もあった。例えば、アイテムのグルーピングのデータベースが非常に大量化するにつれ、類似性分析の実施に伴う計算が極めて困難になりうる。例えば、所与のデータベースは、キーワードのグルーピングを含みうる。おのおのの異なるキーワードは、異なるアイテムと考えられる。おのおのの異なるグルーピングは、一つ、二つまたはいくつかのキーワードを含みうる。数百万のグルーピングおよび数百万のキーワードが存在する可能性がある。しかしながら、類似性分析の計算への上のアプローチは、一時に唯の二アイテムの類似性しか考慮しない。数百万のグルーピング中で任意の所与の二キーワードが一緒に発生する回数を追跡し続けることは、キーワードの数およびグルーピングの数が長期に亘って増加するにつれて、これまで以上に困難を伴う著しいタスクになりうる。

類似性分析での使用のためのアイテムのグループを体系化する上で改善の必要性が認められる。また、アイテム間の類似性の判定においても改善の必要性が認められる。

発明の要約
一様態において、テキスト・アイテムを体系化するコンピュータに基づく方法が提供される。この方法は、例えば、類似性分析を実施するのに有用である。テキスト・アイテムの多数の個別グループが提供される。独自の整数アイテム・コードが、個別のテキスト・アイテムに割当てられる。個別のグループからのテキスト・アイテムのペアが識別される。テキスト・アイテム・ペアは、ペアの成分テキスト・アイテムに割当てられた独自のアイテム・コードに基づいて整理される。その結果、他のテキスト・アイテム・ペアに対して各テキスト・アイテム・ペアが独自の順位を割当てられる。ペア整理情報構造が、コンピュータ読取可能媒体中に備えられ、テキスト・アイテム・ペアおよびそれらの独自順位間の関連を記憶する。

本発明の別の様態においては、アイテム・カウント情報構造で符号化されたコンピュータ読取可能媒体、コード割当情報構造およびペア・カウント情報構造を含む製造品が提供される。アイテム・カウント情報構造は、アイテムの多数のグルーピングからの多数のアイテムのそれぞれの発生回数を記憶する。コード割当情報構造は、それぞれのアイテムをそれぞれの独自整数アイテム・コードと関連付ける。ペア・カウント情報構造は、アイテムの多数のグルーピングの一つ以上の中のそれぞれのアイテム・ペアの多数のおのおののそれぞれの発生回数を示すそれぞれのペア・カウントを記憶する。個別のアイテム・ペアに対応するペア・カウントは、ペア・カウント情報構造中に、個別アイテム・ペアの成分アイテムを含むアイテム・コード情報構造中で関連するアイテム・コードから計算されるペア・コードによって索引される場所に記憶される。

本発明の別の様態は、アイテム・カウント情報構造、コード割当情報構造、ペア・コード計算プロセスを実施するためのコンピュータ・プログラム・コード、およびペア・カウント情報構造で符号化されたコンピュータ読取可能媒体を含む製造品を提供する。アイテム・カウント情報構造は、アイテムの多数のグルーピング中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶する。コード割当情報構造は、独自のアイテム・コードを有するアイテムの関連を記憶する。コンピュータ・プログラム・コードは、コード割当情報構造中で関連の独自のアイテム・コードを使った一つ以上の多数のグルーピング内のアイテムのペアのための独自の整数値ペア・コードを計算する。ペア・カウント情報構造は、一つ以上のアイテムの多数のグルーピング中のアイテムの多数のペアのおのおのの発生数を有するペア・コードのそれぞれの関連を記憶する。

本発明の他の様態においては、アイテム・コード情報構造およびペア・コード情報構造を使って類似性分析を実施するための改善されたプロセスが提供される。

アイテムのペアを表わす整数ペア・コードの使用と関連のテキスト・アイテムを表わす整数アイテム・コードの使用は、テキスト・アイテム間の関係の分析に関する情報の体系化における改善を可能にする。さらに具体的には、アイテム・コード情報構造およびペア・コード情報構造は、テキスト・アイテムのペア間の関係に関する大量の情報の体系化においてとりわけ有用である。整数アイテム・コードからの整数ペア・コードの計算は、アイテムのペア間の関連を評価することに含まれる処理を促進する。本発明のこれらのおよび他の特徴および利点は、次の詳細説明および図面から明らかになるであろう。

好ましい実施形態の詳細な説明
次の説明は、当業界の誰にでも本発明を作り、使用することができるようにするために示されており、特定の用途のコンテキストおよびそれらの必要条件の中で提供されている。好ましい実施形態へのさまざまな変更・修正は、当業者には容易に想起できるであろうし、ここに規定される一般的な原理は、本発明の精神および範囲から逸脱することなく他の実施形態および応用にも適用可能であろう。さらに、次の説明中、数々の詳細が、説明の目的で列挙されている。しかしながら、当業者の誰にでも、これらの具体的な詳細を使用しなくても本発明を実施できうることが理解されるであろう。他の例において、不必要な詳細によって本発明の説明が不明瞭にならないよう、公知の構造および装置がブロック図形式で示されている。このように、本発明は、示された実施形態のみに制限されるものではなく、ここに開示される原理および特徴と一致する最大限の範囲と一致すべきものである。
概観
本発明の本実施形態においては、テキスト・アイテムが、類似性分析における使用のために体系化されている。類似性分析の目的は、テキスト・アイテム間の類似性をこれらのグルーピングに基づいて判定することである。本発明の本実施形態は、テキスト・アイテムのペアの新規な体系化を提供することによって類似性分析を促進する。この体系化では、ペアがアイテムのグルーピングから識別され、ペアの新規な体系化が個別のペア内のテキスト・アイテムの特定に基づいて体系的に作成される。テキスト・アイテムのペアのこの新規な体系化は、その後の類似性分析を能率化する。

本実施形態によるテキスト・アイテムのペアの新規な体系化の作成は、多数のアイテム・グルーピングの個別のアイテムへの独自の整数値の割当を含む。これら独自の整数値は、アイテム・コードと呼ばれる。アイテムの多数のペアは、多数のグルーピングから識別される。テキスト・アイテムのペアは、それらのアイテム・コードに基づいて互に対して整理される。具体的には、各ペアは、他のペアの順位に対する独自の順位を有するように、テキスト・アイテムの個別のペアは、テキスト・アイテムの他のペアに対して整理される。

コンピュータ読取可能媒体中に設けられる新規なペア順位情報構造は、独自ペア順位と、所与のデータベースの発生回数のカウントのような他のデータとの間の関連を記憶できる。このようにして、アイテム・コードは、類似性分析の間、ペア順位情報構造にアクセスするために使用可能である。例えば、類似性分析の間、所与のアイテムのペアの成分アイテムのアイテム・コードは、ペア順位情報構造内の所与ペアの独自位置を判定使用されうる。この独自位置情報は、所与ペアとペア順序情報構造によって関連付けられる、カウントのような情報の所在をつきとめるのに使用可能である。

本発明の一実施形態においては、個別のテキスト・アイテムがアイテム・コードにマップされ、テキスト・アイテムの個別のアイテム・ペアは、ペア・コードと呼ばれる独自の整数値にマップされる。個別ペアの個別ペア・コードへのマッピングは、個別ペア中のテキスト・アイテムのアイテム・コードに基づいて判定される。個別ペアの順位は、対応する個別ペア・コードに依存し、後者は、個別ペアの成分アイテムのアイテム・コードに依存する。類似性分析の間、所与のアイテムのペアの成分アイテムのアイテム・コードは、独自ペア・コード所与ペアを判定使用できる。この独自位置情報は、所与のペアとペア順位情報構造によって関連付けられるカウントのような、情報の所在をつきとめるのに使用可能である。
テキスト・アイテムおよびグルーピング
ここで使われているように、テキスト・アイテムは、例えば、文字、数字、記号、またはこれらの組合せのような、一つ以上の文字のセットを含む。文字は、単語または句としての意味を持ちうるが、それ自体ではどんな具体的な意味を持つ必要がない。通常、テキスト・アイテムは、いくつかの規則によって多数のグルーピングに体系化されるが、それは本発明の部分を形成するものではない。例えば、テキスト・アイテムは、同じＩＰ（インターネット・プロトコル）アドレス、取引ＩＤ（ＴＩＤ）、ＵＲＬまたはクッキーで関連していることに基づいて一緒にグルーピングされうる。例えば、ユーザは、特定のサイトとインターネット接続をし、ユーザは、‘百科辞典’という表題の本、‘ポピュラー・ソング’というラベルのＣＤ、‘贅沢な航海’という名の旅行に参加するチケットのオンライン購入取引に参加することができる。このオンライン購入のための取引ＩＤは、三つのテキスト・アイテムと関連するであろう。一つは、‘百科辞典’というテキスト・ストリングであろう。もう一つは、‘ポピュラー・ソング’というテキスト・ストリングである。さらにもう一つは、‘贅沢な航海’というテキスト・ストリングであろう。
アイテム・コードの割当
次のものは、本発明の一実施形態によるアイテムのグルーピング内のアイテムのためのアイテム・コードの割当の一例である。この例においては、次の概要グルーピングが使われよう。
Ｇ１＝｛ｘ，ｙ，ｚ｝
Ｇ２＝｛ｘ，ｙ｝
Ｇ３＝｛ｘ，ｚ｝
説明を明瞭にするために、この例では三つだけのグルーピングが用いられているが、実際の実施においては、おそらく数百万という多数のグルーピングがありうる。Ｇ１，Ｇ２，Ｇ３は、三つの概要グループのグループ識別子である。理解されると思うが、Ｇ１，Ｇ２，Ｇ３は、異なるＩＰアドレス、ＴＤＩ、ＵＲＬ、クッキーまたはいくつかの他の形式の識別子である。さらに、例えば、Ｇ１がＩＰアドレスを識別し、Ｇ２がＴＩＤを識別し、Ｇ３がＵＲＬを識別するというように、グルーピングのタイプの混合さえもありうるであろう。アイテムｘは、テキスト・アイテムおよびＧ１，Ｇ２，Ｇ３の成分である。アイテムｙは、テキスト・アイテムおよびＧ１，Ｇ２，Ｇ３の成分である。アイテムｚは、テキスト・アイテムおよび単なるＧ１の成分である。

整数値アイテム・コードは、Ｇ１，Ｇ２，Ｇ３のテキスト・アイテムに選択的に割当てられる。例えば、アイテムｘは１を割当てられ、アイテムｙは２を割当てられ、アイテムｚは３を割当てられるかもしれない。整数アイテム・コード割当は、順番に割当てられねばならない。さらには、アイテム閾値プロセスが、アイテム・コードを割当てられるアイテムを選択するために使われるかもしれない。例えば、アイテム・コードの割当に資格を与えるために、グルーピングの少なくともいくつかの所定の最小閾値数中にアイテムが存在するということを必要とするアイテム閾値条件が、課せられるかもしれない。このようなアイテム閾値プロセスは、多数のグルーピングを介しての使用の所定のレベルを有するａアイテム・コードがアイテムにだけ割当てられるということを確保することを求める選択的な最適化である。この例においては、もしアイテム閾値が２に設定されたら、アイテムｘおよびｙはアイテム・コードを受けるであろうが、アイテムｚは受けないだろう。もし代わりにアイテム閾値が３に設定されたならば、アイテムｘのみがアイテム・コードを受けるであろう。

テキスト・アイテムと独自整数アイテム・コードを関連付けるアイテム・コード情報構造が創り出される。アイテム閾値が１に設定されていると想定すれば、この例におけるアイテムのためのありうるアイテム・コード情報構造は、次のような表になりうる。
アイテム・コード情報構造

アイテム・コード情報構造は、選択されたテキスト・アイテムの割当てられたアイテム・コードに対するマッピングを提供する。上の表は、アイテムをアイテム・コードにマップするための構造のタイプの単なる一例である。アイテム・コード情報構造は、コンピュータ読取可能媒体中に記憶されうる。
識別アイテム・ペア
次は、本発明の一実施形態による、アイテムのグルーピング内のアイテム・ペアの識別の一例である。上に示した概要グルーピングが、この例で使用される。一実施例において、ペアは、アイテム閾値プロセスを通過したアイテムだけのために識別される。もしアイテム閾値が１に設定されていたら、Ｇ１，Ｇ２，Ｇ３の識別ペアは、（ｘ，ｙ），（ｘ，ｚ），（ｙ，ｚ）となろう。もしアイテム閾値が２に設定されていたら、識別ペアは、（ｘ，ｙ）になるだろう。

本発明の一実施例によれば、アイテム・ペアは、それらの成分アイテムのアイテム・コードで表される。もしアイテム閾値は１に設定されていて、割当アイテム・コードがｘ＝１，Ｙ＝２，Ｚ＝３であれば、アイテム・ペアは、（１，２），（１，３），（２，３）で表されるであろう。もしアイテム閾値が２に設定されていて、割当アイテム・コードがｘ＝１，Ｙ＝２であれば、アイテム・ペアは、（１，２）で表されるであろう。

このようにして、アイテム・コード情報は、テキスト・アイテムをアイテム・コードに関連付ける。これらのアイテム・コードは、アイテム・ペアを表すのに使われる。下に説明の通り、アイテムのペアの独自アイテム・コードは、アイテム・ペアを整理するのに使われるので、各ペアは他のペアに対する独自順位を有する。一実施例においては、個別のペアの成分アイテムの独自アイテム・コードが、個別ペアの個別独自順位を定める個別の独自ペア・コードを計算するのに使われる。
テキスト・アイテムの整理ペア
下のチャートは、成分テキスト・アイテムのペア・コードに基づくペアの整理の例を示すので、各ペアは他のペアの他の位置に対する独自順位を有する。これらのチャートのそれぞれは、ペア中の成分アイテムのアイテム・コードに基づく異なる可能性のアイテム・ペアの整理を示す。説明の簡潔と明瞭のために、これらの例は、それぞれ、ただの６アイテムのみを含む。

これらのチャートは、アイテム・ペアの代替的な整理を示す。各チャートは、ペアの上位の、または下位の値のアイテム・コードに基づくアイテム・ペアのグルーピングを示す。具体的には、チャートの各行は、上位の、または下位の値のアイテム・コードに基づく異なるアイテム・コード・グループを保有する。各チャートはさらに、グループ化されたアイテム・ペアの所定の整理を示す。各チャートはさらに、アイテム・ペアのグループ内のペアの所定の整理を示す。

例えばチャート１を参照するに、個別チャート位置の左側の整数値は、その位置のアイテム・ペアの順位を示す。例えば、ペア（１，２）は、順位“１”にあり、ペア（２，４）は、順位“５”にある。最上行は、整数１に等しい、下位の値のアイテム・コードを有するペアのグループを有する。中間の行は、整数２に等しい、下位の値のアイテム・コードを有するペアのグループを有する。最下行は、下位の値のアイテム・コードを有するペアのグループを有する。

チャート１は、下位の値のアイテム・コードに基づいたアイテムがグループ化されるアイテム・ペアの整理を示す。例えば、アイテム・コード・ペア（１，２）の中では、１は下位の値のアイテム・コードであり、２は上位の値のアイテム・コードである。

チャート１は、小さい方の下位の値のアイテム・コードを有するグループが、上位の値のアイテム・コードを有するグループに先行する、グループの整理を示す（最上行から最下行へ読む）。このようにして、グループのペア｛（１，２），（１，３），（１，４）｝が、グループのペア｛（２，３），（２，４）｝の前（上）に整理されている。

チャート１は、小さい方の上位の値のアイテム・コードを有するペアが、大きい方の上位の値のアイテム・コードを有するペアに先行する、グループ内のペアの整理を示す（列は右から左へ読む）。このようにして、グループのペア｛（１，２），（１，３），（１，４）｝は、ペア（１，２）を最初にして、（１，３）を二番目に、（１，４）を三番目にして、整理されている。
チャート１−下位の値のグループ／小さい方の下位の値
第一グループ間順序／小さい方の上位の第一イントラ−グループ順序

チャート２は、アイテムが下位の値のアイテム・コードによってグループ化されるアイテム・ペアの整理を示す。グループは、小さい方の下位の値のアイテム・コードを有するグループが、大きい方の下位の値のアイテム・コードを有するグループに先行する（上になる）ように整理される。グループ内のペアは、大きい方の上位の値のアイテム・コードを有するペアが、小さい方の上位の値のアイテム・コードを有するペアに先行するように整理される。このようにして、グループ｛（１，４），（１，３），（１，２）｝のペアは、ペア（１，４）を第一にして、（１，３）を第二にし、（１，４）を第三にして整理される。
チャート２−下位の値のグループ／小さい方の下位の値
第一グループ間整理／大きい方の上位の第一グループ内整理

チャート３は、アイテムが上位の値のアイテム・コードを基にしてグループ化されるアイテム・ペアの整理を示す。グループは、大きい方の上位の値のアイテム・コードを有するグループが、小さい方の上位の値のアイテム・コードを有するグループに先行する（上になる）ように整理される。したがって、例えば、グループ｛（１，４），（２，４），（３，４）｝が、グループ｛（１，３），（２，３）｝に先行する。グループ内のペアは、小さい方の下位の値のアイテム・コードを有するペアが、大きい方の下位の値のアイテム・コードに先行するように整理される。したがって、例えば、グループのペア｛（１，４），（２，４），（３，４）｝は、ペア（１，４）を第一にして、（２，４）を第二にし、（３，４）を第三にして整理される。
チャート３−上位の値のグループ／大きい方の上位の値
第一グループ間整理／小さい方の下位の第一グループ内整理

チャート４は、アイテムが上位の値のアイテム・コードを基にしてグループ化されるアイテム・ペアの整理を示す。グループは、大きい方の上位の値のアイテム・コードを有するグループが、小さい方の上位の値のアイテム・コードを有するグループに先行する（上になる）ように整理される。したがって、例えば、グループ｛（３，４），（２，４），（１，４）｝が、グループ｛（２，３），（１，３）｝に先行する。グループ内のペアは、小さい方の下位の値のアイテム・コードを有するペアが、大きい方の下位の値のアイテム・コードに先行する（左から右に読んで）ように整理される。したがって、例えば、グループのペア｛（３，４），（２，４），（１，４）｝は、ペア（３，４）を第一にして、（２，４）を第二にし、（１，４）を第三にして整理される。
チャート４−上位の値のグループ／大きい方の上位の値
第一グループ間整理／大きい方の下位の第一グループ内整理

これらのチャートは、本発明の原理にしたがった、アイテム・コードに基づくアイテム・ペアの整理への単に四つの可能なシステマティックなアプローチを示す。アイテムへのアイテム・コードの割当は、アイテムのペアがそれらの成分アイテムのアイテム・コードによって表わされることを可能にする。上のチャートは、個別のアイテムと関連のアイテム・コードのペアが、そのペアを各ペアが他のペアに対して独自の順位を持つように、決定論的に整理するために使われうることを示す。意味ありげに、各個別ペアは、ペアを作り上げているアイテムに割当てられた独自のアイテム・コードのペアに基づいて決定された独自の順位を有する。
順位の計算
順位は、数学的な計算を通じて計算されうる。次のプロセスは、チャート１に示すアイテム・ペア順位を計算するのに使われる数学的な計算を含む。個別のペアの個別の順位は、個別のペアの成分アイテムに割当てられたアイテム・コードに基づいて決定される。

次のプロセスは、コンピュータ読取可能媒体中に暗号化されているコンピュータ・プログラム・コードを使って実施できる。このプロセスは、本発明の一実施形態により、所与の任意のアイテム・ペアに対する独自の整数ペア・コード値を計算する。アイテム・コードは、所与のアイテム・ペアの各アイテムのために割当てられているものと想定されている。さらに、これらのアイテムに割当てられるペア中のアイテムとアイテム・コード間の関連は、アイテム・コード情報中に記憶されているものと想定されている。さらに、ＭＡＸは、任意のアイテムに割当てられる最大のアイテム・コードであると想定されている。

イニシアル・ステップは、整理されたアイテム・コード・ペアを作り出すことであり、下位の値のアイテム・コードが第一に整理され、上位の値のアイテム・コードが第二に整理されることが想定されている。したがって、アイテム・ペア（ｔ１，ｔ２）に対しては、ｔ１に対するアイテム・コードおよびｔ２に対するアイテム・コードが、アイテム・コード情報構造から検索される。所与のアイテム・コード・ペア（ｔ１，ｔ２）に対しては、コード１は、テキスト・アイテムｔ１へ割当てられたアイテム・コードであり、コード２は、テキスト・アイテムｔ２に割当てられたアイテム・コードであることが想定されている。

ペア整理プロセスによれば、
もし（コード２＝ＭＡＸ）ならば、ペア・コード（ｔ１，ｔ２）＝コード１*ＭＡＸ−ＳＵＭ（ｘ）、ここに、コード１に対しては、ｘ＝１、
それともペア（ｔ１，ｔ２）＝（コード２−コード１）＋（コード１−１）*ＭＡＸ−ＳＵＭ（ｘ）、ここに、コード１に対しては、ｘ＝１．
チャート１のペア・コードのセット例では、ＭＡＸ＝４．
次は、チャート１のコード・ペアの代表的なサンプリングに対する、独自のペア・コードおよび対応する独自順位の計算の例である。
アイテム・コード（１，２）のペアに対しては、コード２＝２．したがって、（１，２）に対しては、コード２≠ＭＡＸ。したがって、ペア・コード（１，２）＝（２−１）＋（１−１）ｘ４−（０）＝１．
アイテム・コード（２，３）のペアに対しては、コード２＝３．したがって、（２，３）に対しては、コード２≠ＭＡＸ。したがって、ペア・コード（２，３）＝（３−２）＋（２−１）ｘ４−（１）＝４．
アイテム・コード（２，４）のペアに対しては、コード２＝４．したがって、（２，４）に対しては、コード２＝ＭＡＸ。したがって、ペア・コード（２，４）＝（２ｘ４）−（１＋２）＝５．
この計算プロセスは、アイテム・ペアに関する情報のデータタベースを構築するに使われうる。この同じ計算プロセスは、アイテム・ペアに関する記憶された情報を検索するためのその情報のデータベースにアクセスするのに使われうる。データベースが構築される間、計算プロセスを通じて計算されたペア・コードは、個別のアイテム・ペアと関連の情報が記憶されるべき記憶媒体中の位置を判定するために使われうる。引き続いて、実際の個別アイテム・ペアのための情報が、それらのペア・コードにより判定されるメモリ・ロケーション中に記憶されていると仮定すると、同じ計算プロセスが、所与のアイテム・ペアのためのペア・コードを、アイテム・ペアに関連の情報の記憶媒体を突き止め、そこから検索するために計算するのに使用可能である。勿論、情報のデータベースは、連綿と構築され、更新されうることは理解されよう。したがって、連続的な構築と検索は、同時進行的に発生しうる。

さらに、この計算プロセスは、非常に効率的に検索されうるアイテム・ペア情報のデータベースを作成するのに使われうる。上に説明のとおり、独自のペア・コードは、アイテム・ペア情報の独自の順位を表わしうる。本発明の一様態に従って、ペア順位は、計算プロセスに基づいて判定され、アイテム・ペア関連情報は、コンピュータ読取可能媒体中に順位順に記憶される。その結果、線形走査タイプ・プロセスが、アイテム・ペア関連情報を突き止めるのに、より容易に使いうる。情報検索の間、アイテム・ペア関連情報を検索するためにアクセスすべきロケーションは、計算プロセスを使って計算される。もしアイテム・ペア情報が、計算プロセスによって判定される独自の順位で記憶されるならば、計算プロセスは、記憶媒体内でアクセスされるべきロケーションの線形シーケンスを計算するのに使用されうる。

例えば、チャート１の仮定な例を参照すれば、最上行のアイテム・コードとペア・コードとの間の相関関係は、次のようになる。
アイテム・コード・ペア（１，２）→ペア・コード＝１
アイテム・コード・ペア＝（１，３）→ペア・コード＝２
アイテム・コード・ペア＝（１，４）→ペア・コード＝３
ペア・コードとメモリ・アドレス・ロケーションとの間の相関関係は、次のようである。
ペア・コード＝１→メモリ・ロケーション１０００
ペア・コード＝２→メモリ・ロケーション１００１
ペア・コード＝３→メモリ・ロケーション１００２
したがって、アイテム・コード＝１を有するアイテムと関連の全てのペア関連情報は、ロケーション１０００で始まり、１００１が続き、１００２で終わる記憶媒体の線形走査検索を通じてアクセスされうる。

上の例のチャートは、それぞれ単に６アイテム・コード・ペアおよび単に６対応ペア・コードを含んでいる。実際の実施においては、数百万のアイテムおよび数百万のペアが存在しうる。アイテム・ペアを整理するためのプロセスはスケイラブルであるから、同じベーシック・ペア整理プロセスが、アイテム・ペア順位および多数のペアのためのアイテム・ペア・コードを判定するのに使用可能である。事実、ペアを整理し、効率的な情報記憶戦略を達成する上でのこのプロセスの利点は、アイテムおよびペアの数の増加に伴ってさらに明らかになる。

チャート１−４が本発明の原理に従うペアの四つの可能な整理の例を提供する間、当業者は、他の整理も本発明の範囲の中で、また可能であることを理解するであろう。さらに、具体的な計算プロセスがチャート１の例の整理のためのペア・コードを計算するために記述される間、当業者が類似の計算原理がチャート２−４の中に示されるタイプのペア整理のための計算プロセスに到着するために適用されうることが容易に理解されるものと信ずる。
類似性分析情報の体系化
図２は、本発明の原理が適用できうる一つのインターネット計算コンテキストを示す概要ブロック図である。サーバ・システム２０は、多数のインターネット接続コンピュータ・デバイス２２，２４，２８とインターネット３０を介して通信する。サーバ２０は、例えば、ヤフー・サイト：ｗｗｗ．ｙａｈｏｏ．ｃｏｍおよび全てのヤフーのプロパティのようなインターネット・ポータルでありうる。コンピュータ（２２−２８）からのユーザは、例えば、検索、メール・ファイナンスなどの様々な情報およびサービスを得るために、このサイトへ来る。例えばコンピュータ・デバイス２２−２８は、サーバ２０からインターネットを介してコンピュータおよびアクセス情報にログインするために使用される任意のユーザ・デバイスでもよい。

サーバ２０は、インターネット３０を介するコンピュータ２２−２８との相互作用を通じてテキスト・アイテムのグルーピングを集める。図２には、四つの代表的なコンピュータ２２−２８が示されているのみであるが、サーバ２０は、毎日数百万のコンピュータと通信しうる。例えば、コンピュータ２２−２８は、情報またはサービスを求める様々なリクエストを出しうる。これらのリクエストは、上に説明のようなテキスト・アイテムのグルーピングを含みうる。サーバは、類似性分析に有用な情報のデータベースを創造するために、これらのグルーピングを処理できる。

ユーザ・コンピュータ２２−２８からのテキスト・アイテムのグルーピングは、類似性分析に有用な情報のデータベースを作成するために処理される入力データを構成する。グルーピング中のアイテムは識別される。アイテムには、アイテム・コードが割当てられる。例えば、次のテキスト・アイテムのおのおのには、分離アイテム・コードが割当てられる。
ホンダ
ホンダ・モータ
ホンダ・モータ会社
上に説明の通り、アイテム・コードが割当てられない最小用途のアイテムを除去するためには、閾値プロセスが使用されうる。アイテムおよびそれらの割当アイテム・コード間の関連を記憶するコンピュータ読取可能媒体中に、アイテム・コード情報構造が創り出される。

加えて、入力データ中のグルーピング中のアイテムのペアが識別される。ペア・コードは、アイテム・コードの対応ペアが割当てられたアイテムの選択されたペアに対して計算される。チャート１に関連する上に述べた計算プロセスは、アイテム・コードからのペア・コードを計算するために使用されうる。

図３は、コンピュータ読取可能媒体中に類似性分析のための情報構造を生成するためにアイテム・コードおよびペア・コードを使うプロセス３８を示す概要フロー・ダイヤグラムである。ステップ４０において、アイテム名がコードおよびカウントにマップされるアイテム・カウント・ハッシュ構造が設けられる。閾値を超えるアイテムのみがこのハッシュ構造中に置かれるように、この段階で、閾値が適用できる。本実施形態において、アイテム・カウント・ハッシュ構造は、アイテム・コードおよびアイテム・カウントを有するハッシュ・テーブルを含む。ステップ４２において、アイテム・ペア・カウントにペア・コードがマップされる、ペア・カウント・ハッシュ構造が設けられる。本実施形態において、ペア・カウント・ハッシュ構造は、ペア・コードおよびペア・カウントを有するハッシュ・テーブルを含む。

ステップ４４において、入力データが走査される。アイテムの各識別されたグルーピングに対して、グループ中のアイテムのためのアイテム・コードが存在するかどうかに関する判定がなされる。アイテム・コードがすでに存在するアイテムに対しては、アイテム・コード・カウント・ハッシュ構造中の対応するアイテム・コード・カウントが、インクリメントされる。本実施形態においては、アイテム・コードがまだ存在しないアイテムは、閾値の下にあり、分析のためには有意ではないので無視される。

ステップ４６において、入力データが走査される。アイテムの各識別されたグルーピングに対して、グルーピング中の各アイテムのためのアイテム・コードが識別され、ペア・コードがグループ中で識別された各アイテム・ペアに対して計算される。チャート１に関連して上に述べたような計算プロセスが、ペア・コードを計算するために使われる。

入力データ中のおのおののそのようなグルーピングに対しては、ペア・カウント・ハッシュ構造が、次のように更新される。ステップ４８において、ペア・コードがすでにペア・カウント・ハッシュ構造にエンターされているかどうかについての判定が行われる。もし所与のアイテム・ペアに対するペア・コードがペア・カウント・ハッシュ構造中にすでに存在するならば、ステップ５０において、その既存ペア・コードに対応するカウントが、一つだけインクリメントされる。もし存在しなければ、ステップ５２において、ペア・カウント・ハッシュ構造中のエントリ数が、許されるエントリ数の最大数より小さいかどうかの判断が行われる。もしそれが最大より小さければ、ステップ５４において、新しいペア・コードが、関連カウント＝１の構造に追加される。エントリ数が最大に等しい（または超える）ときには、ステップ５６において、ペア・カウント・ハッシュ構造中の全てのエントリが、ペア・コードによって、ペア・カウント中間情報構造にソートされる。ペア・カウント・ハッシュ構造はクリアされ、新しいペア・コードは、関連カウント＝１エントリに沿って、新しくクリアされた構造に加えられる。

上述のこのプロセスは、入力データ中の全てのグルーピングが処理されるまで繰り返される。入力データの走査が完了したら、アイテム・カウント・ハッシュ構造中の全てのアイテム関連情報が、アイテム・カウント構造に書き込まれる。同様にして、入力データの走査が完了すると、ペア・カウント・ハッシュ構造中のすべてのペア関連情報は、ペア・カウント中間情報構造に書き込まれる。その上で、すべてのペア・カウント中間情報構造は合併し、閾値を超えるカウントを有するペアは、ペア・カウント情報構造に、ペア・コードでソートされて、書き込まれる。

次のテーブルは、図３のプロセスによって生成されうる、アイテム・コード構造およびペア・カウント情報構造の例である。これらの構造に含まれる情報は、サーバでアクセスされるコンピュータ読取可能媒体中にエンコードされる。これらの構造は、説明のために創り出された、単に仮定的な例であることが理解されよう。さらに、説明の簡潔のために、単に数個のアイテムおよびペアが、これらの構造中にリストされている。しかしながら、当業者には、同じ原理が大量のアイテムおよびペアに適用されることが理解されよう。
アイテム・コード構造

アイテム・カウント情報構造

ペア・カウント情報構造

類似性分析例
上述の例の情報構造は、類似性分析を行うのに使用可能である。

例えば、これらの構造を使って、テキスト・アイテムＡのテキスト・アイテムＢに対する類似性は、次のように判定される。この例の目的のために、ＡのＢに対する類似性は、カウント（Ａ，Ｂ）／カウントＡとして定義される。

アイテム・コード情報構造から、テキスト・アイテムＡおよびＢのためのアイテム・コードを検索せよ。Ａに対するアイテム・コードは、１である。Ｂに対するアイテム・コードは、２である。アイテム・コードをアイテム・コード情報構造への指標として使い、Ａに対するアイテム・カウントを検索せよ。Ａに対するアイテム・カウントは、１０である。ＡおよびＢのためのアイテム・コードのペア、すなわち、アイテム・コード・ペア（１，２）を使って、アイテム・ペア（Ａ，Ｂ）に対するペア・コードを計算するために、計算プロセスを使え。この例において、計算プロセスは、ペア・コード１を生み出す。計算されたペア・コード１をペア・カウント情報構造への指標として使い、ペア・コード１に対するペア・カウントを検索せよ。検索されたペア・カウントは５であり、これは（Ａ，Ｂ）のペア・カウントが５であることを意味する。したがって、ＡのＢに対する類似性は、５／１０＝０．５となる。

逆に、例えば、これらの構造を使って、テキスト・アイテムＢのテキスト・アイテムＡに対する類似性は、同じ手続を使って判定されうる。この例の目的のために、ＡのＢに対する類似性は、カウント（Ａ，Ｂ）／カウントＢとして定義される。上述の構造の例が使用され、カウントＢ＝２０、およびカウント（Ａ，Ｂ）＝５と確認される。したがって、ＢのＡに対する類似性は、５／２０＝０．２５である。

当業者には、類似性情報が分析可能であることが理解されよう。例えば、ＡのＢに対する類似性およびＢのＡに対する類似性の比較は、どのアイテムが最も意味があるかを決めることでありうる。例えば、類似性情報は、類似性によってソートして、所与のアイテムに対する高い類似性を有するアイテムのリストを得るのに使用可能である。例えば、左側のテーブル中の図１には、一次モデルに対する類似性を有するカー・モデルのリストがある。この例においては、類似性が、一次モデルがアイテムの一つになって、全てのペアに対して計算される。その上でこれらのアイテムは、類似性によってソートされる。本発明の本インプリメンテーションを使って、一つの走査で全ての分析が行える。

本発明による好ましい実施形態の前述の記述および図面は、本発明の原理の単なる概要である。本発明の精神および範囲から逸脱することなく、当業者によって様々な変更・修正が可能である。

図１は、仮定的な類似性分析結果を示すコンピュータ・ユーザ・インタフェース画面の概要図である。図２は、本発明の原理が適用できる、一つのインターネット環境コンテキストを示す概要的なブロック図である。図３は、本発明の一実施形態による使用のために、コンピュータ読取媒体中に情報構造を創り出すプロセスを示す概要的なフロー図である。

Claims

コンピュータに基づくテキスト・アイテム体系化の方法であって、
テキスト・アイテムの多数の個別グループを受けるステップ、
前記多数の個別グループからのそれぞれの個別テキスト・アイテムにそれぞれの独自の整数アイテム・コードを割当てるステップ、
前記多数のグループの個別グループからのテキスト・アイテムのペアを識別するステップ、
各ペアがそれぞれ、他のペアに対するそれぞれの独自の順位を有するようにテキスト・アイテムのそれぞれのペアの個別のテキスト・アイテムに割当てられた前記の独自のアイテム・コードに基づいてテキスト・アイテムのペアを整理するステップ、および
それぞれの識別されたペアとそれらのそれぞれの独自の順位との間のそれぞれの関連を記憶するペア整理情報構造をコンピュータ読取可能媒体中に設けるステップ、
を含む、前記の方法。
請求項１の方法であって、テキスト・アイテムの整理ペアがさらに、
それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの下位の値のアイテム・コード値および上位の値のアイテム・コード値を識別するステップと、
それぞれの個別テキスト・アイテムに割当てられた同一の下位値アイテム・コード、またはそれぞれの個別テキスト・アイテムに割当てられた同一の上位値アイテム・コードのうち所定の一つを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
ペアの前記それぞれのグループのそれぞれの個別テキスト・アイテムに割当てられた、それぞれの下位値アイテム・コードまたは上位値アイテム・コードの前記所定の一つに基づいて所定の一つの所定の数値順でペアの前記それぞれの識別されたグループを整理するステップ、および
ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられた前記下位値アイテム・コードまたは前記上位値アイテム・コードの一つに基づいて所定の数値順に、ペアのそれぞれのグループ内のそれぞれのペアを整理するステップ、
によってそれぞれの識別されたペアのそれぞれの順位を判定するステップと、
を含む、前記の方法。
請求項２の方法であって、さらに、
それぞれの順位に従って数値順になっているそれぞれのペアにそれぞれの独自の整数ペア・コード値を割当てるステップ、
を含む、前記の方法。
請求項２の方法であって、前記方法は、さらに、
それぞれの順位に従って数値順になっているそれぞれのペアにそれぞれの独自の整数ペア・コード値を割当てるステップを含み、
前記ペア順序情報構造が、それぞれの識別されたペアとそれらに割当てられたそれぞれの独自のペア・コード値との間のそれぞれの関連を記憶する、前記の方法。
請求項１の方法であって、前記方法はさらに、
コンピュータ読取可能媒体中に、割当てられた独自の整数アイテム・コードにテキスト・アイテムを関連させるアイテム・コード情報構造を設けるステップを含む、前記の方法。
請求項２の方法であって、前記方法は、さらに、
コンピュータ読取可能媒体中に、割当てられた独自の整数アイテム・コードにテキスト・アイテムを関連させるアイテム・コード情報構造を設けるステップ、および
それぞれの独自の整数ペア・コード値を、当該順位に従って数値順になっている、それぞれのペアに割当てるステップを含み、
前記ペア順序情報構造が、それぞれの識別されたペアとそれらに、割当てられたそれぞれの独自のペア・コード値との間のそれぞれの関連を記憶する、前記の方法。
請求項１の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
それぞれのペアのそれぞれの個別テキスト・アイテムに割当てられた、それぞれの下位の値のアイテム・コード値および上位の値のアイテム・コード値を識別するステップと、
それぞれの個別のテキスト・アイテムに割当てられた同一の下位値アイテム・コード、またはそれぞれの個別のテキスト・アイテムに割当てられた同一の上位値アイテム・コードのうち所定の一つを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
ペアの前記それぞれのグループのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの下位値アイテム・コードまたは上位値アイテム・コードの前記所定の一つに基づいて所定の数値順に、ペアの前記それぞれの識別されたグループを整理するステップ、および
ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられた下位値アイテム・コードまたは上位値アイテム・コードの他方のコードに基づいて、所定の数値順に、ペアのそれぞれのグループ内のそれぞれのペアを整理するステップによって、
それぞれの識別されたペアのそれぞれの順位を判定するステップと、
を含む、前記の方法。
請求項６の方法であって、
前記所定の一つがそれぞれの下位値アイテム・コードであり、
前記他方のコードが前記上位値アイテム・コードである、前記の方法。
請求項６の方法であって、
前記所定の一つがそれぞれの上位値アイテム・コードであり、
前記他方のコードが前記下位値アイテム・コードである、前記の方法。
請求項１の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
それぞれの個別のテキスト・アイテムに割当てられた同一の下位値アイテム・コードを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
ペアの前記それぞれのグループのそれぞれの個別のテキスト・アイテムに割当てられた前記それぞれの下位値アイテム・コードに基づいて、所定の数値順で、ペアの前記それぞれの同一のグループを整理するステップ、および
ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられたそれぞれの上位値アイテム・コードに基づいて、所定の数値順で、ペアのそれぞれのグループ内のそれぞれのペアを整理するステップ、によって
それぞれの識別されたペアのそれぞれの順位を判定するステップと、
それぞれの独自の整数ペア・コード値を前記それぞれのペアに、それらのそれぞれの順位に従う数値順に割当てるステップであって、
前記ペア順序情報構造が、それぞれの識別されたペアとそれらに割当てられたそれぞれの独自のペア・コード値との間のそれぞれの関連を記憶するステップと、
コンピュータ読取可能媒体中に、テキスト・アイテムと、割当てられた独自の整数アイテム・コードとを関連付けるアイテム・コード情報構造を設けるステップと、
を含む、前記の方法。
請求項１の方法であって、テキスト・アイテムのペアを整理するステップが、さらに
それぞれのペアのそれぞれの個別テキスト・アイテムに割当てられた、それぞれの下位値アイテム・コード値および上位値アイテム・コード値を識別するステップと、
それぞれのテキスト・アイテムに割当てられた同一の下位値アイテム・コード、またはそれぞれのテキスト・アイテムに割当てられた同一の上位値アイテム・コードの所定の一つを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップ、および
もし前記の所定の一つが同一の下位値アイテム・コードであれば、
各ペアが、小さい方の下位値アイテム・コードを有するペアのグループの値より大きく、大きい方の下位値アイテム・コードを有するペアのグループの値より小さい割当てられたペア・コード値を有するように、および
各ペアが、小さい方の上位値アイテム・コードを有するペアのそのグループ中のペアの値より大きく、大きい方の上位値アイテム・コードを有するペアのそのグループ中のペアの値より小さい割当てられたペア・コード値、を有するように、ならびに
もし前記所定の一つが同一の上位値アイテム・コードであれば、
各ペアが、大きい方の上位値アイテム・コードを有するペアのグループの値より小さく、小さい方の上位値アイテム・コードを有するペアのグループの値より大きい割当てられたペア・コード値を有するように、および
各ペアが、大きい方の下位値アイテム・コードを有するペアのそのグループ中のペアの値より小さく、小さい方の下位値アイテム・コードを有するペアのそのグループ中のペアの値より大きい割当てられたペア・コード値を有するように、
それぞれの独自の整数ペア・コード値を前記ペアに割当てることによって、
それぞれの識別されたペアのそれぞれの順位を判定するステップと、
を含む、前記の方法。
請求項１の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられた、それぞれの下位値アイテム・コード値および上位値アイテム・コード値を識別するステップと、
それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられた、それぞれの下位値アイテム・コード値および上位値アイテム・コード値を識別するステップと、
それぞれのテキスト・アイテムに割当てられた同一の下位値アイテム・コードを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
各ペアが、小さい方の下位値アイテム・コードを有するペアのグループのそれより大きな割当てられたペア・コード値、および上位の下位値アイテム・コードを有するペアのグループのそれより小さな割当てられたペア・コード値を持つように、および
各ペアが、小さい方の上位値アイテム・コードを有するペアのそのグループ中のペアのそれより大きな割当てられたペア・コード値、および大きな方の上位値アイテム・コードを有するペアのそのグループ中のペアのそれより小さな割当てられたペア・コード値を持つように、
前記のペアに独自の整数ペア・コード値を割当てるステップと、
を含む、前記の方法。
請求項１の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの独自のアイテム・コードに基づいて、それぞれのペア・コードのそれぞれの独自の順位を判定する数学的な計算を行うステップを含む、前記の方法。
請求項１の方法であって、テキスト・アイテムのペアを整理するステップが、それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの独自のアイテム・コードに基づいて、それぞれのペア・コードのそれぞれの独自の順位を判定する数学的な計算を行うステップを含み、
前記のペア順序情報構造が、それぞれの識別されたペアとそれらのそれぞれの判定された独自のペア・コード値との間のそれぞれの関連を記憶する、前記の方法。
請求項１の方法であって、
受けるステップが、コンピュータ・ネットワークからのテキスト・アイテムの前記多数の個別のグループを受けるステップを含む、前記の方法。
テキスト・アイテムを体系化するコンピュータに基づく方法であって、
テキスト・アイテムの個別の多数のグループを受けるステップと、
前記多数の個別のグループからのそれぞれの個別のテキスト・アイテムにそれぞれの独自の整数値アイテム・コードを、割当てるステップと、
割当てられた独自の整数アイテム・コードにテキスト・アイテムを関連付けるアイテム・コード情報構造をコンピュータ読取媒体中に設けるステップと、
前記多数のグループの個別のグループからのテキスト・アイテムのペアを識別するステップと、
ペアの前記それぞれのグループのそれぞれの個別のテキスト・アイテムに割当てられた、それぞれの下位値アイテム・コードまたは上位値アイテム・コードの所定の一つに基づいて、前記所定の数字順でペアの前記それぞれの識別されたグループを整理するステップ、および
ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられた前記下位値アイテム・コードまたは前記上位値アイテム・コードの一つに基づいて所定の数値順でペアのそれぞれのグループ内のそれぞれのペアを整理するステップによって、
それぞれの識別されたペアのそれぞれの順位を判定するステップと、
前記それぞれの独自の整数ペア・コード値をそれぞれのペアに、それらのそれぞれの順位に従う数値順で割当てるステップと、
それぞれの識別されたペアとそれらのそれぞれのペア・コード値との間のそれぞれの関連を記憶するペア順序情報構造をコンピュータ読取媒体中に設けるステップと、
を含む、前記の方法。
テキスト・アイテムを体系化するコンピュータに基づく方法であって、
テキスト・アイテムの多数の個別のグループを受けるステップと、
それぞれの独自の整数アイテム・コードを前記の多数の個別グループからのそれぞれの個別のテキスト・アイテムに割当てるステップと、
割当てられた独自の整数値アイテム・コードにコンピュータ読取可能媒体中にテキスト・アイテムを関連付けるアイテム・コード情報構造を設けるステップと、
前記多数のグループの個別のグループからテキスト・アイテムのペアを識別するステップと、
それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられるそれぞれの独自のアイテム・コードに基づいて、それぞれのペア・コードのそれぞれの独自の順位を判定する数学的な計算を行うことによってテキスト・アイテムのペアを整理するステップ、および
コンピュータ読取り可能媒体中に、それぞれの識別されたペアとそれらのそれぞれの判定された独自のペア・コード値との間の、それぞれの関連を記憶するペア順序情報構造を設けるステップと、
を含む、前記の方法。
アイテムの多数のグループ中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造、
それぞれのアイテムをそれぞれの独自の整数アイテム・コードに関連付けるコード割当情報構造、および
アイテムの前記多数のグループの一つ以上の中の多数のそれぞれのアイテム・ペアのおのおののそれぞれの発生回数を示すそれぞれのペア・カウントを記憶するペア・カウント情報構造、
を含んでコード化されたコンピュータ読取可能媒体を含む製造品であって、
それぞれのペア・カウントが、前記アイテム・コード情報機構中でそれぞれのアイテム・ペアのそれぞれの成分アイテムと関連付けられるそれぞれのアイテム・コードから計算されたそれぞれのペア・コードによって検索されるロケーションにおけるペア・カウント情報構造中にそれぞれ記憶される、前記の製造品。
アイテムの多数のグループ中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造、
それぞれのアイテムとそれぞれの独自の整数アイテム・コードとのそれぞれの関連を記憶するコード割当情報構造、
前記コード割当情報構造中で関連付けられるそれぞれの独自のアイテム・コードを使って、一つ以上の前記それぞれの多数のグルーピング内のアイテムのそれぞれのペアについて、それぞれの独自の整数値ペア・コードを計算するペア・コード計算プロセスを行うコンピュータ・プログラム・コード、および
アイテムの前記多数のグルーピングの個別のものの中のアイテムの多数のそれぞれのペアのおのおののそれぞれの発生回数とそれぞれのペア・コードとのそれぞれの関連を記憶するペア・カウント情報構造、
を含んでコード化されるコンピュータ読取可能媒体、
を含む、製造品。
請求項１９の製造品であって、
前記アイテム・カウント情報構造が、アイテムの多数のグルーピングの個別のものの中での多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶する、製造品。
請求項１９の製造品であって、
前記アイテム・カウント情報構造が、アイテム・カウント・ハッシュ・テーブルを含み、
前記ペア・カウント情報構造が、ペア・カウント・ハッシュ・テーブルを含む、製造品。
請求項１９の製造品であって、
前記アイテム・カウント情報構造および前記コード割当情報構造が、一つの情報構造に組合されている、製造品。
請求項１９の製造品であって、
前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定の数値順序で、それぞれのペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、製造品。
請求項１９の製造品であって、
前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定のシーケンス数値順序で、それぞれのペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、製造品。
請求項１９の製造品であって、
前記コンピュータ読取可能媒体が、さらに、
アイテムの前記多数のグルーピングのアイテムの選択されたペア間の類似性を、前記アイテム・カウント情報構造によって関連付けられるカウントと、前記ペア・カウント情報構造によって前記選択されたペアに関連付けられるカウントを有する前記選択されたペアの前記アイテムの一つとを比較することによって判定するための類似性判定プロセスを含んでコード化されている、製造品。
テキスト・アイテム間の類似性を判定する方法であって、
アイテムの多数のグルーピングの個別のものの中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
それぞれの独自の整数アイテム・コードとそれぞれのアイテムとのそれぞれの関連を記憶するアイテム・コード割当情報構造をコンピュータ読取可能媒体中に設けるステップ、
アイテムの前記の多数のグルーピングの一つ以上の中のアイテムの多数のそれぞれのペアのおのおののそれぞれの発生回数とそれぞれの独自の整数値ペア・コードとのそれぞれの関連を記憶するペア・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
二つのテキスト・アイテムからなるアイテムのペアを指定するステップ、
前記アイテム・コード割当情報構造を使って、前記指定されたペアの前記の二つの指定されたテキスト・アイテムについて二つのアイテム・コードを判定するステップ、
前記判定された二つのアイテム・コードを使って、前記指定されたペアのテキスト・アイテムの前記指定されたペアについてそれぞれの独自の整数値ペア・コードを計算するステップ、
前記アイテム・カウント情報構造を検索するために、前記判定されたアイテム・コードの少なくともそれぞれの一つを使って、前記指定されたペアの前記二つの指定されたアイテムの少なくともそれぞれの一つについてアイテム・カウントを判定するステップ、
前記ペア・カウント情報構造を検索するために、前記計算された独自の整数値ペア・コードを使って、ペア・カウントを判定するステップ、および
前記判定された少なくとも一つのアイテム・カウントを前記判定されたペア・コード・カウントと比較するステップ
を含む、前記の方法。
請求項２６の方法であって、
前記ペア・カウント情報構造が、ペア・コード整数値に基づいて所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、前記の方法。
請求項２６の方法であって、
前記ペア・カウント情報構造が、ペア・コード整数値に基づいて所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶し、
前記のペア・カウントを判定するステップが、前記の計算された独自の整数値ペア・コードへの一致を検索するために、前記所定のシーケンス数値順序で前記のペア・カウント情報構造の少なくとも一部を走査するステップを含む、前記の方法。
テキスト・アイテム間の類似性を判定する方法であって、
アイテムの多数のグルーピングの個別のものの中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
それぞれのアイテムとそれぞれの独自の整数アイテム・コードとのそれぞれの関連を記憶するアイテム・コード割当情報構造をコンピュータ読取可能媒体中に設けるステップ、
それぞれの独自の整数値ペア・コードと、アイテムの一つ以上の前記多数のグルーピング中のアイテムの多数のそれぞれのペアのおのおののそれぞれの発生回数とのそれぞれの関連を記憶するペア・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
各二つのそれぞれのテキスト・アイテムからなるアイテムの複数のそれぞれのペアを指定するステップ、
前記アイテム・コード割当情報構造を使って、二つのそれぞれの指定されたテキスト・アイテムの各ペアについて、二つのそれぞれのアイテム・コードをそれぞれに判定するステップ、
それぞれの判定された二つのアイテム・コードを使って、テキスト・アイテムの各それぞれの指定されたペアについて、それぞれの独自の整数値ペア・コードをそれぞれに計算するステップ、
前記アイテム・カウント情報構造を検索するために、各それぞれのペアについてそれぞれの二つの指定されたアイテムのそれぞれの一つについて、前記それぞれの一つを使って、それぞれのアイテム・カウントをそれぞれに判定するステップ、
前記ペア・カウント情報構造を検索するために、それぞれの計算された独自の整数値ペア・コードを使って、各それぞれのペアについてそれぞれのペア・カウントをそれぞれに判定するステップ、
それぞれの個別の類似性を生成するために、前記それぞれの判定された少なくとも一つのアイテム・カウントと、前記それぞれの判定されたペア・コード・カウントとを各それぞれのペアについてそれぞれに比較するステップ、および
前記個別の類似性を比較するステップ、
を含む、前記の方法。
請求項２９の方法であって、
前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、前記の方法。
請求項２９の方法であって、
前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶し、
それぞれのペア・カウントをそれぞれに判定するステップが、それぞれの計算された独自の整数値ペア・コードに対するそれぞれのマッチを検索するために、前記所定のシーケンス数値順序で、前記ペア・カウント情報構造の少なくとも一部分をそれぞれに走査するステップを含む、前記の方法。