JP2006523899A - 類似性分析方法および製造品 - Google Patents

類似性分析方法および製造品 Download PDF

Info

Publication number
JP2006523899A
JP2006523899A JP2006510119A JP2006510119A JP2006523899A JP 2006523899 A JP2006523899 A JP 2006523899A JP 2006510119 A JP2006510119 A JP 2006510119A JP 2006510119 A JP2006510119 A JP 2006510119A JP 2006523899 A JP2006523899 A JP 2006523899A
Authority
JP
Japan
Prior art keywords
pair
item
code
value
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006510119A
Other languages
English (en)
Inventor
ジャグディッシュ チャンド,
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2006523899A publication Critical patent/JP2006523899A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

テキスト・アイテムを体系化するコンピュータに基づく方法であって、テキスト・アイテムの多数の個別グループを受けるステップ、前記多数の個別グループからのそれぞれの個別テキスト・アイテムに対してそれぞれの独自の整数アイテム・コードを割当てるステップ、前記多数のグループの個別グループからテキスト・アイテムのペアを識別するステップ、各それぞれのペアがそれぞれの独自の他のペアに対する順位を持つようにテキスト・アイテムのそれぞれのペアの個別のテキスト・アイテムに割当てられた独自のアイテム・コードに基づいてテキスト・アイテムのペアを整理するステップ、コンピュータ読取可能媒体中に、それぞれの識別されたペアとそれらのそれぞれの独自の順位とのそれぞれの関連を記憶するペア整理情報構造を設けるステップ、を含む前記のコンピュータに基づく方法。

Description

発明の背景
1.発明の分野
本発明は、全体として、情報分析、さらに具体的には、テキスト・アイテムのペア間の関係についての情報の体系化に関する。
2.関連技術の説明
類似性は異なるアイテム間の関連を示す尺度である。イベント、関心事、人々、または製品のようなアイテム間のありうる相関または関係を識別し、よりよく理解するために、人は、アイテム間の類似性を知りたいと欲する傾向がある。類似性は、好みを予測するのに有用でありうる。例えば、類似性は、一つの命題に関心のある人は、別の命題にも関心がありがちであると予測するのに使える。具体的には、例えば、特定の本を購入する人は、一つ以上の他の具体的な本を購入することに関心を持つ傾向があると予測したり、特定のビデオ・ゲーム・オンラインを楽しむ人は、一つ以上の他のビデオ・ゲームを楽しむことに興味を持つ傾向があると予測したりするのに、類似性が使われうる。
図1は、仮定に基づく類似性分析結果を示すコンピュータ・ユーザ・インタフェース画面の概要図である。類似性分析結果は、ホンダ・アコード・セダン、トヨタ・カムリおよびフォード・トーラスという三つの自動車間の類似性を示す。この例において、類似性分析の一次車両は、ホンダ・アコード・セダンである。画面の左部分は、類似性分析が行われる対象の車両を選択するユーザ制御ボタンを示す。この例において、類似性分析の一次車両は、ホンダ・アコード・セダンである。他の車両は、トヨタ・カムリおよびフォード・トーラスである。分析のための時間枠は、2002年12月である。画面の中央部の最上部は、アコード・セダンのカムリとの類似性およびアコード・セダンのトーラスとの類似性のベン図グラフを示す。アコード・セダンの円とカムリの円との重複度合が、アコード・セダンとカムリとの類似性をグラフ的に表す。同じく、アコード・セダンの円とトーラスの円との重複度合が、アコード・セダンとカムリとの類似性をグラフ的に表す。重複は、類似性の度合を表わす。画面の中央部の最下部は、三つの自動車間の類似性を示す表を提供する。チャートの最上行は、アコード・セダンのカムリとの類似性の強さの数値的尺度(23.7%)およびアコード・セダンのトーラスとの類似性の強さの数値的尺度(3.1%)を示す。中央行は、カムリのアコードとの類似性の強さ(30.6%)およびトーラスとの類似性の強さ(4.2%)を示す。最下行は、トーラスのアコードに対する類似性の強さ(18.3%)およびカムリとの類似性の強さ(19.2%)を示す。画面の右部分は、最大の類似性を有する15車両との一次車両の類似性の強さをランク順にリストした表を示す。この例において、右の表はまた、類似性分析のために左で選択された別の各車両(すなわち、トーラス、63番)と一次車両との類似性をリストする。この別の車両はトップ15の類似性の中になくても示される。
類似性分析は、所与のキーワードに対する類似のキーワードを見つけるために使いうる。例えば、次のリストは、キーワード“007”に類似の仮定類似性分析を通して見出されうるキーワードの仮定事例リストである。
(007類似性リスト)
ジェームスボンド
ジェームス ボンド 007
007.コム
007ボンド
ボンド 007
ジェームス ボンド,007
ボンド ジェームス ボンド
ジェームス ボンド 007:ナイトファイア
ジェームス ボンド ムービーズ
007 ナイトファイア
ボンド ジェームス
ボンド,ジェームス
ダイ アナザ デイ
ジェームス ボンド ウェブサイト
007 ゲームズ
ジェームス ボンド キャラクターズ
ジェームス ボンド ナイトファイア
ナイトファイア
エージェント 007
ダイ アナザ デイ ムービー
上のキーワードの多くは、“007”に類似のキーワードとして見つけられたものであるけれども、“007”という用語さえ含んでいない。
類似性分析の実用の一例は、ユーザがインターネット上であるキーワードを使って検索しているかどうか、次にその他にユーザはインターネット上で何を検索しそうであるかという一般的な質問に答えることである。類似性分析は、この質問に答えるのに使える。この分析は、例えば、特定のキーワードへの類似性を有する他のキーワードのトップ10,100,1000の順位付きリストを特定することができる。類似性分析はまた、ある人が花を買えば、その人は他にどんなものを買いたいと思うかという一般的な質問の答にも使える。これらのタイプの質問は、例えばクロス・セリングやマーケット・リサーチに有用である。
通常、アイテム間の類似性は、アイテムを一つ以上グルーピングする際、どれほど頻繁にアイテムが一緒になるのかに少なくとも一部は基づいて判定される。アイテムのグルーピングを定義するには沢山のやり方がある。例えば、IPアドレス、取引識別(TID)、URLまたは‘クッキー’に関連するコンピュータ・ネットワーク環境中で起きる可能性のあるグルーピングの数例がある。
IPアドレスは、特定のユーザのコンピュータを識別するのに使える。TIDは、品物またはサービスの購入のような特定の取引を識別するのに使える。例えば、ユーザは、所与のIPアドレスを持ったコンピュータを使ってインターネット・アクセス可能サイトとの接続を形成し、次にインターネットを用い多数のアイテムを購入することができる。所与のIPアドレスは、ユーザによって一緒に購入されたアイテムのグルーピングのためのグループ識別(グループID)として役立ちうる。また、購入取引は、購入したアイテムまたはサービスを含むグルーピングのための、グループIDとして役立つTIDを持ちうる。
キーワードのグルーピングは、URLと関連させうる。URLは、グールプIGとして役立つし、キーワードは、グルーピング中のアイテムとして役立つ。このようなキーワード・グルーピングは、例えば、キーワードが一組のURLを識別するのに使用されるようなキーワードに基づくインターネット検索の記録を保管することによって、長期間に亘って築き上げることができる。その上でユーザは一つ以上の識別されたURLをインターネット上のウェブ・ページを訪れるのに選択する。グルーピングのデータベースは、長期間に亘って開発できる。選択されたURLは、グループIDとして役立ち、URLを識別するのに使われるキーワードはグルーピング内のアイテムである。
インターネット・クッキーは、グルーピングを作成するのに使用できる。クッキーは、サーバ側接続(例えば、CGIスクリプト)がクライアント側接続上の情報を記憶し検索できる汎用機構である。CGI(共通ゲートウェイ・インタフェース)は、外部アプリケーションをHTTPまたはウェブ・サーバのような情報サーバとインタフェースするのに使用できる。単純な、永続性のある、クライアント側状況を追加すると、ウェブ基調のクライアント/サーバ・アプリケーションの能力を著しく拡大する。サーバはまた、HTTPオブジェクトをクライアントに返すとき、一片の状況情報を送り、この情報をクライアントが保存する。その状況オブジェクトには、その状況が有効なURLの範囲の記述が含まれ、これ以降、その範囲に当てはまるHTTPリクエストをクライアントがすると、そのリクエストはすべて、そのオブジェクトの現在価値のクライアントからサーバへの伝達を含むことになる。この状況オブジェクトは、クッキーとよばれる。コンピュータのクッキー識別子は、グループIDとして役立ち得、そのクッキーと共に記憶される情報は、グルーピング中のアイテムとして役立つ。
インターネットは、アイテム間の類似性研究において有用なデータを集める膨大な機会を生み出した。IPアドレス、TDI、URLまたはクッキーに基づくグルーピングのようなグルーピングを含む巨大なデータベースが開発可能である。これらのデータベースは、新しいグルーピング情報が追加されるにつれて、長期に亘って発展しうる。
類似性を判定する公知のアプローチの一つは、アイテムの発生数およびアイテムのグルーピングの発生数に基づく計算を含む。例えば、この一アプローチによれば、アイテムt1のアイテムt2との類似性は、次に関する情報を使うことができる:
N(t1):t1を含むグループIDの数、
N(t2):t2を含むグループIDの数、
N(t1,t2):t1およびt2の両方を含むグループIdの数。
アイテムt2tに対するアイテムt1の類似性は、以下のように計算可能である:
N(t1,t2)/N(t1)
逆に、アイテムt1に対するアイテムt2の類似性は、以下のように計算可能である:
N(t1,t2)/N(t2)。
類似性分析の実施への初期のアプローチは概ね成功を収めてきたが、それらの使用には欠点もあった。例えば、アイテムのグルーピングのデータベースが非常に大量化するにつれ、類似性分析の実施に伴う計算が極めて困難になりうる。例えば、所与のデータベースは、キーワードのグルーピングを含みうる。おのおのの異なるキーワードは、異なるアイテムと考えられる。おのおのの異なるグルーピングは、一つ、二つまたはいくつかのキーワードを含みうる。数百万のグルーピングおよび数百万のキーワードが存在する可能性がある。しかしながら、類似性分析の計算への上のアプローチは、一時に唯の二アイテムの類似性しか考慮しない。数百万のグルーピング中で任意の所与の二キーワードが一緒に発生する回数を追跡し続けることは、キーワードの数およびグルーピングの数が長期に亘って増加するにつれて、これまで以上に困難を伴う著しいタスクになりうる。
類似性分析での使用のためのアイテムのグループを体系化する上で改善の必要性が認められる。また、アイテム間の類似性の判定においても改善の必要性が認められる。
発明の要約
一様態において、テキスト・アイテムを体系化するコンピュータに基づく方法が提供される。この方法は、例えば、類似性分析を実施するのに有用である。テキスト・アイテムの多数の個別グループが提供される。独自の整数アイテム・コードが、個別のテキスト・アイテムに割当てられる。個別のグループからのテキスト・アイテムのペアが識別される。テキスト・アイテム・ペアは、ペアの成分テキスト・アイテムに割当てられた独自のアイテム・コードに基づいて整理される。その結果、他のテキスト・アイテム・ペアに対して各テキスト・アイテム・ペアが独自の順位を割当てられる。ペア整理情報構造が、コンピュータ読取可能媒体中に備えられ、テキスト・アイテム・ペアおよびそれらの独自順位間の関連を記憶する。
本発明の別の様態においては、アイテム・カウント情報構造で符号化されたコンピュータ読取可能媒体、コード割当情報構造およびペア・カウント情報構造を含む製造品が提供される。アイテム・カウント情報構造は、アイテムの多数のグルーピングからの多数のアイテムのそれぞれの発生回数を記憶する。コード割当情報構造は、それぞれのアイテムをそれぞれの独自整数アイテム・コードと関連付ける。ペア・カウント情報構造は、アイテムの多数のグルーピングの一つ以上の中のそれぞれのアイテム・ペアの多数のおのおののそれぞれの発生回数を示すそれぞれのペア・カウントを記憶する。個別のアイテム・ペアに対応するペア・カウントは、ペア・カウント情報構造中に、個別アイテム・ペアの成分アイテムを含むアイテム・コード情報構造中で関連するアイテム・コードから計算されるペア・コードによって索引される場所に記憶される。
本発明の別の様態は、アイテム・カウント情報構造、コード割当情報構造、ペア・コード計算プロセスを実施するためのコンピュータ・プログラム・コード、およびペア・カウント情報構造で符号化されたコンピュータ読取可能媒体を含む製造品を提供する。アイテム・カウント情報構造は、アイテムの多数のグルーピング中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶する。コード割当情報構造は、独自のアイテム・コードを有するアイテムの関連を記憶する。コンピュータ・プログラム・コードは、コード割当情報構造中で関連の独自のアイテム・コードを使った一つ以上の多数のグルーピング内のアイテムのペアのための独自の整数値ペア・コードを計算する。ペア・カウント情報構造は、一つ以上のアイテムの多数のグルーピング中のアイテムの多数のペアのおのおのの発生数を有するペア・コードのそれぞれの関連を記憶する。
本発明の他の様態においては、アイテム・コード情報構造およびペア・コード情報構造を使って類似性分析を実施するための改善されたプロセスが提供される。
アイテムのペアを表わす整数ペア・コードの使用と関連のテキスト・アイテムを表わす整数アイテム・コードの使用は、テキスト・アイテム間の関係の分析に関する情報の体系化における改善を可能にする。さらに具体的には、アイテム・コード情報構造およびペア・コード情報構造は、テキスト・アイテムのペア間の関係に関する大量の情報の体系化においてとりわけ有用である。整数アイテム・コードからの整数ペア・コードの計算は、アイテムのペア間の関連を評価することに含まれる処理を促進する。本発明のこれらのおよび他の特徴および利点は、次の詳細説明および図面から明らかになるであろう。
好ましい実施形態の詳細な説明
次の説明は、当業界の誰にでも本発明を作り、使用することができるようにするために示されており、特定の用途のコンテキストおよびそれらの必要条件の中で提供されている。好ましい実施形態へのさまざまな変更・修正は、当業者には容易に想起できるであろうし、ここに規定される一般的な原理は、本発明の精神および範囲から逸脱することなく他の実施形態および応用にも適用可能であろう。さらに、次の説明中、数々の詳細が、説明の目的で列挙されている。しかしながら、当業者の誰にでも、これらの具体的な詳細を使用しなくても本発明を実施できうることが理解されるであろう。他の例において、不必要な詳細によって本発明の説明が不明瞭にならないよう、公知の構造および装置がブロック図形式で示されている。このように、本発明は、示された実施形態のみに制限されるものではなく、ここに開示される原理および特徴と一致する最大限の範囲と一致すべきものである。
概観
本発明の本実施形態においては、テキスト・アイテムが、類似性分析における使用のために体系化されている。類似性分析の目的は、テキスト・アイテム間の類似性をこれらのグルーピングに基づいて判定することである。本発明の本実施形態は、テキスト・アイテムのペアの新規な体系化を提供することによって類似性分析を促進する。この体系化では、ペアがアイテムのグルーピングから識別され、ペアの新規な体系化が個別のペア内のテキスト・アイテムの特定に基づいて体系的に作成される。テキスト・アイテムのペアのこの新規な体系化は、その後の類似性分析を能率化する。
本実施形態によるテキスト・アイテムのペアの新規な体系化の作成は、多数のアイテム・グルーピングの個別のアイテムへの独自の整数値の割当を含む。これら独自の整数値は、アイテム・コードと呼ばれる。アイテムの多数のペアは、多数のグルーピングから識別される。テキスト・アイテムのペアは、それらのアイテム・コードに基づいて互に対して整理される。具体的には、各ペアは、他のペアの順位に対する独自の順位を有するように、テキスト・アイテムの個別のペアは、テキスト・アイテムの他のペアに対して整理される。
コンピュータ読取可能媒体中に設けられる新規なペア順位情報構造は、独自ペア順位と、所与のデータベースの発生回数のカウントのような他のデータとの間の関連を記憶できる。このようにして、アイテム・コードは、類似性分析の間、ペア順位情報構造にアクセスするために使用可能である。例えば、類似性分析の間、所与のアイテムのペアの成分アイテムのアイテム・コードは、ペア順位情報構造内の所与ペアの独自位置を判定使用されうる。この独自位置情報は、所与ペアとペア順序情報構造によって関連付けられる、カウントのような情報の所在をつきとめるのに使用可能である。
本発明の一実施形態においては、個別のテキスト・アイテムがアイテム・コードにマップされ、テキスト・アイテムの個別のアイテム・ペアは、ペア・コードと呼ばれる独自の整数値にマップされる。個別ペアの個別ペア・コードへのマッピングは、個別ペア中のテキスト・アイテムのアイテム・コードに基づいて判定される。個別ペアの順位は、対応する個別ペア・コードに依存し、後者は、個別ペアの成分アイテムのアイテム・コードに依存する。類似性分析の間、所与のアイテムのペアの成分アイテムのアイテム・コードは、独自ペア・コード所与ペアを判定使用できる。この独自位置情報は、所与のペアとペア順位情報構造によって関連付けられるカウントのような、情報の所在をつきとめるのに使用可能である。
テキスト・アイテムおよびグルーピング
ここで使われているように、テキスト・アイテムは、例えば、文字、数字、記号、またはこれらの組合せのような、一つ以上の文字のセットを含む。文字は、単語または句としての意味を持ちうるが、それ自体ではどんな具体的な意味を持つ必要がない。通常、テキスト・アイテムは、いくつかの規則によって多数のグルーピングに体系化されるが、それは本発明の部分を形成するものではない。例えば、テキスト・アイテムは、同じIP(インターネット・プロトコル)アドレス、取引ID(TID)、URLまたはクッキーで関連していることに基づいて一緒にグルーピングされうる。例えば、ユーザは、特定のサイトとインターネット接続をし、ユーザは、‘百科辞典’という表題の本、‘ポピュラー・ソング’というラベルのCD、‘贅沢な航海’という名の旅行に参加するチケットのオンライン購入取引に参加することができる。このオンライン購入のための取引IDは、三つのテキスト・アイテムと関連するであろう。一つは、‘百科辞典’というテキスト・ストリングであろう。もう一つは、‘ポピュラー・ソング’というテキスト・ストリングである。さらにもう一つは、‘贅沢な航海’というテキスト・ストリングであろう。
アイテム・コードの割当
次のものは、本発明の一実施形態によるアイテムのグルーピング内のアイテムのためのアイテム・コードの割当の一例である。この例においては、次の概要グルーピングが使われよう。
G1={x,y,z}
G2={x,y}
G3={x,z}
説明を明瞭にするために、この例では三つだけのグルーピングが用いられているが、実際の実施においては、おそらく数百万という多数のグルーピングがありうる。G1,G2,G3は、三つの概要グループのグループ識別子である。理解されると思うが、G1,G2,G3は、異なるIPアドレス、TDI、URL、クッキーまたはいくつかの他の形式の識別子である。さらに、例えば、G1がIPアドレスを識別し、G2がTIDを識別し、G3がURLを識別するというように、グルーピングのタイプの混合さえもありうるであろう。アイテムxは、テキスト・アイテムおよびG1,G2,G3の成分である。アイテムyは、テキスト・アイテムおよびG1,G2,G3の成分である。アイテムzは、テキスト・アイテムおよび単なるG1の成分である。
整数値アイテム・コードは、G1,G2,G3のテキスト・アイテムに選択的に割当てられる。例えば、アイテムxは1を割当てられ、アイテムyは2を割当てられ、アイテムzは3を割当てられるかもしれない。整数アイテム・コード割当は、順番に割当てられねばならない。さらには、アイテム閾値プロセスが、アイテム・コードを割当てられるアイテムを選択するために使われるかもしれない。例えば、アイテム・コードの割当に資格を与えるために、グルーピングの少なくともいくつかの所定の最小閾値数中にアイテムが存在するということを必要とするアイテム閾値条件が、課せられるかもしれない。このようなアイテム閾値プロセスは、多数のグルーピングを介しての使用の所定のレベルを有するaアイテム・コードがアイテムにだけ割当てられるということを確保することを求める選択的な最適化である。この例においては、もしアイテム閾値が2に設定されたら、アイテムxおよびyはアイテム・コードを受けるであろうが、アイテムzは受けないだろう。もし代わりにアイテム閾値が3に設定されたならば、アイテムxのみがアイテム・コードを受けるであろう。
テキスト・アイテムと独自整数アイテム・コードを関連付けるアイテム・コード情報構造が創り出される。アイテム閾値が1に設定されていると想定すれば、この例におけるアイテムのためのありうるアイテム・コード情報構造は、次のような表になりうる。
アイテム・コード情報構造
Figure 2006523899
アイテム・コード情報構造は、選択されたテキスト・アイテムの割当てられたアイテム・コードに対するマッピングを提供する。上の表は、アイテムをアイテム・コードにマップするための構造のタイプの単なる一例である。アイテム・コード情報構造は、コンピュータ読取可能媒体中に記憶されうる。
識別アイテム・ペア
次は、本発明の一実施形態による、アイテムのグルーピング内のアイテム・ペアの識別の一例である。上に示した概要グルーピングが、この例で使用される。一実施例において、ペアは、アイテム閾値プロセスを通過したアイテムだけのために識別される。もしアイテム閾値が1に設定されていたら、G1,G2,G3の識別ペアは、(x,y),(x,z),(y,z)となろう。もしアイテム閾値が2に設定されていたら、識別ペアは、(x,y)になるだろう。
本発明の一実施例によれば、アイテム・ペアは、それらの成分アイテムのアイテム・コードで表される。もしアイテム閾値は1に設定されていて、割当アイテム・コードがx=1,Y=2,Z=3であれば、アイテム・ペアは、(1,2),(1,3),(2,3)で表されるであろう。もしアイテム閾値が2に設定されていて、割当アイテム・コードがx=1,Y=2であれば、アイテム・ペアは、(1,2)で表されるであろう。
このようにして、アイテム・コード情報は、テキスト・アイテムをアイテム・コードに関連付ける。これらのアイテム・コードは、アイテム・ペアを表すのに使われる。下に説明の通り、アイテムのペアの独自アイテム・コードは、アイテム・ペアを整理するのに使われるので、各ペアは他のペアに対する独自順位を有する。一実施例においては、個別のペアの成分アイテムの独自アイテム・コードが、個別ペアの個別独自順位を定める個別の独自ペア・コードを計算するのに使われる。
テキスト・アイテムの整理ペア
下のチャートは、成分テキスト・アイテムのペア・コードに基づくペアの整理の例を示すので、各ペアは他のペアの他の位置に対する独自順位を有する。これらのチャートのそれぞれは、ペア中の成分アイテムのアイテム・コードに基づく異なる可能性のアイテム・ペアの整理を示す。説明の簡潔と明瞭のために、これらの例は、それぞれ、ただの6アイテムのみを含む。
これらのチャートは、アイテム・ペアの代替的な整理を示す。各チャートは、ペアの上位の、または下位の値のアイテム・コードに基づくアイテム・ペアのグルーピングを示す。具体的には、チャートの各行は、上位の、または下位の値のアイテム・コードに基づく異なるアイテム・コード・グループを保有する。各チャートはさらに、グループ化されたアイテム・ペアの所定の整理を示す。各チャートはさらに、アイテム・ペアのグループ内のペアの所定の整理を示す。
例えばチャート1を参照するに、個別チャート位置の左側の整数値は、その位置のアイテム・ペアの順位を示す。例えば、ペア(1,2)は、順位“1”にあり、ペア(2,4)は、順位“5”にある。最上行は、整数1に等しい、下位の値のアイテム・コードを有するペアのグループを有する。中間の行は、整数2に等しい、下位の値のアイテム・コードを有するペアのグループを有する。最下行は、下位の値のアイテム・コードを有するペアのグループを有する。
チャート1は、下位の値のアイテム・コードに基づいたアイテムがグループ化されるアイテム・ペアの整理を示す。例えば、アイテム・コード・ペア(1,2)の中では、1は下位の値のアイテム・コードであり、2は上位の値のアイテム・コードである。
チャート1は、小さい方の下位の値のアイテム・コードを有するグループが、上位の値のアイテム・コードを有するグループに先行する、グループの整理を示す(最上行から最下行へ読む)。このようにして、グループのペア{(1,2),(1,3),(1,4)}が、グループのペア{(2,3),(2,4)}の前(上)に整理されている。
チャート1は、小さい方の上位の値のアイテム・コードを有するペアが、大きい方の上位の値のアイテム・コードを有するペアに先行する、グループ内のペアの整理を示す(列は右から左へ読む)。このようにして、グループのペア{(1,2),(1,3),(1,4)}は、ペア(1,2)を最初にして、(1,3)を二番目に、(1,4)を三番目にして、整理されている。
チャート1−下位の値のグループ/小さい方の下位の値
第一グループ間順序/小さい方の上位の第一イントラ−グループ順序
Figure 2006523899
チャート2は、アイテムが下位の値のアイテム・コードによってグループ化されるアイテム・ペアの整理を示す。グループは、小さい方の下位の値のアイテム・コードを有するグループが、大きい方の下位の値のアイテム・コードを有するグループに先行する(上になる)ように整理される。グループ内のペアは、大きい方の上位の値のアイテム・コードを有するペアが、小さい方の上位の値のアイテム・コードを有するペアに先行するように整理される。このようにして、グループ{(1,4),(1,3),(1,2)}のペアは、ペア(1,4)を第一にして、(1,3)を第二にし、(1,4)を第三にして整理される。
チャート2−下位の値のグループ/小さい方の下位の値
第一グループ間整理/大きい方の上位の第一グループ内整理
Figure 2006523899
チャート3は、アイテムが上位の値のアイテム・コードを基にしてグループ化されるアイテム・ペアの整理を示す。グループは、大きい方の上位の値のアイテム・コードを有するグループが、小さい方の上位の値のアイテム・コードを有するグループに先行する(上になる)ように整理される。したがって、例えば、グループ{(1,4),(2,4),(3,4)}が、グループ{(1,3),(2,3)}に先行する。グループ内のペアは、小さい方の下位の値のアイテム・コードを有するペアが、大きい方の下位の値のアイテム・コードに先行するように整理される。したがって、例えば、グループのペア{(1,4),(2,4),(3,4)}は、ペア(1,4)を第一にして、(2,4)を第二にし、(3,4)を第三にして整理される。
チャート3−上位の値のグループ/大きい方の上位の値
第一グループ間整理/小さい方の下位の第一グループ内整理
Figure 2006523899
チャート4は、アイテムが上位の値のアイテム・コードを基にしてグループ化されるアイテム・ペアの整理を示す。グループは、大きい方の上位の値のアイテム・コードを有するグループが、小さい方の上位の値のアイテム・コードを有するグループに先行する(上になる)ように整理される。したがって、例えば、グループ{(3,4),(2,4),(1,4)}が、グループ{(2,3),(1,3)}に先行する。グループ内のペアは、小さい方の下位の値のアイテム・コードを有するペアが、大きい方の下位の値のアイテム・コードに先行する(左から右に読んで)ように整理される。したがって、例えば、グループのペア{(3,4),(2,4),(1,4)}は、ペア(3,4)を第一にして、(2,4)を第二にし、(1,4)を第三にして整理される。
チャート4−上位の値のグループ/大きい方の上位の値
第一グループ間整理/大きい方の下位の第一グループ内整理
Figure 2006523899
これらのチャートは、本発明の原理にしたがった、アイテム・コードに基づくアイテム・ペアの整理への単に四つの可能なシステマティックなアプローチを示す。アイテムへのアイテム・コードの割当は、アイテムのペアがそれらの成分アイテムのアイテム・コードによって表わされることを可能にする。上のチャートは、個別のアイテムと関連のアイテム・コードのペアが、そのペアを各ペアが他のペアに対して独自の順位を持つように、決定論的に整理するために使われうることを示す。意味ありげに、各個別ペアは、ペアを作り上げているアイテムに割当てられた独自のアイテム・コードのペアに基づいて決定された独自の順位を有する。
順位の計算
順位は、数学的な計算を通じて計算されうる。次のプロセスは、チャート1に示すアイテム・ペア順位を計算するのに使われる数学的な計算を含む。個別のペアの個別の順位は、個別のペアの成分アイテムに割当てられたアイテム・コードに基づいて決定される。
次のプロセスは、コンピュータ読取可能媒体中に暗号化されているコンピュータ・プログラム・コードを使って実施できる。このプロセスは、本発明の一実施形態により、所与の任意のアイテム・ペアに対する独自の整数ペア・コード値を計算する。アイテム・コードは、所与のアイテム・ペアの各アイテムのために割当てられているものと想定されている。さらに、これらのアイテムに割当てられるペア中のアイテムとアイテム・コード間の関連は、アイテム・コード情報中に記憶されているものと想定されている。さらに、MAXは、任意のアイテムに割当てられる最大のアイテム・コードであると想定されている。
イニシアル・ステップは、整理されたアイテム・コード・ペアを作り出すことであり、下位の値のアイテム・コードが第一に整理され、上位の値のアイテム・コードが第二に整理されることが想定されている。したがって、アイテム・ペア(t1,t2)に対しては、t1に対するアイテム・コードおよびt2に対するアイテム・コードが、アイテム・コード情報構造から検索される。所与のアイテム・コード・ペア(t1,t2)に対しては、コード1は、テキスト・アイテムt1へ割当てられたアイテム・コードであり、コード2は、テキスト・アイテムt2に割当てられたアイテム・コードであることが想定されている。
ペア整理プロセスによれば、
もし(コード2=MAX)ならば、ペア・コード(t1,t2)=コード1*MAX−SUM(x)、ここに、コード1に対しては、x=1、
それともペア(t1,t2)=(コード2−コード1)+(コード1−1)*MAX−SUM(x)、ここに、コード1に対しては、x=1.
チャート1のペア・コードのセット例では、MAX=4.
次は、チャート1のコード・ペアの代表的なサンプリングに対する、独自のペア・コードおよび対応する独自順位の計算の例である。
アイテム・コード(1,2)のペアに対しては、コード2=2.したがって、(1,2)に対しては、コード2≠MAX。したがって、ペア・コード(1,2)=(2−1)+(1−1)x4−(0)=1.
アイテム・コード(2,3)のペアに対しては、コード2=3.したがって、(2,3)に対しては、コード2≠MAX。したがって、ペア・コード(2,3)=(3−2)+(2−1)x4−(1)=4.
アイテム・コード(2,4)のペアに対しては、コード2=4.したがって、(2,4)に対しては、コード2=MAX。したがって、ペア・コード(2,4)=(2x4)−(1+2)=5.
この計算プロセスは、アイテム・ペアに関する情報のデータタベースを構築するに使われうる。この同じ計算プロセスは、アイテム・ペアに関する記憶された情報を検索するためのその情報のデータベースにアクセスするのに使われうる。データベースが構築される間、計算プロセスを通じて計算されたペア・コードは、個別のアイテム・ペアと関連の情報が記憶されるべき記憶媒体中の位置を判定するために使われうる。引き続いて、実際の個別アイテム・ペアのための情報が、それらのペア・コードにより判定されるメモリ・ロケーション中に記憶されていると仮定すると、同じ計算プロセスが、所与のアイテム・ペアのためのペア・コードを、アイテム・ペアに関連の情報の記憶媒体を突き止め、そこから検索するために計算するのに使用可能である。勿論、情報のデータベースは、連綿と構築され、更新されうることは理解されよう。したがって、連続的な構築と検索は、同時進行的に発生しうる。
さらに、この計算プロセスは、非常に効率的に検索されうるアイテム・ペア情報のデータベースを作成するのに使われうる。上に説明のとおり、独自のペア・コードは、アイテム・ペア情報の独自の順位を表わしうる。本発明の一様態に従って、ペア順位は、計算プロセスに基づいて判定され、アイテム・ペア関連情報は、コンピュータ読取可能媒体中に順位順に記憶される。その結果、線形走査タイプ・プロセスが、アイテム・ペア関連情報を突き止めるのに、より容易に使いうる。情報検索の間、アイテム・ペア関連情報を検索するためにアクセスすべきロケーションは、計算プロセスを使って計算される。もしアイテム・ペア情報が、計算プロセスによって判定される独自の順位で記憶されるならば、計算プロセスは、記憶媒体内でアクセスされるべきロケーションの線形シーケンスを計算するのに使用されうる。
例えば、チャート1の仮定な例を参照すれば、最上行のアイテム・コードとペア・コードとの間の相関関係は、次のようになる。
アイテム・コード・ペア(1,2)→ペア・コード=1
アイテム・コード・ペア=(1,3)→ペア・コード=2
アイテム・コード・ペア=(1,4)→ペア・コード=3
ペア・コードとメモリ・アドレス・ロケーションとの間の相関関係は、次のようである。
ペア・コード=1→メモリ・ロケーション1000
ペア・コード=2→メモリ・ロケーション1001
ペア・コード=3→メモリ・ロケーション1002
したがって、アイテム・コード=1を有するアイテムと関連の全てのペア関連情報は、ロケーション1000で始まり、1001が続き、1002で終わる記憶媒体の線形走査検索を通じてアクセスされうる。
上の例のチャートは、それぞれ単に6アイテム・コード・ペアおよび単に6対応ペア・コードを含んでいる。実際の実施においては、数百万のアイテムおよび数百万のペアが存在しうる。アイテム・ペアを整理するためのプロセスはスケイラブルであるから、同じベーシック・ペア整理プロセスが、アイテム・ペア順位および多数のペアのためのアイテム・ペア・コードを判定するのに使用可能である。事実、ペアを整理し、効率的な情報記憶戦略を達成する上でのこのプロセスの利点は、アイテムおよびペアの数の増加に伴ってさらに明らかになる。
チャート1−4が本発明の原理に従うペアの四つの可能な整理の例を提供する間、当業者は、他の整理も本発明の範囲の中で、また可能であることを理解するであろう。さらに、具体的な計算プロセスがチャート1の例の整理のためのペア・コードを計算するために記述される間、当業者が類似の計算原理がチャート2−4の中に示されるタイプのペア整理のための計算プロセスに到着するために適用されうることが容易に理解されるものと信ずる。
類似性分析情報の体系化
図2は、本発明の原理が適用できうる一つのインターネット計算コンテキストを示す概要ブロック図である。サーバ・システム20は、多数のインターネット接続コンピュータ・デバイス22,24,28とインターネット30を介して通信する。サーバ20は、例えば、ヤフー・サイト:www.yahoo.comおよび全てのヤフーのプロパティのようなインターネット・ポータルでありうる。コンピュータ(22−28)からのユーザは、例えば、検索、メール・ファイナンスなどの様々な情報およびサービスを得るために、このサイトへ来る。例えばコンピュータ・デバイス22−28は、サーバ20からインターネットを介してコンピュータおよびアクセス情報にログインするために使用される任意のユーザ・デバイスでもよい。
サーバ20は、インターネット30を介するコンピュータ22−28との相互作用を通じてテキスト・アイテムのグルーピングを集める。図2には、四つの代表的なコンピュータ22−28が示されているのみであるが、サーバ20は、毎日数百万のコンピュータと通信しうる。例えば、コンピュータ22−28は、情報またはサービスを求める様々なリクエストを出しうる。これらのリクエストは、上に説明のようなテキスト・アイテムのグルーピングを含みうる。サーバは、類似性分析に有用な情報のデータベースを創造するために、これらのグルーピングを処理できる。
ユーザ・コンピュータ22−28からのテキスト・アイテムのグルーピングは、類似性分析に有用な情報のデータベースを作成するために処理される入力データを構成する。グルーピング中のアイテムは識別される。アイテムには、アイテム・コードが割当てられる。例えば、次のテキスト・アイテムのおのおのには、分離アイテム・コードが割当てられる。
ホンダ
ホンダ・モータ
ホンダ・モータ会社
上に説明の通り、アイテム・コードが割当てられない最小用途のアイテムを除去するためには、閾値プロセスが使用されうる。アイテムおよびそれらの割当アイテム・コード間の関連を記憶するコンピュータ読取可能媒体中に、アイテム・コード情報構造が創り出される。
加えて、入力データ中のグルーピング中のアイテムのペアが識別される。ペア・コードは、アイテム・コードの対応ペアが割当てられたアイテムの選択されたペアに対して計算される。チャート1に関連する上に述べた計算プロセスは、アイテム・コードからのペア・コードを計算するために使用されうる。
図3は、コンピュータ読取可能媒体中に類似性分析のための情報構造を生成するためにアイテム・コードおよびペア・コードを使うプロセス38を示す概要フロー・ダイヤグラムである。ステップ40において、アイテム名がコードおよびカウントにマップされるアイテム・カウント・ハッシュ構造が設けられる。閾値を超えるアイテムのみがこのハッシュ構造中に置かれるように、この段階で、閾値が適用できる。本実施形態において、アイテム・カウント・ハッシュ構造は、アイテム・コードおよびアイテム・カウントを有するハッシュ・テーブルを含む。ステップ42において、アイテム・ペア・カウントにペア・コードがマップされる、ペア・カウント・ハッシュ構造が設けられる。本実施形態において、ペア・カウント・ハッシュ構造は、ペア・コードおよびペア・カウントを有するハッシュ・テーブルを含む。
ステップ44において、入力データが走査される。アイテムの各識別されたグルーピングに対して、グループ中のアイテムのためのアイテム・コードが存在するかどうかに関する判定がなされる。アイテム・コードがすでに存在するアイテムに対しては、アイテム・コード・カウント・ハッシュ構造中の対応するアイテム・コード・カウントが、インクリメントされる。本実施形態においては、アイテム・コードがまだ存在しないアイテムは、閾値の下にあり、分析のためには有意ではないので無視される。
ステップ46において、入力データが走査される。アイテムの各識別されたグルーピングに対して、グルーピング中の各アイテムのためのアイテム・コードが識別され、ペア・コードがグループ中で識別された各アイテム・ペアに対して計算される。チャート1に関連して上に述べたような計算プロセスが、ペア・コードを計算するために使われる。
入力データ中のおのおののそのようなグルーピングに対しては、ペア・カウント・ハッシュ構造が、次のように更新される。ステップ48において、ペア・コードがすでにペア・カウント・ハッシュ構造にエンターされているかどうかについての判定が行われる。もし所与のアイテム・ペアに対するペア・コードがペア・カウント・ハッシュ構造中にすでに存在するならば、ステップ50において、その既存ペア・コードに対応するカウントが、一つだけインクリメントされる。もし存在しなければ、ステップ52において、ペア・カウント・ハッシュ構造中のエントリ数が、許されるエントリ数の最大数より小さいかどうかの判断が行われる。もしそれが最大より小さければ、ステップ54において、新しいペア・コードが、関連カウント=1の構造に追加される。エントリ数が最大に等しい(または超える)ときには、ステップ56において、ペア・カウント・ハッシュ構造中の全てのエントリが、ペア・コードによって、ペア・カウント中間情報構造にソートされる。ペア・カウント・ハッシュ構造はクリアされ、新しいペア・コードは、関連カウント=1エントリに沿って、新しくクリアされた構造に加えられる。
上述のこのプロセスは、入力データ中の全てのグルーピングが処理されるまで繰り返される。入力データの走査が完了したら、アイテム・カウント・ハッシュ構造中の全てのアイテム関連情報が、アイテム・カウント構造に書き込まれる。同様にして、入力データの走査が完了すると、ペア・カウント・ハッシュ構造中のすべてのペア関連情報は、ペア・カウント中間情報構造に書き込まれる。その上で、すべてのペア・カウント中間情報構造は合併し、閾値を超えるカウントを有するペアは、ペア・カウント情報構造に、ペア・コードでソートされて、書き込まれる。
次のテーブルは、図3のプロセスによって生成されうる、アイテム・コード構造およびペア・カウント情報構造の例である。これらの構造に含まれる情報は、サーバでアクセスされるコンピュータ読取可能媒体中にエンコードされる。これらの構造は、説明のために創り出された、単に仮定的な例であることが理解されよう。さらに、説明の簡潔のために、単に数個のアイテムおよびペアが、これらの構造中にリストされている。しかしながら、当業者には、同じ原理が大量のアイテムおよびペアに適用されることが理解されよう。
アイテム・コード構造
Figure 2006523899
アイテム・カウント情報構造
Figure 2006523899
ペア・カウント情報構造
Figure 2006523899
類似性分析例
上述の例の情報構造は、類似性分析を行うのに使用可能である。
例えば、これらの構造を使って、テキスト・アイテムAのテキスト・アイテムBに対する類似性は、次のように判定される。この例の目的のために、AのBに対する類似性は、カウント(A,B)/カウントAとして定義される。
アイテム・コード情報構造から、テキスト・アイテムAおよびBのためのアイテム・コードを検索せよ。Aに対するアイテム・コードは、1である。Bに対するアイテム・コードは、2である。アイテム・コードをアイテム・コード情報構造への指標として使い、Aに対するアイテム・カウントを検索せよ。Aに対するアイテム・カウントは、10である。AおよびBのためのアイテム・コードのペア、すなわち、アイテム・コード・ペア(1,2)を使って、アイテム・ペア(A,B)に対するペア・コードを計算するために、計算プロセスを使え。この例において、計算プロセスは、ペア・コード1を生み出す。計算されたペア・コード1をペア・カウント情報構造への指標として使い、ペア・コード1に対するペア・カウントを検索せよ。検索されたペア・カウントは5であり、これは(A,B)のペア・カウントが5であることを意味する。したがって、AのBに対する類似性は、5/10=0.5となる。
逆に、例えば、これらの構造を使って、テキスト・アイテムBのテキスト・アイテムAに対する類似性は、同じ手続を使って判定されうる。この例の目的のために、AのBに対する類似性は、カウント(A,B)/カウントBとして定義される。上述の構造の例が使用され、カウントB=20、およびカウント(A,B)=5と確認される。したがって、BのAに対する類似性は、5/20=0.25である。
当業者には、類似性情報が分析可能であることが理解されよう。例えば、AのBに対する類似性およびBのAに対する類似性の比較は、どのアイテムが最も意味があるかを決めることでありうる。例えば、類似性情報は、類似性によってソートして、所与のアイテムに対する高い類似性を有するアイテムのリストを得るのに使用可能である。例えば、左側のテーブル中の図1には、一次モデルに対する類似性を有するカー・モデルのリストがある。この例においては、類似性が、一次モデルがアイテムの一つになって、全てのペアに対して計算される。その上でこれらのアイテムは、類似性によってソートされる。本発明の本インプリメンテーションを使って、一つの走査で全ての分析が行える。
本発明による好ましい実施形態の前述の記述および図面は、本発明の原理の単なる概要である。本発明の精神および範囲から逸脱することなく、当業者によって様々な変更・修正が可能である。
図1は、仮定的な類似性分析結果を示すコンピュータ・ユーザ・インタフェース画面の概要図である。 図2は、本発明の原理が適用できる、一つのインターネット環境コンテキストを示す概要的なブロック図である。 図3は、本発明の一実施形態による使用のために、コンピュータ読取媒体中に情報構造を創り出すプロセスを示す概要的なフロー図である。

Claims (31)

  1. コンピュータに基づくテキスト・アイテム体系化の方法であって、
    テキスト・アイテムの多数の個別グループを受けるステップ、
    前記多数の個別グループからのそれぞれの個別テキスト・アイテムにそれぞれの独自の整数アイテム・コードを割当てるステップ、
    前記多数のグループの個別グループからのテキスト・アイテムのペアを識別するステップ、
    各ペアがそれぞれ、他のペアに対するそれぞれの独自の順位を有するようにテキスト・アイテムのそれぞれのペアの個別のテキスト・アイテムに割当てられた前記の独自のアイテム・コードに基づいてテキスト・アイテムのペアを整理するステップ、および
    それぞれの識別されたペアとそれらのそれぞれの独自の順位との間のそれぞれの関連を記憶するペア整理情報構造をコンピュータ読取可能媒体中に設けるステップ、
    を含む、前記の方法。
  2. 請求項1の方法であって、テキスト・アイテムの整理ペアがさらに、
    それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの下位の値のアイテム・コード値および上位の値のアイテム・コード値を識別するステップと、
    それぞれの個別テキスト・アイテムに割当てられた同一の下位値アイテム・コード、またはそれぞれの個別テキスト・アイテムに割当てられた同一の上位値アイテム・コードのうち所定の一つを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
    ペアの前記それぞれのグループのそれぞれの個別テキスト・アイテムに割当てられた、それぞれの下位値アイテム・コードまたは上位値アイテム・コードの前記所定の一つに基づいて所定の一つの所定の数値順でペアの前記それぞれの識別されたグループを整理するステップ、および
    ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられた前記下位値アイテム・コードまたは前記上位値アイテム・コードの一つに基づいて所定の数値順に、ペアのそれぞれのグループ内のそれぞれのペアを整理するステップ、
    によってそれぞれの識別されたペアのそれぞれの順位を判定するステップと、
    を含む、前記の方法。
  3. 請求項2の方法であって、さらに、
    それぞれの順位に従って数値順になっているそれぞれのペアにそれぞれの独自の整数ペア・コード値を割当てるステップ、
    を含む、前記の方法。
  4. 請求項2の方法であって、前記方法は、さらに、
    それぞれの順位に従って数値順になっているそれぞれのペアにそれぞれの独自の整数ペア・コード値を割当てるステップを含み、
    前記ペア順序情報構造が、それぞれの識別されたペアとそれらに割当てられたそれぞれの独自のペア・コード値との間のそれぞれの関連を記憶する、前記の方法。
  5. 請求項1の方法であって、前記方法はさらに、
    コンピュータ読取可能媒体中に、割当てられた独自の整数アイテム・コードにテキスト・アイテムを関連させるアイテム・コード情報構造を設けるステップを含む、前記の方法。
  6. 請求項2の方法であって、前記方法は、さらに、
    コンピュータ読取可能媒体中に、割当てられた独自の整数アイテム・コードにテキスト・アイテムを関連させるアイテム・コード情報構造を設けるステップ、および
    それぞれの独自の整数ペア・コード値を、当該順位に従って数値順になっている、それぞれのペアに割当てるステップを含み、
    前記ペア順序情報構造が、それぞれの識別されたペアとそれらに、割当てられたそれぞれの独自のペア・コード値との間のそれぞれの関連を記憶する、前記の方法。
  7. 請求項1の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
    それぞれのペアのそれぞれの個別テキスト・アイテムに割当てられた、それぞれの下位の値のアイテム・コード値および上位の値のアイテム・コード値を識別するステップと、
    それぞれの個別のテキスト・アイテムに割当てられた同一の下位値アイテム・コード、またはそれぞれの個別のテキスト・アイテムに割当てられた同一の上位値アイテム・コードのうち所定の一つを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
    ペアの前記それぞれのグループのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの下位値アイテム・コードまたは上位値アイテム・コードの前記所定の一つに基づいて所定の数値順に、ペアの前記それぞれの識別されたグループを整理するステップ、および
    ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられた下位値アイテム・コードまたは上位値アイテム・コードの他方のコードに基づいて、所定の数値順に、ペアのそれぞれのグループ内のそれぞれのペアを整理するステップによって、
    それぞれの識別されたペアのそれぞれの順位を判定するステップと、
    を含む、前記の方法。
  8. 請求項6の方法であって、
    前記所定の一つがそれぞれの下位値アイテム・コードであり、
    前記他方のコードが前記上位値アイテム・コードである、前記の方法。
  9. 請求項6の方法であって、
    前記所定の一つがそれぞれの上位値アイテム・コードであり、
    前記他方のコードが前記下位値アイテム・コードである、前記の方法。
  10. 請求項1の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
    それぞれの個別のテキスト・アイテムに割当てられた同一の下位値アイテム・コードを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
    ペアの前記それぞれのグループのそれぞれの個別のテキスト・アイテムに割当てられた前記それぞれの下位値アイテム・コードに基づいて、所定の数値順で、ペアの前記それぞれの同一のグループを整理するステップ、および
    ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられたそれぞれの上位値アイテム・コードに基づいて、所定の数値順で、ペアのそれぞれのグループ内のそれぞれのペアを整理するステップ、によって
    それぞれの識別されたペアのそれぞれの順位を判定するステップと、
    それぞれの独自の整数ペア・コード値を前記それぞれのペアに、それらのそれぞれの順位に従う数値順に割当てるステップであって、
    前記ペア順序情報構造が、それぞれの識別されたペアとそれらに割当てられたそれぞれの独自のペア・コード値との間のそれぞれの関連を記憶するステップと、
    コンピュータ読取可能媒体中に、テキスト・アイテムと、割当てられた独自の整数アイテム・コードとを関連付けるアイテム・コード情報構造を設けるステップと、
    を含む、前記の方法。
  11. 請求項1の方法であって、テキスト・アイテムのペアを整理するステップが、さらに
    それぞれのペアのそれぞれの個別テキスト・アイテムに割当てられた、それぞれの下位値アイテム・コード値および上位値アイテム・コード値を識別するステップと、
    それぞれのテキスト・アイテムに割当てられた同一の下位値アイテム・コード、またはそれぞれのテキスト・アイテムに割当てられた同一の上位値アイテム・コードの所定の一つを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップ、および
    もし前記の所定の一つが同一の下位値アイテム・コードであれば、
    各ペアが、小さい方の下位値アイテム・コードを有するペアのグループの値より大きく、大きい方の下位値アイテム・コードを有するペアのグループの値より小さい割当てられたペア・コード値を有するように、および
    各ペアが、小さい方の上位値アイテム・コードを有するペアのそのグループ中のペアの値より大きく、大きい方の上位値アイテム・コードを有するペアのそのグループ中のペアの値より小さい割当てられたペア・コード値、を有するように、ならびに
    もし前記所定の一つが同一の上位値アイテム・コードであれば、
    各ペアが、大きい方の上位値アイテム・コードを有するペアのグループの値より小さく、小さい方の上位値アイテム・コードを有するペアのグループの値より大きい割当てられたペア・コード値を有するように、および
    各ペアが、大きい方の下位値アイテム・コードを有するペアのそのグループ中のペアの値より小さく、小さい方の下位値アイテム・コードを有するペアのそのグループ中のペアの値より大きい割当てられたペア・コード値を有するように、
    それぞれの独自の整数ペア・コード値を前記ペアに割当てることによって、
    それぞれの識別されたペアのそれぞれの順位を判定するステップと、
    を含む、前記の方法。
  12. 請求項1の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
    それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられた、それぞれの下位値アイテム・コード値および上位値アイテム・コード値を識別するステップと、
    それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられた、それぞれの下位値アイテム・コード値および上位値アイテム・コード値を識別するステップと、
    それぞれのテキスト・アイテムに割当てられた同一の下位値アイテム・コードを有するテキスト・アイテムのペアのそれぞれのグループを識別するステップと、
    各ペアが、小さい方の下位値アイテム・コードを有するペアのグループのそれより大きな割当てられたペア・コード値、および上位の下位値アイテム・コードを有するペアのグループのそれより小さな割当てられたペア・コード値を持つように、および
    各ペアが、小さい方の上位値アイテム・コードを有するペアのそのグループ中のペアのそれより大きな割当てられたペア・コード値、および大きな方の上位値アイテム・コードを有するペアのそのグループ中のペアのそれより小さな割当てられたペア・コード値を持つように、
    前記のペアに独自の整数ペア・コード値を割当てるステップと、
    を含む、前記の方法。
  13. 請求項1の方法であって、テキスト・アイテムのペアを整理するステップがさらに、
    それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの独自のアイテム・コードに基づいて、それぞれのペア・コードのそれぞれの独自の順位を判定する数学的な計算を行うステップを含む、前記の方法。
  14. 請求項1の方法であって、テキスト・アイテムのペアを整理するステップが、それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられたそれぞれの独自のアイテム・コードに基づいて、それぞれのペア・コードのそれぞれの独自の順位を判定する数学的な計算を行うステップを含み、
    前記のペア順序情報構造が、それぞれの識別されたペアとそれらのそれぞれの判定された独自のペア・コード値との間のそれぞれの関連を記憶する、前記の方法。
  15. 請求項1の方法であって、
    受けるステップが、コンピュータ・ネットワークからのテキスト・アイテムの前記多数の個別のグループを受けるステップを含む、前記の方法。
  16. テキスト・アイテムを体系化するコンピュータに基づく方法であって、
    テキスト・アイテムの個別の多数のグループを受けるステップと、
    前記多数の個別のグループからのそれぞれの個別のテキスト・アイテムにそれぞれの独自の整数値アイテム・コードを、割当てるステップと、
    割当てられた独自の整数アイテム・コードにテキスト・アイテムを関連付けるアイテム・コード情報構造をコンピュータ読取媒体中に設けるステップと、
    前記多数のグループの個別のグループからのテキスト・アイテムのペアを識別するステップと、
    ペアの前記それぞれのグループのそれぞれの個別のテキスト・アイテムに割当てられた、それぞれの下位値アイテム・コードまたは上位値アイテム・コードの所定の一つに基づいて、前記所定の数字順でペアの前記それぞれの識別されたグループを整理するステップ、および
    ペアの前記それぞれのグループの前記ペアのそれぞれのテキスト・アイテムに割当てられた前記下位値アイテム・コードまたは前記上位値アイテム・コードの一つに基づいて所定の数値順でペアのそれぞれのグループ内のそれぞれのペアを整理するステップによって、
    それぞれの識別されたペアのそれぞれの順位を判定するステップと、
    前記それぞれの独自の整数ペア・コード値をそれぞれのペアに、それらのそれぞれの順位に従う数値順で割当てるステップと、
    それぞれの識別されたペアとそれらのそれぞれのペア・コード値との間のそれぞれの関連を記憶するペア順序情報構造をコンピュータ読取媒体中に設けるステップと、
    を含む、前記の方法。
  17. テキスト・アイテムを体系化するコンピュータに基づく方法であって、
    テキスト・アイテムの多数の個別のグループを受けるステップと、
    それぞれの独自の整数アイテム・コードを前記の多数の個別グループからのそれぞれの個別のテキスト・アイテムに割当てるステップと、
    割当てられた独自の整数値アイテム・コードにコンピュータ読取可能媒体中にテキスト・アイテムを関連付けるアイテム・コード情報構造を設けるステップと、
    前記多数のグループの個別のグループからテキスト・アイテムのペアを識別するステップと、
    それぞれのペアのそれぞれの個別のテキスト・アイテムに割当てられるそれぞれの独自のアイテム・コードに基づいて、それぞれのペア・コードのそれぞれの独自の順位を判定する数学的な計算を行うことによってテキスト・アイテムのペアを整理するステップ、および
    コンピュータ読取り可能媒体中に、それぞれの識別されたペアとそれらのそれぞれの判定された独自のペア・コード値との間の、それぞれの関連を記憶するペア順序情報構造を設けるステップと、
    を含む、前記の方法。
  18. アイテムの多数のグループ中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造、
    それぞれのアイテムをそれぞれの独自の整数アイテム・コードに関連付けるコード割当情報構造、および
    アイテムの前記多数のグループの一つ以上の中の多数のそれぞれのアイテム・ペアのおのおののそれぞれの発生回数を示すそれぞれのペア・カウントを記憶するペア・カウント情報構造、
    を含んでコード化されたコンピュータ読取可能媒体を含む製造品であって、
    それぞれのペア・カウントが、前記アイテム・コード情報機構中でそれぞれのアイテム・ペアのそれぞれの成分アイテムと関連付けられるそれぞれのアイテム・コードから計算されたそれぞれのペア・コードによって検索されるロケーションにおけるペア・カウント情報構造中にそれぞれ記憶される、前記の製造品。
  19. アイテムの多数のグループ中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造、
    それぞれのアイテムとそれぞれの独自の整数アイテム・コードとのそれぞれの関連を記憶するコード割当情報構造、
    前記コード割当情報構造中で関連付けられるそれぞれの独自のアイテム・コードを使って、一つ以上の前記それぞれの多数のグルーピング内のアイテムのそれぞれのペアについて、それぞれの独自の整数値ペア・コードを計算するペア・コード計算プロセスを行うコンピュータ・プログラム・コード、および
    アイテムの前記多数のグルーピングの個別のものの中のアイテムの多数のそれぞれのペアのおのおののそれぞれの発生回数とそれぞれのペア・コードとのそれぞれの関連を記憶するペア・カウント情報構造、
    を含んでコード化されるコンピュータ読取可能媒体、
    を含む、製造品。
  20. 請求項19の製造品であって、
    前記アイテム・カウント情報構造が、アイテムの多数のグルーピングの個別のものの中での多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶する、製造品。
  21. 請求項19の製造品であって、
    前記アイテム・カウント情報構造が、アイテム・カウント・ハッシュ・テーブルを含み、
    前記ペア・カウント情報構造が、ペア・カウント・ハッシュ・テーブルを含む、製造品。
  22. 請求項19の製造品であって、
    前記アイテム・カウント情報構造および前記コード割当情報構造が、一つの情報構造に組合されている、製造品。
  23. 請求項19の製造品であって、
    前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定の数値順序で、それぞれのペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、製造品。
  24. 請求項19の製造品であって、
    前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定のシーケンス数値順序で、それぞれのペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、製造品。
  25. 請求項19の製造品であって、
    前記コンピュータ読取可能媒体が、さらに、
    アイテムの前記多数のグルーピングのアイテムの選択されたペア間の類似性を、前記アイテム・カウント情報構造によって関連付けられるカウントと、前記ペア・カウント情報構造によって前記選択されたペアに関連付けられるカウントを有する前記選択されたペアの前記アイテムの一つとを比較することによって判定するための類似性判定プロセスを含んでコード化されている、製造品。
  26. テキスト・アイテム間の類似性を判定する方法であって、
    アイテムの多数のグルーピングの個別のものの中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
    それぞれの独自の整数アイテム・コードとそれぞれのアイテムとのそれぞれの関連を記憶するアイテム・コード割当情報構造をコンピュータ読取可能媒体中に設けるステップ、
    アイテムの前記の多数のグルーピングの一つ以上の中のアイテムの多数のそれぞれのペアのおのおののそれぞれの発生回数とそれぞれの独自の整数値ペア・コードとのそれぞれの関連を記憶するペア・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
    二つのテキスト・アイテムからなるアイテムのペアを指定するステップ、
    前記アイテム・コード割当情報構造を使って、前記指定されたペアの前記の二つの指定されたテキスト・アイテムについて二つのアイテム・コードを判定するステップ、
    前記判定された二つのアイテム・コードを使って、前記指定されたペアのテキスト・アイテムの前記指定されたペアについてそれぞれの独自の整数値ペア・コードを計算するステップ、
    前記アイテム・カウント情報構造を検索するために、前記判定されたアイテム・コードの少なくともそれぞれの一つを使って、前記指定されたペアの前記二つの指定されたアイテムの少なくともそれぞれの一つについてアイテム・カウントを判定するステップ、
    前記ペア・カウント情報構造を検索するために、前記計算された独自の整数値ペア・コードを使って、ペア・カウントを判定するステップ、および
    前記判定された少なくとも一つのアイテム・カウントを前記判定されたペア・コード・カウントと比較するステップ
    を含む、前記の方法。
  27. 請求項26の方法であって、
    前記ペア・カウント情報構造が、ペア・コード整数値に基づいて所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、前記の方法。
  28. 請求項26の方法であって、
    前記ペア・カウント情報構造が、ペア・コード整数値に基づいて所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶し、
    前記のペア・カウントを判定するステップが、前記の計算された独自の整数値ペア・コードへの一致を検索するために、前記所定のシーケンス数値順序で前記のペア・カウント情報構造の少なくとも一部を走査するステップを含む、前記の方法。
  29. テキスト・アイテム間の類似性を判定する方法であって、
    アイテムの多数のグルーピングの個別のものの中の多数のそれぞれのアイテムのおのおののそれぞれの発生回数を記憶するアイテム・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
    それぞれのアイテムとそれぞれの独自の整数アイテム・コードとのそれぞれの関連を記憶するアイテム・コード割当情報構造をコンピュータ読取可能媒体中に設けるステップ、
    それぞれの独自の整数値ペア・コードと、アイテムの一つ以上の前記多数のグルーピング中のアイテムの多数のそれぞれのペアのおのおののそれぞれの発生回数とのそれぞれの関連を記憶するペア・カウント情報構造をコンピュータ読取可能媒体中に設けるステップ、
    各二つのそれぞれのテキスト・アイテムからなるアイテムの複数のそれぞれのペアを指定するステップ、
    前記アイテム・コード割当情報構造を使って、二つのそれぞれの指定されたテキスト・アイテムの各ペアについて、二つのそれぞれのアイテム・コードをそれぞれに判定するステップ、
    それぞれの判定された二つのアイテム・コードを使って、テキスト・アイテムの各それぞれの指定されたペアについて、それぞれの独自の整数値ペア・コードをそれぞれに計算するステップ、
    前記アイテム・カウント情報構造を検索するために、各それぞれのペアについてそれぞれの二つの指定されたアイテムのそれぞれの一つについて、前記それぞれの一つを使って、それぞれのアイテム・カウントをそれぞれに判定するステップ、
    前記ペア・カウント情報構造を検索するために、それぞれの計算された独自の整数値ペア・コードを使って、各それぞれのペアについてそれぞれのペア・カウントをそれぞれに判定するステップ、
    それぞれの個別の類似性を生成するために、前記それぞれの判定された少なくとも一つのアイテム・カウントと、前記それぞれの判定されたペア・コード・カウントとを各それぞれのペアについてそれぞれに比較するステップ、および
    前記個別の類似性を比較するステップ、
    を含む、前記の方法。
  30. 請求項29の方法であって、
    前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶する、前記の方法。
  31. 請求項29の方法であって、
    前記ペア・カウント情報構造が、ペア・コード整数値に基づく所定のシーケンス数値順序で、それぞれの独自の整数値ペア・コードとそれぞれのカウントとのそれぞれの関連を記憶し、
    それぞれのペア・カウントをそれぞれに判定するステップが、それぞれの計算された独自の整数値ペア・コードに対するそれぞれのマッチを検索するために、前記所定のシーケンス数値順序で、前記ペア・カウント情報構造の少なくとも一部分をそれぞれに走査するステップを含む、前記の方法。
JP2006510119A 2003-04-16 2004-04-16 類似性分析方法および製造品 Withdrawn JP2006523899A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/417,709 US6873996B2 (en) 2003-04-16 2003-04-16 Affinity analysis method and article of manufacture
PCT/US2004/011772 WO2004095178A2 (en) 2003-04-16 2004-04-16 Affinity analysis method and article of manufacture

Publications (1)

Publication Number Publication Date
JP2006523899A true JP2006523899A (ja) 2006-10-19

Family

ID=33158974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006510119A Withdrawn JP2006523899A (ja) 2003-04-16 2004-04-16 類似性分析方法および製造品

Country Status (7)

Country Link
US (1) US6873996B2 (ja)
EP (1) EP1616277A2 (ja)
JP (1) JP2006523899A (ja)
KR (1) KR20060028673A (ja)
CN (1) CN1860474A (ja)
TW (1) TW200511038A (ja)
WO (1) WO2004095178A2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007014B2 (en) * 2003-04-04 2006-02-28 Yahoo! Inc. Canonicalization of terms in a keyword-based presentation system
US7783617B2 (en) * 2003-04-16 2010-08-24 Yahoo! Inc. Personals advertisement affinities in a networked computer system
US10339538B2 (en) 2004-02-26 2019-07-02 Oath Inc. Method and system for generating recommendations
US8676830B2 (en) * 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7827025B2 (en) * 2004-04-06 2010-11-02 Microsoft Corporation Efficient capitalization through user modeling
US8914383B1 (en) * 2004-04-06 2014-12-16 Monster Worldwide, Inc. System and method for providing job recommendations
US7739142B2 (en) * 2004-05-17 2010-06-15 Yahoo! Inc. System and method for providing automobile marketing research information
US7797321B2 (en) * 2005-02-04 2010-09-14 Strands, Inc. System for browsing through a music catalog using correlation metrics of a knowledge base of mediasets
US20060206517A1 (en) * 2005-03-11 2006-09-14 Yahoo! Inc. System and method for listing administration
KR100996131B1 (ko) * 2005-03-11 2010-11-24 야후! 인크. 리스팅 관리 시스템 및 방법
US7720791B2 (en) * 2005-05-23 2010-05-18 Yahoo! Inc. Intelligent job matching system and method including preference ranking
US8527510B2 (en) 2005-05-23 2013-09-03 Monster Worldwide, Inc. Intelligent job matching system and method
US20060265270A1 (en) * 2005-05-23 2006-11-23 Adam Hyder Intelligent job matching system and method
US8375067B2 (en) * 2005-05-23 2013-02-12 Monster Worldwide, Inc. Intelligent job matching system and method including negative filtration
US8433713B2 (en) * 2005-05-23 2013-04-30 Monster Worldwide, Inc. Intelligent job matching system and method
US8195657B1 (en) 2006-01-09 2012-06-05 Monster Worldwide, Inc. Apparatuses, systems and methods for data entry correlation
KR100736799B1 (ko) * 2006-03-27 2007-07-09 엔에이치엔(주) 대형 광고주의 광고정보를 구분한 광고리스트의 생성 방법및 광고리스트 생성 시스템
KR100793377B1 (ko) * 2006-03-28 2008-01-11 엔에이치엔(주) 점수 분포에 따른 광고리스트의 생성 방법 및 광고리스트생성 시스템
US8600931B1 (en) 2006-03-31 2013-12-03 Monster Worldwide, Inc. Apparatuses, methods and systems for automated online data submission
US20070288308A1 (en) * 2006-05-25 2007-12-13 Yahoo Inc. Method and system for providing job listing affinity
US20070276826A1 (en) * 2006-05-26 2007-11-29 Yahoo! Inc. Aggregation of affinity lists
JP2008210212A (ja) * 2007-02-27 2008-09-11 Nec Corp 項目選択装置及び項目選択方法並びにプログラム
US20080257134A1 (en) * 2007-04-18 2008-10-23 3B Music, Llc Method And Apparatus For Generating And Updating A Pre-Categorized Song Database From Which Consumers May Select And Then Download Desired Playlists
US7985911B2 (en) * 2007-04-18 2011-07-26 Oppenheimer Harold B Method and apparatus for generating and updating a pre-categorized song database from which consumers may select and then download desired playlists
US9081852B2 (en) * 2007-10-05 2015-07-14 Fujitsu Limited Recommending terms to specify ontology space
US8280892B2 (en) * 2007-10-05 2012-10-02 Fujitsu Limited Selecting tags for a document by analyzing paragraphs of the document
US20090106081A1 (en) * 2007-10-22 2009-04-23 Yahoo! Inc. Internet advertising using product conversion data
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
US10387837B1 (en) 2008-04-21 2019-08-20 Monster Worldwide, Inc. Apparatuses, methods and systems for career path advancement structuring
US20100082356A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. System and method for recommending personalized career paths
US20100205075A1 (en) * 2009-02-11 2010-08-12 Yahoo! Inc. Large-scale item affinity determination using a map reduce platform
US20170330153A1 (en) 2014-05-13 2017-11-16 Monster Worldwide, Inc. Search Extraction Matching, Draw Attention-Fit Modality, Application Morphing, and Informed Apply Apparatuses, Methods and Systems
US20190287070A1 (en) * 2018-03-15 2019-09-19 Microsoft Technology Licensing, Llc Query expansion for candidate selection
US10621649B2 (en) 2018-08-31 2020-04-14 Realm Ip Method, non-transitory machine-readable storage medium, and system for collaborative matching

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5931907A (en) * 1996-01-23 1999-08-03 British Telecommunications Public Limited Company Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information
JP3887867B2 (ja) * 1997-02-26 2007-02-28 株式会社日立製作所 構造化文書の登録方法
US6144944A (en) 1997-04-24 2000-11-07 Imgis, Inc. Computer system for efficiently selecting and providing information
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6453312B1 (en) 1998-10-14 2002-09-17 Unisys Corporation System and method for developing a selectably-expandable concept-based search
US6681247B1 (en) * 1999-10-18 2004-01-20 Hrl Laboratories, Llc Collaborator discovery method and system
US6516312B1 (en) 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
JP3672234B2 (ja) * 2000-06-12 2005-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体
CA2924940A1 (en) 2000-07-05 2002-01-10 Paid Search Engine Tools, L.L.C. Paid search engine bid management
JP4258965B2 (ja) 2000-09-27 2009-04-30 富士通株式会社 キーワード検索と広告を対応させたポイント装置
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility

Also Published As

Publication number Publication date
KR20060028673A (ko) 2006-03-31
US6873996B2 (en) 2005-03-29
US20040210600A1 (en) 2004-10-21
TW200511038A (en) 2005-03-16
WO2004095178A3 (en) 2005-01-20
EP1616277A2 (en) 2006-01-18
WO2004095178A8 (en) 2006-06-15
CN1860474A (zh) 2006-11-08
WO2004095178A2 (en) 2004-11-04

Similar Documents

Publication Publication Date Title
JP2006523899A (ja) 類似性分析方法および製造品
US7783617B2 (en) Personals advertisement affinities in a networked computer system
US11875363B2 (en) Method and system for generating recommendations
US10452662B2 (en) Determining search result rankings based on trust level values associated with sellers
US8676830B2 (en) Keyword recommendation for internet search engines
US6064980A (en) System and methods for collaborative recommendations
US6266649B1 (en) Collaborative recommendations using item-to-item similarity mappings
JP5828958B2 (ja) ソーシャル商品推薦の提供
US20090063439A1 (en) System and Method for Efficiently Providing a Recommendation
US9116945B1 (en) Prediction of human ratings or rankings of information retrieval quality
US20080140641A1 (en) Knowledge and interests based search term ranking for search results validation
US20040049514A1 (en) System and method of searching data utilizing automatic categorization
CN105894310A (zh) 一种个性化推荐方法
JP2011108034A (ja) 複数の属性を利用したWebページ推薦方法
US20150206220A1 (en) Recommendation Strategy Portfolios
Lemire et al. Implementing a rating-based item-to-item recommender system in php/sql
WO2004114155A1 (ja) コンテンツ推薦装置、方法及びプログラム
Zubi et al. Applying web mining application for user behavior understanding
Saemi et al. Evaluation of macro and parallel data processing tools affecting the improvement of performance to extract user interests
CN116523584A (zh) 一种通过前端实现的产品推荐方法、系统、存储介质
Olaniran et al. A Hybrid Recommendation Architecture for Nigerian Online Stores
Guo et al. A recommender system by two-level collaborative filtering.
Jiang Dynamically updating UIDB to implement personalized service

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070703