JP4838529B2 - 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング - Google Patents

検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング Download PDF

Info

Publication number
JP4838529B2
JP4838529B2 JP2005118052A JP2005118052A JP4838529B2 JP 4838529 B2 JP4838529 B2 JP 4838529B2 JP 2005118052 A JP2005118052 A JP 2005118052A JP 2005118052 A JP2005118052 A JP 2005118052A JP 4838529 B2 JP4838529 B2 JP 4838529B2
Authority
JP
Japan
Prior art keywords
clustering
objects
type
type data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005118052A
Other languages
English (en)
Other versions
JP2005302043A5 (ja
JP2005302043A (ja
Inventor
チャン ベンユー
チェン ホア−ジュン
リー リー
ナジム タレック
マ ウェイ−イェン
リー イェン
ツェン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005302043A publication Critical patent/JP2005302043A/ja
Publication of JP2005302043A5 publication Critical patent/JP2005302043A5/ja
Application granted granted Critical
Publication of JP4838529B2 publication Critical patent/JP4838529B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データマイニングに関し、より詳細には、異質のオブジェクトをクラスタリングすることにより、検索語提案のためのシステムおよび方法を高めることに関する。
キーワードまたは句は、WWW(World Wide Web)上で関連するWebページ/サイトを検索する場合、Webサーファ(surfer)によって検索エンジンに送信される単語または語の集合である。検索エンジンは、ページ/サイト上に現れるキーワードおよびキーワード句に基づき、Webサイトの関連性を決定する。かなりの割合のWebサイトトラフィックは、検索エンジンの使用に起因するので、Webサイト主催者は、適切なキーワード/句選択が、所望のサイトの登場を獲得するためにサイトトラフィックの増加に不可欠であることを理解している。検索エンジン結果を最適化するためにWebサイトと関係のあるキーワードを識別する技術には、例えば、関係のあるキーワードを識別するためにWebサイトのコンテントおよび目的の人手による評価を含む。この評価には、キーワード人気度ツール(keyword popularity tool)の使用を含むことができる。そのようなツールは、どれだけの数の人々が、特定のキーワードまたは特定のキーワードを含む句を検索エンジンに送信したかを決定する。Webサイトと関係があり、検索クエリを生成する際により頻繁に使用されると決定されたキーワードを、一般に、Webサイトに関して、検索エンジン結果を最適化するために選択する。
Webサイトの検索エンジン結果を最適化するためのキーワードの集合を識別した後、主催者は、(他のWebサイトの検索エンジン結果の表示位置と比較して)検索エンジン結果においてより上位にWebサイトを昇進させることを所望する可能性がある。この目的のために、主催者は、(複数の)キーワードを入札することにより、(複数の)キーワードに結びつく主催者のリストをWebサーファがクリックするたび毎に主催者がいくら支払うかを表す。すなわち、キーワード入札は、ペイパークリック(pay−per−click)入札である。同一のキーワードに対する他の入札と比較してキーワード入札の総額がより大きいほど、検索エンジンにより、キーワードに基づく検索結果において結びつくWebサイトがより上位に(重要度に関してより目立つように)表示される。
Webサイトのコンテントと関係があり、入札する(複数の)語を識別するための従来システムおよび技術は、通常、クラスタリングアルゴリズムを使用することにより、同じクラスタからのオブジェクトは類似し、異なるクラスタからのオブジェクトは類似しないような仕方で、オブジェクトの集合をグループまたはクラスタに分割する。クラスタリングアプローチでは、クラスタリングされるデータオブジェクトが、独立であり、同一のクラスのオブジェクトであり、しばしば、固定長ベクトルの特徴/属性値でモデル化されていると仮定する。最近急増しているデータマイニング研究において、この古典的な問題が、大型データベースの文脈において再検討されている。しかし、クラスタリングされるデータオブジェクトの均質性は、たとえ、Webマイニングおよび協調フィルタリングなどいくつかのアプリケーションの出現により、そのような仮定に対する異議を唱えていても、依然、基本的な仮定であるように思われる。そのようなアプリケーションでは、データオブジェクトは、異なる型のデータオブジェクトであり、非常に相互に関係がある。残念ながら、たとえ異質のオブジェクト型にわたって分けられたオブジェクトが非常に相互に関係がある可能性があっても、従来のクラスタリング操作は、通常、それぞれのオブジェクト型を個々に、異なるオブジェクト型の相互に関係がある様相を考慮することなしにクラスタリングする。
このことの1つの理由は、異なる型のデータオブジェクト間の関係が、希薄であり識別するのが困難である場合が多いからである。別の理由は、それぞれのオブジェクトに結びついた静的な固定長の値のベクトルを有する、あらゆるそのような関係の表現は、ここで、ベクトルはオブジェクト属性および異なる型の関係のあるオブジェクトの属性の両方を表すが、非常に高次元(特徴空間)のオブジェクト属性/特徴ベクトルを作り出すからである。このような高次元は望ましくない。なぜならば、特徴空間内でデータが互いに遠く離れ、効率的なモデルを小さい領域内の希薄な量のデータで十分に扱うことができないからである。
したがって、異質のデータオブジェクトにわたる関係の観点から、関係のあるオブジェクト(例えば、語)を識別しグループ化する、より良いクラスタリング技術は有用である。クラスタリング技術を使用することにより、例えば、検索エンジン最適化および語の入札のための(複数の)語を識別するシステムおよび方法を提供し、それによってシステムと方法の両方において、関係のある(複数の)語を識別する確率を大いに高めることができる。
関係のある語提案のためのシステムおよび方法を説明する。一態様では、2つ以上のマルチ型データオブジェクトのうちのそれぞれのオブジェクトの間にレイヤ内および/またはレイヤ間関係を識別する。マルチ型データオブジェクトのそれぞれのオブジェクトには、第1型の少なくとも1つのオブジェクト、および第1型とは異なる第2型の少なくとも1つのオブジェクトを含む。マルチ型データオブジェクトを、関係のうちのそれぞれの関係の観点から繰り返しクラスタリングすることによって、強化されたクラスタを生成する。
図では、構成要素参照符号の左端の数字が、その構成要素が最初に現れる特定の図を識別する。
(概要)
図1は、相互に関係のある異質のオブジェクトデータ型の例示的フレームワーク100を示す。フレームワーク100は、異質のデータオブジェクト/ノードの複数のレイヤ102、ならびに結びつけられたレイヤ間およびレイヤ内データオブジェクトリンク/関係を含む。各レイヤ102−1ないし102−Nは、同一型(均質の)データオブジェクトまたはノードのそれぞれの集合を含む。すなわち、ノード集合Pは、同一データ型のおのおのである1つまたは複数のデータオブジェクトpないしpを含み、ノード集合Uは、同一データ型のおのおのである1つまたは複数のデータオブジェクトuないしuを含み、以下同様である。このため、異なるそれぞれのレイヤ102にあるデータオブジェクトの型は、お互いに関して異質である。
この実装では、例えば、
・レイヤ102−1は、(複数の)検索クエリデータオブジェクト/(複数の)ノードpないしpを含むマイニングされた(mined)検索クエリである。検索クエリオブジェクトは、(複数の)クエリの語を含み、以下に説明するとおり、クエリログからマイニングされた複数の履歴クエリのそれぞれのクエリを表す。
・レイヤ102−2は、(複数の)Webページデータオブジェクト/(複数の)ノードuないしuを含むマイニングされたWebページレイヤである。
・レイヤ102−3は、マイニングされたユーザレイヤであり、(複数の)ユーザ情報オブジェクト/複数のノードwないしwを含む。
・レイヤ102−Nは、それぞれの異なるオブジェクト型xないしxを備えるレイヤ102はあらゆる個数が可能であることの例示を示す。
一組のデータオブジェクトの間に張るライン/リンクは、それぞれのデータオブジェクトの間に存在すると決定されたそれぞれのマイニングされた関係を表す。クラスタリングの所定の実施形態では、ライン/リンクを「エッジ」と呼ぶ。本明細書では、一般化された語のラインまたはリンクを使用することにより、リンク、エッジ、またはオブジェクト間の関係を説明するあるオブジェクトと別のオブジェクトとのあらゆる連結子を説明する。リンク方向を(それは、データオブジェクト間の関係を示す矢印により提供されるが)、関与する(participating)オブジェクト属性の相関的要素として、いずれかの方向に向けることができる。リンクは、例示的であり、範囲を限定するものではないと見なされる。フレームワーク100で表されるようなWeb環境における所定のリンクを、1つの方向により適切に向けることができ、矢印の方向は、通常、以下に説明する強化されたクラスタリング操作に影響を与えない。
オブジェクトの組の間のリンクを、レイヤ内またはレイヤ間リンクとして分類することができる。レイヤ内リンクは、同一型の異なるオブジェクトの間の識別された関係を例示する。このように、レイヤ内リンク104は、同一レイヤ102内のオブジェクトを接続する。例えば、データオブジェクトのそれぞれの組の間における実線104は、レイヤ内リンクを表す。この例では、レイヤ内リンクは、Webページオブジェクトuから別のWebページオブジェクトuに張り、異なるWebページ間の(複数の)関係を表す。
レイヤ間リンクは、異なる型のデータオブジェクト間の関係を説明する。レイヤ間リンクは、異質のオブジェクトから成る組のそれぞれのオブジェクト間に張られるため、データオブジェクトから成る関与する組のおのおのを、異なるそれぞれのデータオブジェクト/ノード集合レイヤ102上に示す。図1に示すとおり、実線ではないオブジェクトからなる組を接続するあらゆるラインは、レイヤ間リンクである。例えば、リンク106は、オブジェクトから成る組の第1のオブジェクトから、オブジェクトから成る組の第2のオブジェクトへの参照(例えば、ハイパーリンク)を示し、リンク/ライン108は、オブジェクトから成る組の第1のオブジェクトから、オブジェクトから成る組の第2のオブジェクトに共有される/参照される問題(例えば、主題要素)を示し、リンク/ライン110は、オブジェクトから成る組の第1のオブジェクトから、オブジェクトから成る組の第2のオブジェクトへのブラウズリンクを示す。別の例では、リンクを、ユーザオブジェクトwから検索クエリオブジェクトpおよびWebページオブジェクトuへ張り、ユーザにより関係があるとして選択されたWebページを戻すクエリをユーザが送信することを表すことが可能である。
図1の実施例では、レイヤ内およびレイヤ間リンクのそれぞれのリンクで示されるとおり、異なるオブジェクト型(p、u、w、...)が関係している。例えば、ユーザ(オブジェクトwで表される)が、クエリ(オブジェクトp)を発行する。ユーザは、発行されたクエリの受信に応答して検索エンジンによって戻されたWebページ(オブジェクトu)をブラウズし、各検索クエリ(オブジェクトp)は、1つまたは複数のそれぞれのWebページ(オブジェクトu)を参照する。以上の観点から、Webユーザ情報をクラスタリングする場合、ユーザがブラウズした(複数の)Webページ、およびそれぞれの(複数の)Webページを獲得するのに使用されたクエリは、より高い類似性を有し、クラスタリングプロセスにおいて一緒にクラスタリングされる傾向にあるはずである。同様に、Webページをクラスタリングする場合、Webページがどのようにユーザによって使用され、どのようにそれぞれの検索クエリによって参照されたかも考慮に入れなければならない。これに対処するため、以下に説明するとおり、強化されたクラスタリングアルゴリズムが、複数のデータオブジェクトのそれぞれのオブジェクトの間のマイニングされた関係の相関的要素として、そのような異質のデータオブジェクトをクラスタリングする。
本発明の一態様は、本来備わっている相互関係に基づき、クラスタリングされるオブジェクトに、他のオブジェクトへのリンクを提供する。各オブジェクトに接続する複数のリンク(およびそれらのリンクが接続する先の複数のオブジェクト)の所定のリンクには、そのオブジェクトに対するリンクの関連性を反映するように異なる重要度で重みを付けることができる。例えば、クラスタリングされた複数のオブジェクトと同一型の複数のオブジェクトには、異なる型の複数のオブジェクトより大きい重要度を提供することができる。本発明は、様々なレベルの重要度を異なるオブジェクトまたは異なる型のオブジェクトに割り当てることができることによる仕組みを提供する。異なるオブジェクト(または異なる型のオブジェクト)に異なるレベルの重要度を割り当てることを、本明細書では、重要度付きクラスタリングと呼ぶ。異なるオブジェクトの様々なレベルの重要度により、クラスタリングの結果および効果を改善する場合が多い。次に、検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリングの、以上および他の態様を説明する。
Webサイトと関係があり、検索クエリを生成する際にエンドユーザによってより頻繁に使用されたと判定された(複数の)語/(複数の)キーワードは、一般に、Webサイトに関して検索エンジン結果を最適化するために、Webサイト主催者/広告主によって選択される。これに留意して、以下の本発明のシステムおよび方法は、本実装において、検索語提案であり手近なタスクと相互に関係があると決定されたマルチ型データオブジェクトをマイニングする。そのようなマルチ型データオブジェクトには、履歴クエリを検索エンジンに送信することによって獲得された結果からマイニングされた意味論的文脈(例えば、テキスト、URL、結果タイトル、および各結果の短い説明など)で高められマイニングされた履歴検索クエリの(複数の)語、特定の履歴検索クエリに応答してユーザによって選択されたWebページの集合、ユーザに固有の情報(例えば、ユーザのWebサイトアクセス情報、検索クエリを生成するのに使用されたマシンのIPアドレスなど)、および/または関係のあるデータオブジェクトの型を含む。
マルチ型データオブジェクト間の類似度を、識別され重みが付けられたコンテキストの類似度と、計算されたオブジェクト間およびオブジェクト内関係の類似度との線形結合として決定する。データオブジェクトには、オブジェクト間および型内関係に由来するリンク構造を分析することにより、異なる重みを割り当てる。したがって、複数のデータオブジェクトのそれぞれのオブジェクト間の類似度には、オブジェクト自体の属性の類似度だけでなく、オブジェクトの関係の類似度も含む。
以上の計算されたマルチ型オブジェクト関係の観点から、強化されたクラスタリングアルゴリズムは、各オブジェクトの識別されたオブジェクト間およびオブジェクト内関係属性の相関的要素として、マルチ型データオブジェクトを繰り返しクラスタリングする。本実装において、クラスタ内のオブジェクトの重み付けされた合計を使用することによってクラスタ中心(centroid)を算出するのに、変更された直接k平均(direct−k−means)アルゴリズムを使用する。これは、オブジェクトのそれぞれの関係属性を更新することによってすべての関係のあるデータオブジェクトにクラスタリング結果を伝播させる反復プロセスである。すなわち、1つの型のオブジェクトのクラスタリング結果が、新たな特徴空間を形成し、次に、この空間を、他の関係のある異なる型のオブジェクトに射影し、伝播させる。次に、関係のある型のオブジェクトに対するクラスタリングを、その更新された特徴空間を使用して実行する。この反復強化プロセスを、各オブジェクト型に対して実行することにより、特徴空間の次元を減らすよう大いに関係のあるクラスタノードをマージし、すべてのマルチ型オブジェクトにわたるクラスタリング結果が収束するまで続ける。これにより、大いに高い関係のあるマルチ型データオブジェクトの強化されたクラスタとなる。
エンドユーザから語を受け取ることに応答して、システムおよび方法は、語/クエリオブジェクト型に基づき、強化されたクラスタ内の(複数の)語のそれぞれの語とその(複数の)語を比較する。強化された語のクラスタは、互いに文脈上、別の語と関係のある語を含むので、送信された入札をクラスタ内の語と比較する場合、語句を複数の関係のある文脈、すなわち「意味」の観点から評価する。さらに、各々の強化された語のクラスタは、高い関係のあるマルチ型オブジェクトの集合に由来するので、アルゴリズムは、純粋に文脈ベースの方法の欠点を克服することができる。すなわち、クエリの語の間の意味関係を効率的に強化し、語の文脈における雑音の影響を抑えることができる。受け取られた語と強化されたクラスタ内のオブジェクトの特徴空間とを比較することに応答して、1つまたは複数の検索語提案を識別する。これらの検索語提案をエンドユーザに伝達する。
(例示的システム)
必要ではないが、本発明は、パーソナルコンピュータによって実行されるコンピュータ実行可能命令(プログラムモジュール)の一般的な文脈で説明する。プログラムモジュールには、一般に、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本システムおよび方法を上述の文脈で説明するが、以下に説明する動作および操作は、ハードウェアに実装することもできる。
図2は、検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリングを行うための例示的システム200を示す。本実装において、システム200は、ネットワーク204を介してクライアントコンピュータ処理装置206に結合された編集確認サーバ(EVS)202を含む。例えば、クライアントコンピュータ処理装置206またはEVS202上で実行される別のアプリケーション(図示せず)から、(複数の)語208を受け取ったことに応答して、EVS202は、提案される語リスト210を生成し、クライアントコンピュータ処理装置206に伝達することにより、エンドユーザが、実際に(複数の)語の入札を行う前に、(複数の)語208に意味的および/または文脈的に関係のある語の集合を評価することができる。ネットワーク204は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットで一般的であるような、ローカルエリアネットワーク(LAN)通信環境と一般的なワイドエリアネットワーク(WAN)通信環境とのあらゆる組み合わせを含むことが可能である。システム200がクライアントコンピュータ処理装置206を含む場合、クライアントコンピュータ処理装置は、パーソナルコンピュータ、ラップトップ、サーバ、モバイルコンピュータ処理装置(例えば、セルラー電話機、パーソナルデジタルアシスタント、またはハンドヘルドコンピュータ)などのあらゆる型のコンピュータ処理装置である。
EVS202は、提案される語リスト210を生成するいくつかのコンピュータプログラムモジュールを含む。複数のコンピュータプログラムモジュールには、例えば、検索語提案(STS)モジュール212が含まれる。本実装において、説明および例示的図解の目的で、STSモジュール212は、履歴クエリの語マイニング、Webページ検索、特徴抽出、特徴空間次元の縮小および正規化、マルチ型データオブジェクトの強化されたクラスタリング、ユーザ入札の(複数の)語を強化されたクラスタの内容とマッチングすることにより検索語提案を実行すること、および語分類などの、複数の機能を実行するとして説明する。以上の複数の操作のそれぞれの操作は、STSモジュール212と通信する1つまたは複数の他のコンピュータプログラムモジュール(図示せず)によって実行されることも可能であることを認めることができよう。
(意味論的文脈でマイニングされた履歴検索クエリの強化)
STSモジュール212は、本実装において、検索語提案である、手近なタスクと相互に関係があると決定された複数のマルチ型データオブジェクト(MDO)214をマイニングする。そのような複数のマルチ型データオブジェクト214には、複数の履歴クエリ216のそれぞれのクエリを検索エンジンに送信することによって獲得された検索結果からマイニングされた意味論的文脈(例えば、テキスト、URL、結果タイトル、および各結果の短い説明など)でSTSモジュール212によって高められ、マイニングされた複数の履歴検索クエリ216の(複数の)語、および特定の履歴検索クエリに応答してユーザによって選択されたWebページの集合、ユーザに固有の情報(例えば、ユーザのWebサイトアクセス情報、検索クエリを生成するのに使用されたマシンのIPアドレスなど)、および/または関係のあるマルチ型データオブジェクトの型などの「他のMDO」218を含む。
詳細には、STSモジュール212は、(複数の)クエリログ220から履歴クエリ216の集合を検索する。(複数の)履歴クエリ216は、1名または複数名のユーザによって検索エンジンに以前に送信された検索クエリの語を含む。STSモジュール212は、出現頻度の相関的要素として履歴クエリ群216を評価することより、高いFOO(出現頻度)の検索語222と比較的低い出現頻度の検索語224を識別する。本実装において、設定可能な閾値を使用することにより、履歴クエリが比較的高い出現頻度を有するか、または比較的低い出現頻度を有するかを決定する。例えば、少なくとも閾値回数、出現する複数の履歴クエリ216の中の検索クエリの語は、高い出現頻度を有するとされる。類似して、閾値回数より少ない回数、出現する複数の履歴クエリ216の中の検索クエリの語は、低い出現頻度を有するとされる。例示の目的で、そのような閾値を「他のデータ」226のそれぞれの部分として示す。
STSモジュール212は、各クエリを1つずつ(検索クエリ227)、検索エンジン228に送信することにより、高い出現頻度のクエリの語222の意味論上/文脈上の意味をマイニングする。検索クエリ227を受け取ったことに応答して、検索エンジン228は、(複数の)検索結果230の中でランク付けされたリスト(数が設定可能である)をSTSモジュール212に戻す。ランク付けされたリストは、URL、結果タイトル、ならびに送信された検索クエリ227に関係のあるクエリの語の短い説明および/または文脈を含む。ランク付けされたリストは、検索結果230の中に格納される。そのような検索結果の検索が、各検索クエリ227に関して行われる。
STSモジュール212は、WebページHTML(ハイパーテキストマークアップ言語)を解析して、検索された各検索結果230から、各クエリの語222に関するクエリの語のURL、結果タイトル、ならびに短い説明および/または文脈を抽出する。クエリの語のURL、結果タイトル、短い説明および/または文脈、ならびに検索された検索結果230を獲得するのに使用された検索クエリ227は、抽出された特徴232のそれぞれのレコードの中にSTSモジュール212によって格納される。
高い出現頻度のクエリの語222に関して検索結果230を解析した後、STSモジュール212は、抽出された特徴232に対してテキスト前処理操作を実行して、抽出された特徴から個々のキーワードに入る言語トークンを生成する(トークン化する(tokenize))。トークンの次元を縮小するため、STSモジュール212は、例えば、ポーターステミング(Porter stemming)アルゴリズムを使用して、あらゆるストップワード(stop−word)(例えば、「the」、「a」、「is」など)を削除し、一般的な接尾辞を削除することにより、キーワードを正規化する。STSモジュール212は、もたらされる抽出された特徴232を、1つまたは複数の語に基づくMDO(マルチ型データオブジェクト)ベクトル234に構成する。
各語に基づくマルチ型データオブジェクトベクトル234は、語の頻度に基づく次元、および逆ドキュメント頻度(TFIDF)スコアを有する。第i番のベクトルの第j番のキーワードに対する重みは、以下のとおり計算される。すなわち、
ij=TFijxlog(N/DF
ただし、TFijは、語の頻度(第i番のレコード内のキーワードjの出現回数)を表し、Nは、クエリの語の総数であり、DFは、キーワードjを含むレコードの数である。
各クエリの語のベクトル表現を所与として、コサイン関数を使用することにより、一組の語の間の類似度を測定する(ベクトルは正規化されていることを想い起こされたい)。すなわち、
Figure 0004838529
すなわち、2つの語の間の距離(類似測度)は、以下のとおり定義される。すなわち、
dist(q,q)=1−sim(q,q
このような類似測度を、「他のデータ」226のそれぞれの部分として示す。例示的なこのような類似度値を、以下に説明する表1の例示的な提案される語のリスト210の中で示す。
(ユーザが選択したWebページおよびユーザ情報のマイニング)
Webサイトの検索エンジン結果を最適化するために実質的に最も関係のある語の集合(検索語提案)を識別するため、STSモジュール212は、複数の履歴クエリ216とは異なる/異質のマルチ型データオブジェクト214をマイニングする。説明の目的のために、これらのマイニングされる複数のオブジェクトを「他のMDO」218と表す。所定の実装において、「他のMDO」218には、例えば、エンドユーザが選択したWebページおよび/またはユーザ固有の情報が含まれ、ただし、ユーザは、履歴クエリ216を検索エンジン228に送信することに関連するユーザである。STSモジュール212は、クエリログ220から、エンドユーザが選択したWebページを抽出する。エンドユーザが選択したWebページは、希薄であることも、そうでないことも可能であり、希薄は平均すると、例えば、履歴クエリ216当たり2から3のWebページになる。STSモジュール212は、(複数の)クエリログ220または他のデータソースからユーザ固有の情報を抽出する。ユーザ固有の情報には、例えば、複数の履歴クエリ216のそれぞれのクエリを送信するのに使用されたマシンのIP(インターネットプロトコル)アドレス、GUID、および/またはWebサイトアクセス情報(例えば、マイクロソフト社のドットネットパスポートの情報)が含まれる。
(強化されたマルチ型データオブジェクトのクラスタリング)
STSモジュール212は、クラスタリング分析のためにマルチ型の相互に関係のあるデータオブジェクト(MDO214)間の関係を十分に詮索する。複数のマルチ型データオブジェクト214には、n個の異なる型のオブジェクト、X、X、...、X(例えば、複数の履歴クエリ216および「他のMDO」218)が含まれる。各型のデータオブジェクトXは、特徴集合Fで記述される。同一型内の複数のデータオブジェクトは、型内関係、R⊆X×Xで相互に関係がある。2つの異なる型からのデータオブジェクトは、型間関係、Rij⊆X×Xを介して関係がある。これらの関係と区別するため、Fを、データオブジェクトのコンテント特徴(content feature)と呼ぶ。特定のオブジェクトx∈Xに関して、x.Fを使用してそのオブジェクトのコンテント特徴を表し、x.R⊆Xおよびx.Rij⊆Xを使用して、それぞれXおよびXの中でそのオブジェクトに関係のあるオブジェクトを表す。マルチ型の相互に関係のあるデータオブジェクトをクラスタリングすることの問題は、各型の複数のオブジェクトXをK個のクラスタに分けて、各クラスタ内のデータオブジェクトが高い類似度を有し、異なるクラスタからのオブジェクトが似ていないようにすることである。
マルチ型データオブジェクト群214のオブジェクトが、コンテント特徴と、複数のマルチ型データオブジェクト214の中の他の(複数の)オブジェクトとの関係をともに有することを考慮すると、2つのオブジェクト間の類似度を、以下の数式に従って決定する。すなわち、
S=α・s+β・sintra+γ・sinter (1)
ただし、sは、コンテンツ類似度であり、sintraおよびsinterはそれぞれ、型内類似度および型間類似度であり、α、β、およびγは、異なる類似度に対する重みであり、α+β+γ=1である。
(1)から、2つのオブジェクト間の類似度は、コンテンツ類似度と関係類似度の線形結合である。α、β、およびγに異なる値を割り当てることにより、STSモジュール212は、全体的な類似度における異なる類似度の重みを調整/構成することができる。例えば、α=1、β=γ=0である場合、コンテンツ特徴間の類似度が考慮される。β=0に設定することにより、STSモジュール212は、型内類似度の効果を顧慮しない。
等式1における類似度は、通常、オブジェクトの型およびアプリケーションによって決定され、異なる関数を使用して定義することができる。例えば、2つのWebページ間のコンテンツ類似度は、Webページのコンテントに由来する2つのキーワードベクトルのコサイン関数x∈X、y∈x.Rとして定義することが可能である。
特定のオブジェクトの関係特徴は、エントリが特定のオブジェクトに関係のあるオブジェクトに対応するMDOベクトル234によって表される。所定の実装において、各エントリは、関係の重みに対応する数値である。例えば、2つのオブジェクト型、X={x,x,L x}およびY={y,y,L y}を所与として、オブジェクトの型間関係は、V=[v,v,L,vとして定義され、ただし、v≠0の場合であり、それ以外の場合、v=0である。すると、Xの中の2つのオブジェクト間の型間関係RXY上の類似度Sinter−XYも、2つのベクトルのコサイン関数として定義することが可能である。
の中のオブジェクトが、複数のデータオブジェクト型と型間関係を有する場合、最終的な型間類似度は、すべての型間類似度の線形結合であることが可能である。
定義された類似度関数を使用して、STSモジュール212は、複数の履歴クエリ216および「他のMDO」218の間のレイヤ内関係/リンクおよびレイヤ間リンクを識別する。クラスタリングにおけるレイヤ間リンクの使用は、所定の型のオブジェクトのクラスタリングが別の型のオブジェクトによって影響を及ぼされる可能性があることを認識する。例えば、Webページオブジェクトのクラスタリングは、ユーザオブジェクトの構成、状態、および特性によって影響を及ぼされる可能性がある。したがって、それらのマイニングされたレイヤ内関係およびレイヤ間関係は、以下に説明するとおり、相互に関係のあるデータオブジェクトのクラスタ品質を向上させるのに使用される。マイニングされたレイヤ間およびレイヤ内データオブジェクト関係は、各オブジェクトのそれぞれのMDOベクトル234の中に格納される。
所定の実装において、識別されたレイヤ間リンク/関係は、例えば、以下の1つまたは複数を表す。すなわち、
・コンテントに関係のある情報、例えば、履歴クエリ216内のリンク、およびユーザが選択した(クリックスルーされた(clicked−thru))Webページに対応するリンク
・例えば、履歴クエリ216内のリンク、およびユーザ固有の情報により決定された、関連するトピックに対するユーザの関心
・例えば、ユーザ固有の情報と選択されたWebページの間のリンクを介して決定された、選択されたWebページに対するユーザの関心
所定の実装において、識別にされたレイヤ内リンク/関係(同一のデータ型のオブジェクト間の関係)は、例えば、以下の1つまたは複数を表す。すなわち、
・以下により詳細に説明する、クエリ内のリンク
・ユーザが選択したWebページ内の内向き/外向きの(directed in/out)ハイパーリンクで示される、推奨される(複数の)Webページ
・例えば、それぞれのユーザの間で識別された関係/リンクで示される人間関係。所定の実装において、この型の関係情報は、ユーザプロファイルの計算された類似度からマイニングされる。ユーザプロファイルには、例えば、人口統計、地理的位置、(複数の)関心などが含まれる。所定の実装において、ユーザプロファイルは、それぞれのユーザが供給するWebサイトアクセス情報を介してアクセスされる。
クエリ内のリンクに関して、クエリ内のリンクによって示されるレイヤ内関係は、初期の履歴クエリ216と後続のクエリ改良(refinement)(複数の履歴クエリ216のそれぞれのクエリによっても表現される)との間の、または後続のクエリ改良間のリンクを表現する。所定の実装において、そのような情報は、(複数の)クエリログ220から検索されたクリックスルーWebページ情報から抽出される。より詳細には、初期検索クエリ結果が満足のいくものでないと決定されると、ユーザは、初期クエリが送信された時点から設定可能な合計時間内に、1つまたは複数の改良されたクエリを検索エンジン228へ送信することが想定される。設定可能な合計時間は、クエリセッションを表現する。1回または複数回のそのような検索クエリの語の改良の後、ユーザは、満足のいく検索結果を獲得することができる。例えば、ユーザが、製品サポートのWebサイトを訪れ、「クッキー(cookie)」という初期クエリを送信することを考慮されたい。検索結果が満足のいくものでない(例えば、広すぎる)と決定されると、ユーザは、「クッキーを可能にする(enable cookie)」クエリの語に変更/改良して、より満足のいく検索結果を獲得することができる。
所定の実装において、STSモジュール212は、(複数の)クエリログ220の1つまたは複数の部分をそれぞれのクエリセッションにセグメント化することにより、クエリ内のリンクを識別する。各クエリセッションは、初期クエリ、1つまたは複数のクエリ改良、およびできる限り1つまたは複数のWebページクリックスルーの指示を含むことが可能である。初期クエリ、および1つまたは複数の関連するクエリ改良を分類するため、STSモジュール212は、各クエリセッションのクエリ間の語の類似度を計算する。類似度の1つまたは複数の閾値基準を満たす検索クエリが、クエリ内、および対応するクエリ改良内のリンクを生成するために選択される。所定の実装において、クエリの類似度を、例えば、段落(0038)で上述した例示的操作を使用して決定する。
複数のマルチ型データオブジェクト214の間の関係を複数のMDOベクトル234の対応するベクトルにおいてモデル化された関係特徴としてマッピングした後、従来のクラスタリング技術を使用して(すなわち、本明細書で開示する強化されたクラスタリング操作を使用せずに)、各型のデータオブジェクトを個々にクラスタリングすることも可能である。しかし、データオブジェクトを個々にクラスタリングすることさえ、最初は、実行可能であるように思われる可能性があるものの、この技術は、実質的に限られており、問題を抱えている。そのことの1つの理由は、関係のための特徴ベクトルのサイズが非常に大きくなるにつれ、オブジェクトの数が非常に多くなるためである。また、関係のあるオブジェクトの正確なマッチングに基づく、関係特徴に関して定義された類似度が、0でないエントリの希薄さにより悪化する。別の理由は、データオブジェクト間の(複数の)関係が、データオブジェクトに割り当てられた特徴に十分に反映されていない可能性があるが、クラスタリングプロセス自体の過程にだけ発見される可能性があることを、従来のクラスタリング技術が考慮しないためである。すなわち、既存のクラスタリング技術は、順にクラスタリング操作を行うことにより、後続の分析/クラスタリング操作においてデータを強化する際に有用な構造化された情報を提供できることを考慮しない。
STSモジュール212は、1つのデータオブジェクト型のクラスタリング結果をそのオブジェクトと関係のあるすべてのデータオブジェクト型に、それらのデータオブジェクト型のそれぞれの関係特徴を更新することによって少なくとも伝播させることにより、従来のクラスタリング技術の以上の問題/限界に対処する。すなわち、STSモジュール212は、強化された複数のクラスタ236のコンテントに基づく個々のマルチ型データオブジェクト214に対する指示されたデータオブジェクトの(複数の)関係を集約することにより、強化された複数のクラスタ236を生成する。例えば、クラスタリング後に2つの候補ノードが存在する場合、最も近接した2つの候補ノードを、例えば、その2つの候補ノードのベクトル値を平均することにより、マージすることができる。このマージが個々のノードを結合することにより、考慮すべきノードの数を減らすことが可能になる。真の意味において、(複数の)MDOベクトル234の次元を縮小する。次に、STSモジュール212は、(複数の)MDOベクトル234をクラスタリングする。このプロセスは、すべてのオブジェクト型のクラスタリング結果が収束するまで、繰り返し実行される。
反復クラスタリング射影技術は、均質の型のオブジェクトを各レイヤが含む、別々のレイヤに構成された別々の型のオブジェクトからクラスタリング情報を獲得することに依拠する。ノード情報をリンク情報と組み合わせて使用することにより、クラスタリングが収束するまで(クラスタリングアルゴリズムは、レイヤ間で提供される)、クラスタリングされた結果を繰り返し射影し、伝播させる。すなわち、各型の異なる種類のノードおよびリンクが調べられることにより、クラスタリングのために使用することができる構造情報が獲得される。構造情報は、例えば、異なるデータオブジェクトを接続するリンクの型(例えば、リンクが、レイヤ間リンクであるか、またはレイヤ内リンクであるか)を考慮することにより獲得することができる。所定の型のオブジェクトの結果を別の型のオブジェクトのクラスタリング結果に繰り返しクラスタリングすることにより、データの希薄さに関連するクラスタリングの困難を削減することができる。この反復射影により、所定のレイヤクラスタリングにおける類似測度を、別の型のクラスタの個々のグループの代わりのクラスタで計算する。
例えば、2つのオブジェクト型、X={x,x,L x}およびY={y,y,L y}の観点からプロセスを例示すると、STSモジュール212はまず、あらゆる従来のクラスタリング方法を使用して、Yの中のオブジェクトを{C,C,...,C}で表されるk個のクラスタにクラスタリングする。x∈Xの関係特徴ベクトルを含むMDOベクトル234は、最初、V=[v,v,L,vとして定義され、各成分がYの中の所定のオブジェクトに対応することを想い起こされたい。Yの中のクラスタにより、各成分がYの所定のクラスタに対応し、x.R∩C≠Φである場合、v’が0ではない、V’=[v’,v’,L,v’]でVを置き換える。v’の数値は、オブジェクトxからクラスタCの中の複数のオブジェクトに対する関係の数を表現する、|x.R∩C|に、または関連するオブジェクトの重要度(オブジェクト重要度は、以下に説明する)に設定することも可能である。したがって、Xの中のオブジェクトのクラスタリングは、この新たな型間関係特徴に基づく。プロセスは、所定の型のクラスタリング結果を別の型にそれらの型のレイヤ間関係により繰り返し射影することによって、収束まで続けられる。
以上の強化されたクラスタリングアルゴリズムの利点は、クラスタリング結果が、コンテントからのデータ分布を反映するだけでなく、他のデータ型との関係も反映することである。このアルゴリズムは、データ希薄性の問題もある程度、解決することができる。固定の特徴空間に関して類似度を定義する既存のクラスタリングアプローチと比較すると、マルチ型データオブジェクトの強化されたクラスタリングを行うための説明するシステムおよび方法は、クラスタリングプロセス中に2つのオブジェクト間で類似度を更新することにより、新たに発見された関係特徴空間に適応する。さらに、所定の実装において、あらゆる従来のクラスタリングアルゴリズムをこの提案するフレームワークに埋め込むことにより、クラスタリングパフォーマンスを向上させることができる。
(リンク分析およびオブジェクトの重要度)
一部のデータオブジェクトおよびアプリケーションに関して、同一型内の複数のマルチ型データオブジェクト214は、クラスタリングプロセスにおいて異なる重要度を有する可能性がある。通常の実施例には、若干のWebページが権威のあるページであるため、より重要である場合のWebページ/ユーザクラスタリング、および一部のユーザが、アイテムのふさわしさ(belongingness)を決定する際により権威を有するべき場合の、共同フィルタリングなどのためのアイテム/ユーザクラスタリングが含まれる。オブジェクトをノード見なし、オブジェクト間の(複数の)関係をリンクと見なした場合、HITSアルゴリズムなどの従来のリンク分析方法を使用することにより、各データオブジェクトの固有値を計算する。しかし、複数の型のデータオブジェクトが関係する場合、この方法は、異なる型のオブジェクトの重要度が比較できないため、うまく作用しない。
この問題に対処するため、マルチ型データオブジェクトの強化されたクラスタリングのための説明するシステムおよび方法は、次のとおりHITSアルゴリズムを拡張する。型内でオブジェクト重要度の相互強化を考慮するだけでなく、型間の相互強化も考慮する。各ノードには、ハブスコア(hub score)および権威スコア(authority score)が割り当てられる。
簡単にするため、提案するアルゴリズムを例示する実施例として、2つの型の相互に関係のあるオブジェクトを含むケースを使用することを続ける。2つの型のオブジェクト、X={x,x,L x}、Y={y,y,L y}、ならびにR、R、RXY、および方向性が考慮される場合RYXという関係を所与として、隣接する行列を使用してリンク情報を表現する。LおよびLがそれぞれ、集合XおよびY内のリンク構造の隣接する行列を表す。LXYおよびLYXが、Xの中のオブジェクトからYの中のオブジェクトへのリンクの隣接する行列を表す。例えば、ノードxからノードyへの所定のリンクが存在する場合、LXY(i,j)=1である。
次の2つのレベルの計算が存在する。すなわち、1つのレベルは、同一型からのオブジェクトのハブ値(hub value)および権威値(authority value)が、型内関係によって互いを強化することであり、他方のレベルは、異なる型のノードの重要度が、型間関係によって互いを強化することである。このアプローチにおける計算は、以下のとおり書き表される。
Figure 0004838529
ただし、a(X)およびh(X)はそれぞれ、X内のノードの権威スコアおよびハブスコアである。同様に、a(Y)およびh(Y)は、Y内のノードの権威スコアおよびハブスコアであり、i(X)およびi(Y)はそれぞれ、XおよびYの中のノードの重要度を表す。βおよびγは、異なる関係に由来するリンクの影響を調整する重みパラメータである。
計算の始めに、すべてのベクトル、a(X)、h(X)、a(Y)、およびh(Y)は、1に初期設定される。ハブスコアおよび権威スコアは、各反復時に等式(2)を使用して更新される。各反復の終了時に、ベクトルは、次の反復計算のために正規化される。このアルゴリズムは、各オブジェクト型内で正規化された一様な重要度を提供し、型間関係を介して他の型の関連するオブジェクトの重要度を考慮することにより、より妥当な結果を獲得する。
オブジェクトの重要度スコアを所与として、説明する強化されたクラスタリングプロセスは、オブジェクトの重要度を反映するように変更される。本実装において、k平均クラスタリングアルゴリズムが、重み付けされたk平均アルゴリズムに変更される。すなわち、クラスタ中心を計算する際、クラスタメンバの重み付けされた合計を新たな中心として使用して、クラスタがそれらの重要なオブジェクトの方にバイアスされるようにする。
以上の観点から、STSモジュール212は、複数のマルチ型データオブジェクト214の間における型間関係と型内関係の両方に基づき、マルチ型データオブジェクトの重要度を区別する。この重要度が、クラスタリングプロセスに組み込まれる。
(入札の語の例示的処理)
エンドユーザ(例えば、広告主、Webサイト主催者など)から(複数の)語208を受け取ったことに応答して、STSモジュール212は、(複数の)語208を複数の強化された語のクラスタ236の中の語/句のそれぞれの語/句と比較する。複数の強化された語のクラスタ236は、Webページおよびユーザとの語の相互関係に由来する、文脈上で互いに関係するだけでなく、意味上でも互いに関係する複数の語を含むので、(複数の)語208は、複数の関係のある履歴上の文脈、すなわち「意味」の観点から評価される。
所定の実装において、STSモジュール212により、(複数の)語208が、強化されたクラスタ236からの(複数の)語と合致すると決定する場合、検索語提案モジュール212は、強化されたクラスタ236から提案される語のリスト210を生成する。本実装において、合致は、正確な合致であっても、単数形/複数形、つづり間違い、句読点などの少数の違いを伴う合致であってもよい。戻されるリストは、FOOと信頼度値の結合により順に並べられる。
所定の実装において、(複数の)語がクラスタからの語に合致する場合、そのクラスタが、提案される語のリストの中でエンドユーザに戻される。提案される語のリスト210は、(複数の)語に意味上、および/または文脈上、関係があると決定された語/句、それぞれの(複数の)語と(複数の)語との類似測度(信頼度値)、およびそれぞれの(複数の)語出現頻度(FOO)を含む。戻されるリスト210は、FOOと信頼度値の結合により順に並べられる。
STSモジュール212により、語208が複数の強化された語のクラスタ236の中の語と合致すると決定する場合、検索語提案モジュール212により、複数の強化された語のクラスタ236の複数のクラスタの中の語から、複数の提案された語リスト210を生成する。複数のリストは、クラスタサイズにより順に並べられ、各リスト内の語は、FOOと信頼度値の結合により順に並べられる。
合致するクラスタがないと識別された場合、クエリの語は、低いFOOを有するクエリの語から生成された、拡張されたクラスタ群に対してさらにマッチングされる。所定の実装において、低いFOOを有するクエリ語は、高い出現頻度の履歴クエリログの語から生成された、複数の強化された語のクラスタ236に関する分類子(classifier)(例えば、K−最近傍(nearest neighbor)の分類子)を訓練することによってクラスタリングされる。低い出現頻度を有すると決定された履歴クエリの語が1つずつ、検索エンジンに送信される。次に、戻された検索結果の選定された検索結果(例えば、第1の最上位ランクのWebページ、および/または等)から、特徴が抽出される。抽出された特徴を、正規化し、低いFOOを有するクエリの語を表現するのに使用する。次に、クエリの語は、既存の複数のクラスタに分類することにより、訓練された分類子に基づいて複数の拡張されたクラスタが生成される。次に、エンドユーザが送信した(複数の)語を、これらの拡張されたクラスタの観点から評価することにより、提案される語のリストを識別し、エンドユーザに戻す。
(低いFOO語の分類)
高いFOO(出現頻度)のクエリの語222から生成され、強化された語の複数のクラスタ236が、エンドユーザが入力した(複数の)語208と同一の語を含まない場合、STSモジュール212により、高いFOO(出現頻度)のクエリログの語222から生成され、強化された語の複数のクラスタ236から、訓練された分類子238を生成する。強化された語の複数のクラスタ236の中の語は、分類操作に適切なベクトル空間モデルの中で対応するキーワードベクトルを既に有する。さらに、ストップワードの削除および単語のステミング(stemming)(接尾辞削除)により、(複数のクラスタ236が基づく)語のベクトル234の次元が縮小される。所定の実装において、さらなる次元縮小技術、例えば、特徴選択またはパラメータ変更(re−parameterization)を使用することができる。
本実装において、クラスが未知のクエリの語222を分類するため、STSモジュール212は、k−最近傍の分類子(k−Nearest Neighbor classifier)のアルゴリズムを使用することにより、クラスが既知のすべてのクエリの語222に対応する特徴ベクトルに依拠する、クラスが既知のすべてのクエリの語222の中でk個の最も類似した近傍を求め、近傍のクラスラベルの重み付けされたマジョリティ(weighted majority)を使用することにより、新たなクエリの語のクラスを予測する。この場合、既に強化された語の複数のクラスタ236の中にあるおのおののクエリの語には、対応するクラスタのラベルと同一のラベルが割り当てられる一方で、おのおのの強化されたクラスタ236には、単なるシーケンス番号でラベルが付けられる。それらの近傍には、Xに対する各近傍の類似度を使用して重みが付けられ、ただし、類似度は、2つのベクトルの間のユークリッド距離、またはコサイン値で測定される。コサイン類似度は、以下のとおりである。すなわち、
Figure 0004838529
ただし、Xは、試験語(test term)、すなわち、ベクトルとして表現される、分類されるべきクエリの語であり、Dは、第j番の訓練中の語であり、tは、XとDが共有する語であり、xは、Xの中のキーワードtの重みであり、dijは、Dの中のキーワードtの重みであり、
Figure 0004838529
は、Xのノルムであり、‖Dは、Dのノルムである。したがって、試験語Xのクラスラベルは、以下のとおり、すべての近傍のクラスラベルの重み付けされたマジョリティである。すなわち、
Figure 0004838529
別の実装において、最近傍の分類技術以外の異なる統計分類−機械学習技術(例えば、回帰モデル、ベイズ分類子、判定ツリー、ニューラルネットワーク、およびサポートベクトルマシンを含む)を使用して、訓練された分類子238が生成される。
STSモジュール212により、低いFOO(出現頻度)のクエリの語224を1つずつ(それぞれ検索クエリ227を介して)、検索エンジン228に送信する。特定の検索クエリ227に関連する(複数の)検索結果230を受け取ったことに応答し、既に説明した技術を使用して、STSモジュール212は、(複数の)検索結果230によって識別された1つまたは検索された検索結果230から、特徴を抽出する(抽出された特徴232)。本実装において、特徴は、第1の最上位ランクの(複数の)検索結果230から抽出される。おのおの検索され、解析された(複数の)検索結果230に関して、STSモジュール212は、抽出された特徴232のそれぞれのレコードの中に以下の情報を格納する。すなわち、URL、結果タイトル、クエリの語の短い説明および/または文脈、ならびに検索された検索結果230を獲得するのに使用された検索クエリ227である。次に、STSモジュール212は、低いFOOクエリの語224に由来する抽出済みの特徴232をトークン化し、次元を縮小し、正規化することにより、語の複数のベクトル234を生成する。次に、STSモジュール212は、クエリの語を、語のクラスタ236のそれぞれの集合にクラスタリングする。このクラスタリング操作は、(高いFOOクエリの語222から生成された)訓練された分類子238を使用して実行される。
STSモジュール212は、(低いFOOクエリの語224に基づいて生成された、)これらの拡張された語の複数のクラスタの観点からエンドユーザが送信した(複数の)語208を評価することにより、1つまたは複数の提案される語のリスト210を識別し、エンドユーザに戻す。例示的なそのような手続きを段落(0063)および段落(0066)で上述しており、以下のセクションで説明する。
(例示的な検索語提案のリスト)
提案される語のリスト210は、例えば、(複数の)語208に関係があると決定された語、それぞれの(複数の)語と(複数の)語208との類似測度(信頼度値)、およびそれぞれの(複数の)語のFOO(出現頻度)、すなわち、履歴クエリログ内の頻度を含む。関係のある(複数の)語を識別する、類似測度を生成する、およびFOO値を生成するための技術は、上述した。
表1は、「mail」という語208に関係があると決定された語の例示的な提案される語のリスト210を示す。本実施例では、(複数の)語208に関係のある語が、「提案される語」という題名が付けられた第1列の中に示されている。
Figure 0004838529
表1を参照して、提案される語のリストの中の語が、語類似度値(「類似度」という題名が付いた第2列を参照)および出現頻度スコア(「頻度」という題名が付いた第3列を参照)にマッピングされていることに留意されたい。「語のクラスタリング」という題名が付いたセクションにおいて後述するとおり計算される各語類似度値は、対応する提案される語(第1列)と、本実施例では「mail」である(複数の)語208との間の類似測度を提供する。各頻度値、または頻度スコアは、履歴クエリログ内で提案される語が出現する回数を示す。提案される語のリストを、事業目標の相関的要素としての語の類似度、および/または出現頻度スコアの相関的要素としてソートする。
あらゆる所与の(複数の)語208(例えば、mailなど)も、入札の語が使用されることが可能な1つに留まらない文脈を有することが可能である。そのことを考慮に入れるため、STSモデル212は、いずれの提案される語が(複数の)語208の複数の文脈のいずれに対応するかという指示を、提案される語リスト210の中で提供する。例えば、表1を参照すると、「mail」という(複数の)語208は、次の2つの文脈を有する。すなわち、(1)従来のオフラインメール、および(2)オンライン電子メールである。関係のある語のそれぞれのリストを、それら2つの入札の語の文脈のおのおのに関して示すことに留意されたい。
さらに、あらゆる(複数の)語208に関して提案される語は、入札の語の複数の同義語であることも可能である。例えば、表1を参照すると、提案される語「usps」は、メールを扱う組織の頭字語であり、入札の語「mail」の同義語ではない。しかし、「usps」も、「mail」の入札の語に非常に強い関係の語であり、したがって、提案される語のリスト210の中で示されている。所定の実装において、STSモデル212は、次の関連付け規則、すなわち、itr(T)→itr(R)の相関的要素として、関係のある語R(例えば、「usps」)と関係のある語T(例えば、「mail」)との間の関係を決定する。ただし、「itr」は、「関心がある」を表現する。ユーザ(広告主、Webサイト主催者、および/または等)がRに関心がある場合、そのユーザは、Tにも関心がある。
(例示的処理手順)
図3は、検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための例示的処理手順300を示す。説明の目的のために、処理手順の操作は、図2の特徴に関連して説明する。(すべての参照符号は、構成要素が最初に導入される図面の番号で始める)。ブロック302では、STS(検索語提案)モジュール212(図2)により、クエリログ220から履歴クエリの語216を収集する。STSモジュール212により、出現頻度の相関的要素として履歴クエリ216を構成する。ブロック304では、STSモジュール212により、高い出現頻度のクエリの語222を検索エンジン228に送信し、対応する検索結果230を受け取る。ブロック306では、STSモジュール212により、おのおのの(複数の)検索結果230からスニペット(snippet)記述を抽出し、そのスニペット記述(抽出された特徴232)を一緒にマージすることにより、複数のMDOベクトル234に基づく語を形成する。それぞれの高い出現頻度のクエリの語222のおのおのに関して、それぞれの語のベクトルが生成される。
ブロック308では、STSモジュール212により、例えば、(複数の)クエリログ220、Webサイトのユーザアクセス情報などから、「他のMDO」218をマイニングする。STSモジュール212により、マイニングされた「他のMDO」218の特徴空間を表現するそれぞれの複数のMDOベクトル234が生成される。ブロック310では、STSモジュール212により、MDO214のそれぞれのMDOの間におけるオブジェクト内およびオブジェクト間関係/リンクを識別する。ブロック312では、STSモジュール212により、MDO214のそれぞれのMDOベクトル234に基づいてMDO214の強化されたクラスタリングを実行することにより、強化されたクラスタ236を生成する。ブロック312の異質なデータオブジェクトの強化されたクラスタリングの詳細を、図5を参照して以下に説明する。処理手順300は、ページ上の参照符号「A」で示すとおり、図4のブロック402に継続する。
図4は、検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための図3における例示的処理手順300の続きである。説明の目的のために、処理手順の操作は、図2の特徴に関連して説明する。ブロック402では、エンドユーザから(複数の)語208(図2)を受け取ったことに応答して、STSモジュール212により、(複数の)語208に大いに類似し、関係があると決定された、強化された語の複数のクラスタ236からのあらゆる(複数の)語から、提案される語のリスト210を生成する。異なるオブジェクト型の間の相互関係を使用することにより、クラスタリングを向上させる。ブロック404では、STSモジュール212により、キーワードクラスタ236からのあらゆる(複数の)語が、(複数の)語208に大いに類似する/関係のあると決定されたかどうかを決定する。類似する/関係のあると決定された場合、処理手順は、ブロック406に続き、STSモジュール212により、対応する提案される語のリスト210をエンドユーザに送信する。類似しない/関係がない場合、処理手順は、ページ上の参照符号「B」で示すとおり、図5のブロック502に継続する。
図5は、検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための、図3および図4における例示的処理手順300の続きである。説明の目的のために、処理手順の操作は、図2の特徴に関連して説明する。(すべての参照符号は、構成要素が最初に導入される図面の番号で始める)。ブロック502では、STSモジュール212により、強化された語の複数のクラスタ236から分類子238(訓練された分類子)を生成し、複数のクラスタ236は、この時点で、高い出現頻度のクエリの語222に基づいている。ブロック504では、STSモジュール212により、低い出現頻度のクエリの語224を1つずつ検索エンジン228に送信し、対応する検索結果230を受け取る。ブロック506では、STSモジュール212により、検索結果230からスニペット記述(抽出された特徴232)を抽出し、その記述から語の複数のベクトル234を生成する。
ブロック508では、STSモジュール212により、訓練された分類子238の観点から、低い出現頻度のクエリの語224から生成された語の複数のベクトル234を分類することにより、低い出現頻度のクエリの語224に基づくそれぞれの強化された語の複数のクラスタ236を生成する。ブロック510では、STSモジュール212により、(複数の)語208と大いに類似すると決定された低い出現頻度のクエリの語224に基づく強化された語の複数のクラスタ236からのキーワード/重要句から、提案される語のリスト210を生成する。ブロック512では、STSモジュール212により、提案される語のリスト210をエンドユーザに送信する。
図6は、図3のブロック312の強化されたクラスタリング操作の例示的な詳細を示す。説明の目的のために、ブロック310の操作は、図1および図2の特徴に関連して説明する。STSモジュール212により実装される強化されたクラスタリングアルゴリズムへの入力には、グラフ100のようなマルチレイヤのフレームワークグラフが含まれ、グラフ100は、識別され、重みが付けられたオブジェクト間およびオブジェクト内関係を含む、対応する複数のノードのコンテント特徴fiおよびgjを含む。このクラスタリングアルゴリズムの出力には、マルチ型データオブジェクトの強化されたクラスタリングを反映する新たなフレームワークグラフ100が含まれる。新たなフレームワークグラフの若干の実装において、新たなノード位置に変更され、および/またはグラフ100の次元を縮小するために別のノードとマージされた各々の古いノードの変化を例示することが可能である。
ブロック602では、元のフレームワークグラフが(各クラスタリング反復の前に)入力される。ブロック604では、考慮されている各ノードの重要度が、等式(2)を使用して決定または計算される。ブロック606では、任意のレイヤが、クラスタリングのために選択される。ブロック608では、選択されたレイヤの中のノードを適切となるようにクラスタリングすることにより(例えば、コンテント特徴に従って)、強化されたクラスタ236が生成される。若干の実装において、ノードは、所望のフィルタリングアルゴリズム(図示せず)を使用してフィルタ処理することにより、クラスタリングを向上させることができる。ブロック610では、各クラスタの複数のノードが1つのノードにマージされる。例えば、フィルタ処理の後に2つの候補ノードが存在する場合、最も近接した2つの候補ノードを、例えば、その2つの候補ノードのベクトル値を平均することにより、マージすることができる。このマージにより、個々のノードを結合することができることによって、考慮されなければならないノードの数を減らすことが可能になる。真の意味において、マージする操作を使用することにより、重複または重複に近いノード(near−duplicate)の出現を減らすことができる。ブロック612では、610におけるマージに基づいて、対応するリンクが更新される。ブロック614では、クラスタリングアルゴリズムは、クラスタリングのために第2のレイヤに(任意に選択されたレイヤから)切り替える。ブロック312の操作は、ページ上の参照符号「C」で示されるとおり図7のブロック702に継続する。
図6の操作を参照すると、最初のクラスタリングパス(pass)において、コンテント特徴だけが利用されることに留意されたい。ほとんどのケースでは、リンク特徴は、当初は、希薄すぎてクラスタリングに役立たない。図7を参照して以下に説明する、後続のクラスタリングパスでは、コンテント特徴とリンク特徴とを結合することにより、クラスタリングの有効性が高められる。コンテント特徴とリンク特徴とを結合することにより、重みを異なる値で指定し、結果を比較することが可能であり、向上した精度を有するクラスタリングを提供することが可能である。
図7は、図3および図6のブロック312の強化されたクラスタリング操作の例示的な続きを示す。ブロック702では、第2のレイヤの複数のノードが、複数のノードのコンテント特徴および更新されたリンク特徴に従ってクラスタリングされる。ブロック704では、各クラスタの複数のノードが1つのノードにマージされる。ブロック706では、他方のレイヤの元のリンク構造および元の複数のノードが復元される。ブロック708では、第2のレイヤの各クラスタの複数のノードがマージされ、対応するリンクが更新される。ブロック710では、この反復クラスタリングプロセスが、コンピュータ環境内で継続される。ブロック712では、フレームワークグラフ100の改訂されたバージョンを出力する。
(例示的動作環境)
図8は、検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための、図2におけるシステム200、および図3から図6の方法を完全に、または部分的に実装することができる適切なコンピュータ処理環境800の例を例示する。例示的コンピュータ処理環境800は、適切なコンピュータ処理環境の一例に過ぎず、本明細書で説明するシステムおよび方法の用法または機能の範囲について何ら限定を示唆することを意図するものではない。また、コンピュータ処理環境800は、コンピュータ処理環境800に例示したコンポーネントのいずれの1つ、または組み合わせに関連する依存関係または要件も有するものと解釈してはならない。
本明細書で説明する方法およびシステムは、他の多数の汎用または専用の、コンピュータ処理システムの環境または構成で機能する。使用に適する可能性がある周知のコンピュータ処理のシステム、環境、および/または構成の例には、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたは装置のいずれかを含む分散コンピュータ処理環境などが含まれるが、以上には限定されない。また、フレームワークのコンパクトまたはサブセットのバージョンを、ハンドヘルドコンピュータ、または他のコンピュータ処理装置などの、限られたリソースのクライアントにおいて実装することもできる。本発明は、通信ネットワークを介してリンクされたリモート処理ユニット群によってタスクが実行される分散コンピュータ処理環境において実施される。分散コンピュータ処理環境では、プログラムモジュール群は、ローカルおよびリモートのメモリ記憶装置の両方の中に配置することができる。
図8を参照すると、検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための例示的システムは、コンピュータ810の形態で汎用コンピュータ処理装置を含む。コンピュータ810の以下に説明する態様は、クライアントコンピュータ処理装置PSSサーバ202(図2)および/またはクライアントコンピュータ処理装置206の例示的実装である。コンピュータ810のコンポーネントには、処理ユニット(群)820、システムメモリ830、ならびにシステムメモリから処理ユニット820までを含む様々なシステムコンポーネントを結合するシステムバス821を含むことができるが、以上には限定されない。システムバス821は、メモリバスまたはメモリコントローラ、周辺バス、およびあらゆる様々なバスアーキテクチャを使用するローカルバスを含め、いくつかの型のバス構造のいずれであることも可能である。例として、限定としてではなく、そのようなアーキテクチャには、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、エンハンストISA(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるペリフェラルコンポーネントインターコネクト(PCI)バスを含むことが可能である。
コンピュータ810は、通常、様々なコンピュータ読取可能な媒体を含む。コンピュータ読取可能な媒体は、コンピュータ810によりアクセスすることができるあらゆる利用可能な媒体であることが可能であり、揮発性および不揮発性の媒体、取り外し可能および固定の媒体がともに含まれる。例として、限定としてではなく、コンピュータ読取可能な媒体は、コンピュータ記憶媒体および通信媒体を備えることが可能である。コンピュータ記憶媒体には、コンピュータ読取可能な命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するためにあらゆる方法または技術で実装された、揮発性および不揮発性の、取り外し可能および固定の媒体が含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置、または所望の情報を格納するのに使用することができおよびコンピュータ810によりアクセスすることができるあらゆる他の媒体が含まれるが、以上には限定されない。
通信媒体は、通常、コンピュータ読取可能な命令、データ構造、プログラムモジュールまたは搬送波もしくは他の移送機構などの変調されたデータ信号の中の他のデータを含み、およびあらゆる情報配信媒体が含まれる。「変調されたデータ信号」という用語は、信号内に情報を符号化するような形で、特性の1つまたは複数が設定または変更された信号を意味する。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、RF、赤外線、および他の無線媒体などの無線媒体が含まれる。以上の媒体のいずれか媒体の組み合わせも、コンピュータ読取可能な媒体の範囲内に含められなければならない。
システムメモリ830は、読み出し専用メモリ(ROM)831およびランダムアクセスメモリ(RAM)832などの、揮発性および/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。始動中などにコンピュータ810内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム(BIOS)833が、通常、ROM831の中に格納される。RAM832は、通常、処理ユニット820により即時にアクセス可能および/または現在処理中のデータおよび/またはプログラムモジュール群を含む。例として、限定としてではなく、図8は、オペレーティングシステム834、アプリケーションプログラム群835、他のプログラムモジュール群836、およびプログラムデータ838を例示する。所定の実装において、コンピュータ810は、PSSサーバ202である。本シナリオにおいて、アプリケーションプログラム群835は、検索語提案モデル212を含む。この同一のシナリオでは、プログラムデータ838は、マルチ型データオブジェクト214、検索結果230、抽出された特徴232、MDOベクトル群234、強化されたクラスタ群236、訓練された分類子238、および他のデータ226を含む。
コンピュータ810は、他の取り外し可能/固定の、揮発性/不揮発性のコンピュータ記憶媒体も含むことが可能である。単に例として、図8は、固定の不揮発性の磁気媒体に対して読み出しまたは書き込みを行うハードディスクドライブ841、取り外し可能な不揮発性の磁気ディスク852に対して読み出しまたは書き込みを行う磁気ディスクドライブ851、およびCD−ROMまたは他の光媒体などの取り外し可能な不揮発性の光ディスク856に対して読み取りまたは書き込みを行う光ディスクドライブ855を例示する。例示的動作環境において使用することができる他の取り外し可能な/固定の、揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体素子RAM、固体素子ROMなどが含まれるが、以上には限定されない。ハードディスクドライブ841は、通常、インタフェース840などの固定のメモリインタフェースを介してシステムバス821に接続され、ならびに磁気ディスクドライブ851および光ディスクドライブ855は、通常、インタフェース850などの取り外し可能なメモリインタフェースによりシステムバス821に接続される。
以上に説明し、図8に例示した駆動装置、および関連するコンピュータ記憶媒体により、コンピュータ読取可能な命令、データ構造、プログラムモジュール、および他のデータのストレージがコンピュータ810に提供される。図8では、例えば、ハードディスクドライブ841が、オペレーティングシステム844、アプリケーションプログラム群845、他のプログラムモジュール群846、およびプログラムデータ848を格納しているのを例示する。これらのコンポーネントは、オペレーティングシステム834、アプリケーションプログラム群835、他のプログラムモジュール群836、およびプログラムデータ838と同一であることも、異なることも可能であることに留意されたい。オペレーティングシステム844、アプリケーションプログラム群845、他のプログラムモジュール群846、およびプログラムデータ848に、本明細書では、それらが少なくとも異なるコピーであることを例示するために異なる参照符号を付ける。
ユーザは、キーボード862および、マウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティング装置861などの入力装置群を介して、コマンドおよび情報をコンピュータ810に入力することができる。他の入力装置群(図示せず)には、マイクロフォン、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどを含むことが可能である。以上および他の入力装置群は、システムバス821に結合されたユーザ入力インタフェース860を介して処理ユニット820に接続される場合が多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの、他のインタフェースおよびバス構造により接続してもよい。
また、モニタ891または他の型のディスプレイ装置も、ビデオインタフェース890のようなインタフェースを介して、システムバス821に接続される。モニタに加えて、コンピュータは、出力周辺インタフェース895を介して接続することができるスピーカ898やプリンタ896などの、他の周辺出力装置群も含むことが可能である。
コンピュータ810は、リモートコンピュータ880など、1つまたは複数のリモートコンピュータへの論理接続を使用するネットワーク化された環境において動作する。リモートコンピュータ880は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア装置、または他の共通のネットワークノードであることが可能であり、コンピュータ880の特定の実装との相関的要素として、コンピュータ810に関係のある上述した要素の多くまたはすべてを含むことが可能であるが、メモリ記憶装置881だけを図8に例示している。図8に示す論理接続には、ローカルエリアネットワーク(LAN)881およびワイドエリアネットワーク(WAN)883を含むが、他のネットワークも含むことが可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットで一般的に見られる。
LANネットワーキング環境において使用される場合、コンピュータ810は、ネットワークインタフェースまたはネットワークアダプタ880を介してLAN881に接続される。WANネットワーキング環境において使用される場合、コンピュータ810は、通常、モデム882、またはインターネットなどのWAN883を介して通信を確立するための他の手段を含む。モデム882は、内蔵型でも外付け型でもよく、ユーザ入力インタフェース860、または他の適切な機構を介してシステムバス821に接続することができる。ネットワーク化された環境では、コンピュータ810との関係を示したプログラムモジュール群、またはプログラムモジュール群の一部は、リモートメモリ記憶装置の中に格納することができる。例として、限定としてではなく、図8は、リモートアプリケーションプログラム群885がメモリ装置881上に存在するのを例示する。示したネットワーク接続は例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用することができる。
(結論)
検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うためのシステムおよび方法を、構造上の特徴、および/または方法上の操作もしくは動作に特有の言い回しで説明してきたが、添付の特許請求の範囲において定義する実装は、説明した特定の特徴または動作に必ずしも限定されないことを理解されたい。例えば、マルチ型データオブジェクトの強化されたクラスタリングを、検索語提案のアプリケーションに関して説明したが、マルチ型データオブジェクトの強化されたクラスタリングは、クラスタリングを利用する他の多くの型のアプリケーションにも適用することができる。したがって、特定の特徴および動作を、請求の対象を実装するための例示的形態として開示する。
異質なデータオブジェクト/ノードの複数のレイヤ102、ならびに関連するレイヤ間およびレイヤ内データオブジェクトリンク/関係を含むマルチレイヤフレームワークグラフ100を示す図である。 検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための例示的システムを示す図である。 検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための例示的処理手順を示す図である。 検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための図3の例示的処理手順300の続きを示す図である。 検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための図3および図4の例示的処理手順300の続きを示す図である。 図3のブロック312の強化されたクラスタリング操作の例示的詳細を示す図である。 図3のブロック312および図6の強化されたクラスタリング操作の例示的続きを示す図である。 検索語提案のためにマルチ型データオブジェクトの強化されたクラスタリングを行うための上述のシステム、装置、および方法を完全に、または部分的に実装することができる適切な例示的コンピュータ処理環境を示す図である。

Claims (22)

  1. コンピューティングデバイスにより実行される方法であって、
    第1の型の少なくとも1つのオブジェクト、および前記第1の型とは異なる第2の型の少なくとも1つのオブジェクトを含むマルチ型データオブジェクトの間の関係を処理ユニットが決定するステップであって、前記関係は、前記マルチ型データオブジェクトの間のレイヤ内関係か、レイヤ間関係かのうち少なくとも1である、ステップと、
    前記関係に基づいて前記マルチ型データオブジェクトを繰り返しクラスタリングして強化されたクラスタを前記処理ユニットが生成するステップと、
    ユーザから送信される語に関係のある、提案される検索語のリストを、前記強化されたクラスタを利用して前記処理ユニットが生成するステップであって、前記検索語は、前記ユーザから送信される語の受信に応答して生成される、ステップと、
    ネットワークインターフェースを介して、前記提案される検索語のリストをユーザへ前記処理ユニットが送信するステップと、
    次の
    Figure 0004838529
    を使用してノードの権威スコアおよびハブスコアを更新することによって、オブジェクト型内および異なるオブジェクト型の間での前記マルチ型データオブジェクトの個々のオブジェクト重要度の相互強化を前記処理ユニットが行うステップであって、X={x 1 ,x 2 ,・・・ x m }およびY={y 1 ,y 2 ,・・・ y n }はR X 、R Y 、R XY 、およびR YX の関係を有する異質のオブジェクト型のそれぞれのオブジェクトの集合を表現し、方向性が考慮される場合、L X およびL Y はそれぞれ集合XおよびY内の関係を識別するリンクの隣接する行列を表現し、L XY およびL YX はXの中のオブジェクトからYの中のオブジェクトへの関係を識別するリンクの隣接する行列を表現し、a(X)およびh(X)はそれぞれX内のノードの権威スコアおよびハブスコアであり、a(Y)およびh(Y)は、Y内のノードの権威スコアおよびハブスコアを表し、i(X)およびi(Y)はそれぞれXおよびYの中のノードの重要度を表し、βおよびγは異なる関係に由来するリンクの影響を調整するための重みパラメータである、ステップと
    を備えたことを特徴とする方法。
  2. 前記レイヤ間関係は、コンテントに関係のある情報、関連トピックに対するユーザの関心、および関連Webページに対するユーザの関心のうち少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  3. 前記レイヤ内関係は、クエリ改良、推奨されるWebページ、およびそれぞれのユーザの間の関係のうち少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  4. 前記マルチ型データオブジェクトの各々は、選択されたWebページ型およびユーザ情報型のうち少なくとも1つに関係のあることを特徴とする請求項1に記載の方法。
  5. 前記レイヤ内関係は、前記マルチ型データオブジェクトの関連付けるオブジェクトに対する重要度を示すための第1の重み付けの仕組み、および前記第1の重み付けの仕組みとは異なる第2の重み付けの仕組みを含むことを特徴とする請求項1に記載の方法。
  6. 前記識別するステップおよび繰り返しクラスタリングするステップは、検索語提案のために実行されることを特徴とする請求項1に記載の方法。
  7. 前記繰り返しクラスタリングするステップは、第1の反復のクラスタリング結果を前記マルチ型データオブジェクトのすべての関係のあるデータオブジェクトに前記処理ユニットが伝播させるステップを含み、前記関係のあるデータオブジェクトの少なくとも2つは異質のデータの型であり、前記クラスタリング結果により形成される特徴空間は、強化されたクラスタリング操作の第2の反復において前記マルチ型データオブジェクトのそれぞれのオブジェクトのクラスタリングを高めるために使用されることを特徴とする請求項1に記載の方法。
  8. 前記繰り返しクラスタリングするステップは、前記マルチ型データオブジェクトの個々のオブジェクトの間の類似度を前記処理ユニットが決定するステップを含み、前記類似度はオブジェクト間およびオブジェクト内のコンテンツの類似度、ならびに前記識別された関係の少なくとも1つの間の類似度の少なくとも1つの関数であることを特徴とする請求項1に記載の方法。
  9. 前記繰り返しクラスタリングするステップは、前記マルチ型データオブジェクトの関係のあるオブジェクトをマージして、前記関係のあるオブジェクトの特徴空間の次元を前記処理ユニットが縮小するステップを含むことを特徴とする請求項1に記載の方法。
  10. オブジェクト型内および異なるオブジェクト型の間の前記マルチ型データオブジェクトの個々のオブジェクト重要度相互強化を前記処理ユニットが行うステップをさらに含むことを特徴とする請求項1に記載の方法。
  11. 前記送信される語と前記強化されたクラスタの中のオブジェクトの特徴空間とを比較して、前記提案される検索語を前記処理ユニットが識別するステップ
    をさらに備えたことを特徴とする請求項1に記載の方法。
  12. コンピュータに、
    第1の型の少なくとも1つのオブジェクト、および前記第1の型とは異なる第2の型の少なくとも1つのオブジェクトを含む、マルチ型データオブジェクトの間のレイヤ内およびレイヤ間関係の少なくとも1つを決定する手順と、
    前記少なくとも1つの関係によって前記マルチ型データオブジェクトを繰り返しクラスタリングすることにより強化されたクラスタ群を生成する手順と、
    ユーザから送信される語に関係のある、提案される検索語のリストを、前記強化されたクラスタを利用して生成する手順であって、前記提案される検索語は、前記ユーザから送信される語の受信に応答して生成される、手順と、
    次の
    Figure 0004838529
    を使用してノードの権威スコアおよびハブスコアを更新することによって、オブジェクト型内および異なるオブジェクト型の間での前記マルチ型データオブジェクトの個々のオブジェクト重要度の相互強化を行う手順であって、X={x 1 ,x 2 ,・・・ x m }およびY={y 1 ,y 2 ,・・・ y n }はR X 、R Y 、R XY 、およびR YX の関係を有する異質のオブジェクト型のそれぞれのオブジェクトの集合を表現し、方向性が考慮される場合、L X およびL Y はそれぞれ集合XおよびY内の関係を識別するリンクの隣接する行列を表現し、L XY およびL YX はXの中のオブジェクトからYの中のオブジェクトへの関係を識別するリンクの隣接する行列を表現し、a(X)およびh(X)はそれぞれX内のノードの権威スコアおよびハブスコアであり、a(Y)およびh(Y)はそれぞれY内のノードの権威スコアおよびハブスコアを表し、i(X)およびi(Y)はそれぞれXおよびYの中のノードの重要度を表し、βおよびγは異なる関係に由来するリンクの影響を調整するための重みパラメータである、手順
    を実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。
  13. 前記レイヤ間関係は、コンテントに関係のある情報、関連トピックに対するユーザの関心、および関連Webページに対するユーザの関心のうち1つを含むことを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  14. 前記レイヤ内関係は、クエリ改良、推奨されるWebページ、およびそれぞれのユーザの間の関係のうち少なくとも1つを含むことを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  15. 前記マルチ型データオブジェクトのそれぞれは、検索クエリデータオブジェクト型、選択されたWebページ型、およびユーザ情報型のうち少なくとも1つに関係のあることを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  16. 前記決定された関係のうち少なくとも1つに重みを付けることによって、前記マルチ型データオブジェクトの関連するオブジェクトに対する重要度を示すことを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  17. 前記識別する手順および繰り返しクラスタリングする手順は、検索語提案のために実行されることを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  18. 前記繰り返しクラスタリングする手順は、第1の反復のクラスタリング結果を前記マルチ型データオブジェクトのすべての関係のあるデータオブジェクトに伝播させる手順を含み、前記関係のあるデータオブジェクトの少なくとも2つは異質のデータの型であり、前記クラスタリング結果により形成される特徴空間は、強化されたクラスタリング操作の第2の反復において前記マルチ型データオブジェクトのそれぞれのオブジェクトのクラスタリングを高めるために使用されることを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  19. 前記繰り返しクラスタリングする手順は、前記マルチ型データオブジェクトの個々のオブジェクトの間の類似度を決定する手順を含み、前記類似度はオブジェクトコンテンツの類似度および前記識別された関係の少なくとも1つの間の類似度の少なくとも1つの関数であることを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  20. 前記繰り返しクラスタリングする手順は、前記マルチ型データオブジェクトの関係のあるオブジェクトをマージすることによって前記関係のあるオブジェクトの特徴空間の次元を縮小する手順を含むことを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  21. 前記コンピュータに、オブジェクト型内および異なるオブジェクト型の間で前記マルチ型データオブジェクトの個々のオブジェクトの重要度相互強化を行う手順をさらに実行させることを特徴とする請求項12に記載のコンピュータ読取可能な記録媒体。
  22. 前記コンピュータに、前記送信される語と前記強化されたクラスタの中のオブジェクトの特徴空間とを比較して、前記提案される検索語を識別する手順を実行させることを特徴とする請求項12に記載のコンピュータ読取可能な媒体。
JP2005118052A 2004-04-15 2005-04-15 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング Expired - Fee Related JP4838529B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/826,159 US7689585B2 (en) 2004-04-15 2004-04-15 Reinforced clustering of multi-type data objects for search term suggestion
US10/826,159 2004-04-15

Publications (3)

Publication Number Publication Date
JP2005302043A JP2005302043A (ja) 2005-10-27
JP2005302043A5 JP2005302043A5 (ja) 2008-05-29
JP4838529B2 true JP4838529B2 (ja) 2011-12-14

Family

ID=34939301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005118052A Expired - Fee Related JP4838529B2 (ja) 2004-04-15 2005-04-15 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング

Country Status (5)

Country Link
US (1) US7689585B2 (ja)
EP (1) EP1587012A3 (ja)
JP (1) JP4838529B2 (ja)
KR (1) KR101043523B1 (ja)
CN (1) CN100465954C (ja)

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921068B2 (en) * 1998-05-01 2011-04-05 Health Discovery Corporation Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources
US8275673B1 (en) 2002-04-17 2012-09-25 Ebay Inc. Method and system to recommend further items to a user of a network-based transaction facility upon unsuccessful transacting with respect to an item
US7831476B2 (en) 2002-10-21 2010-11-09 Ebay Inc. Listing recommendation in a network-based commerce system
US7836076B2 (en) * 2004-08-20 2010-11-16 Hewlett-Packard Development Company, L.P. Distributing content indices
US8065316B1 (en) * 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
KR100669971B1 (ko) * 2004-11-24 2007-01-16 엔에이치엔(주) 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템
US20060122976A1 (en) * 2004-12-03 2006-06-08 Shumeet Baluja Predictive information retrieval
US20060179026A1 (en) 2005-02-04 2006-08-10 Bechtel Michael E Knowledge discovery tool extraction and integration
US20060179069A1 (en) * 2005-02-04 2006-08-10 Bechtel Michael E Knowledge discovery tool navigation
WO2006088780A2 (en) 2005-02-12 2006-08-24 Teresis Media Management, Inc. Methods and apparatuses for assisting the production of media works and the like
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
KR101374651B1 (ko) * 2005-03-18 2014-03-17 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US8200687B2 (en) 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US7529744B1 (en) * 2005-06-30 2009-05-05 Symantec Corporation Search interface server and storage management
US9715542B2 (en) * 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US7801893B2 (en) * 2005-09-30 2010-09-21 Iac Search & Media, Inc. Similarity detection and clustering of images
US8019752B2 (en) * 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US7788131B2 (en) * 2005-12-15 2010-08-31 Microsoft Corporation Advertising keyword cross-selling
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN101460942A (zh) * 2006-03-31 2009-06-17 依玛奇灵控股有限公司 使用感情偏好进行电脑化搜索及匹配的方法及系统
US7610255B2 (en) * 2006-03-31 2009-10-27 Imagini Holdings Limited Method and system for computerized searching and matching multimedia objects using emotional preference
US20080033918A1 (en) * 2006-08-02 2008-02-07 Wilson Jeffrey L Systems, methods and computer program products for supplemental data communication and utilization
US8301704B2 (en) * 2006-09-20 2012-10-30 Facebook, Inc. Electronic message system recipient recommender
US7996456B2 (en) * 2006-09-20 2011-08-09 John Nicholas and Kristin Gross Trust Document distribution recommender system and method
US20080071774A1 (en) * 2006-09-20 2008-03-20 John Nicholas Gross Web Page Link Recommender
KR100828560B1 (ko) 2006-09-22 2008-05-13 엔에이치엔(주) 검색 대상과 연관된 단어를 추천하는 방법 및 상기 방법을수행하는 시스템
US7783640B2 (en) * 2006-11-03 2010-08-24 Oracle International Corp. Document summarization
US8037051B2 (en) * 2006-11-08 2011-10-11 Intertrust Technologies Corporation Matching and recommending relevant videos and media to individual search engine results
US7926026B2 (en) * 2006-12-20 2011-04-12 Sap Ag Graphical analysis to detect process object anomalies
US7739247B2 (en) * 2006-12-28 2010-06-15 Ebay Inc. Multi-pass data organization and automatic naming
US7849104B2 (en) * 2007-03-01 2010-12-07 Microsoft Corporation Searching heterogeneous interrelated entities
CN101266603B (zh) * 2007-03-12 2010-09-08 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101276361B (zh) * 2007-03-28 2010-09-15 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
US20080250008A1 (en) * 2007-04-04 2008-10-09 Microsoft Corporation Query Specialization
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US8037042B2 (en) * 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US8051040B2 (en) 2007-06-08 2011-11-01 Ebay Inc. Electronic publication system
US20090037440A1 (en) * 2007-07-30 2009-02-05 Stefan Will Streaming Hierarchical Clustering
US8171035B2 (en) 2007-10-22 2012-05-01 Samsung Electronics Co., Ltd. Situation-aware recommendation using correlation
US8166052B2 (en) * 2007-10-22 2012-04-24 Samsung Electronics Co., Ltd. Situation recognition for recommendation using merge-split approach
US8019782B2 (en) * 2007-10-22 2011-09-13 Samsung Electronics Co., Ltd. Situation-aware recommendation using limited cluster sizes
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US7962507B2 (en) 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
US20100332485A1 (en) * 2007-11-30 2010-12-30 Nokia Corporation Ordering of data items
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
JP2009176072A (ja) * 2008-01-24 2009-08-06 Nec Corp 要素集団抽出システム、要素集団抽出方法およびプログラム
US10269024B2 (en) * 2008-02-08 2019-04-23 Outbrain Inc. Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
JP5351182B2 (ja) 2008-02-25 2013-11-27 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての関連情報の決定
US20090240498A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Similiarity measures for short segments of text
US20090248669A1 (en) * 2008-04-01 2009-10-01 Nitin Mangesh Shetti Method and system for organizing information
US8112431B2 (en) * 2008-04-03 2012-02-07 Ebay Inc. Method and system for processing search requests
US20120053990A1 (en) * 2008-05-07 2012-03-01 Nice Systems Ltd. System and method for predicting customer churn
US8082278B2 (en) * 2008-06-13 2011-12-20 Microsoft Corporation Generating query suggestions from semantic relationships in content
US20100010982A1 (en) * 2008-07-09 2010-01-14 Broder Andrei Z Web content characterization based on semantic folksonomies associated with user generated content
US20100058202A1 (en) * 2008-08-28 2010-03-04 Mohamed Rostom Method system and program product for providing enabling an interactive and social search engine
US8548797B2 (en) * 2008-10-30 2013-10-01 Yahoo! Inc. Short text language detection using geographic information
KR101026544B1 (ko) * 2009-05-14 2011-04-01 주식회사 모임 인공지능에 기반한 랭킹 분석 방법, 이를 기록한 기록 매체, 그 장치
US8103650B1 (en) * 2009-06-29 2012-01-24 Adchemy, Inc. Generating targeted paid search campaigns
US8341157B2 (en) * 2009-07-31 2012-12-25 Yahoo! Inc. System and method for intent-driven search result presentation
WO2011014979A1 (en) * 2009-08-04 2011-02-10 Google Inc. Query suggestions from documents
US20110040604A1 (en) * 2009-08-13 2011-02-17 Vertical Acuity, Inc. Systems and Methods for Providing Targeted Content
KR101594577B1 (ko) * 2009-11-19 2016-02-16 삼성전자주식회사 클러스터 질의를 이용한 데이터 스트림 처리 장치 및 방법
US20110161091A1 (en) * 2009-12-24 2011-06-30 Vertical Acuity, Inc. Systems and Methods for Connecting Entities Through Content
JP5526900B2 (ja) * 2010-03-19 2014-06-18 富士通株式会社 管理装置、修正候補出力方法および修正候補出力プログラム
JP5339491B2 (ja) * 2010-03-31 2013-11-13 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
US8650191B2 (en) 2010-08-23 2014-02-11 Vistaprint Schweiz Gmbh Search engine optimization assistant
USD709901S1 (en) 2011-05-31 2014-07-29 Lifescan, Inc. Display screen with computer icon for blood glucose monitoring
KR101274419B1 (ko) 2010-12-30 2013-06-17 엔에이치엔(주) 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US9026591B2 (en) 2011-02-28 2015-05-05 Avaya Inc. System and method for advanced communication thread analysis
US20140223575A1 (en) * 2011-04-25 2014-08-07 Alcatel Lucent Privacy protection in recommendation services
GB201107251D0 (en) * 2011-05-03 2011-06-15 Univ Dublin Netowrk analysis tool
US20120310690A1 (en) * 2011-06-06 2012-12-06 Winshuttle, Llc Erp transaction recording to tables system and method
US20120323627A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Real-time Monitoring of Public Sentiment
US8990208B2 (en) * 2011-09-22 2015-03-24 Fujitsu Limited Information management and networking
US8930393B1 (en) * 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US20130166337A1 (en) * 2011-12-26 2013-06-27 John MacGregor Analyzing visual representation of data
US9785704B2 (en) * 2012-01-04 2017-10-10 Microsoft Technology Licensing, Llc Extracting query dimensions from search results
US10438268B2 (en) 2012-02-09 2019-10-08 Microsoft Technology Licensing, Llc Recommender system
US9330082B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
US9235565B2 (en) 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
US20130211915A1 (en) * 2012-02-14 2013-08-15 Erick Tseng Advertising Based on Customized User Dictionary
US9330083B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US10331745B2 (en) * 2012-03-31 2019-06-25 Intel Corporation Dynamic search service
US20140019460A1 (en) * 2012-07-12 2014-01-16 Yahoo! Inc. Targeted search suggestions
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
JP5928248B2 (ja) * 2012-08-27 2016-06-01 富士通株式会社 評価方法、情報処理装置およびプログラム
US20140067368A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Determining synonym-antonym polarity in term vectors
US8977622B1 (en) * 2012-09-17 2015-03-10 Amazon Technologies, Inc. Evaluation of nodes
US9020962B2 (en) * 2012-10-11 2015-04-28 Wal-Mart Stores, Inc. Interest expansion using a taxonomy
US9449095B1 (en) * 2012-12-31 2016-09-20 Google Inc. Revising search queries
US9218420B1 (en) * 2013-02-26 2015-12-22 Google Inc. Detecting new businesses with unrecognized query terms
US10496649B1 (en) 2013-06-22 2019-12-03 Google Llc Personalized suggestions based on past queries
CN104699725B (zh) * 2013-12-10 2018-10-09 阿里巴巴集团控股有限公司 数据搜索处理方法及系统
US10296616B2 (en) 2014-07-31 2019-05-21 Splunk Inc. Generation of a search query to approximate replication of a cluster of events
US20160078352A1 (en) * 2014-09-11 2016-03-17 Paul Pallath Automated generation of insights for events of interest
US11755559B1 (en) 2014-10-09 2023-09-12 Splunk Inc. Automatic entity control in a machine data driven service monitoring system
US11200130B2 (en) * 2015-09-18 2021-12-14 Splunk Inc. Automatic entity control in a machine data driven service monitoring system
US9558244B2 (en) * 2014-10-22 2017-01-31 Conversable, Inc. Systems and methods for social recommendations
KR101645361B1 (ko) * 2014-10-29 2016-08-03 김윤희 전화 번호 안내 이력에서 검색 실패된 키워드를 이용하는 전화 번호 안내 시스템 및 전화 번호 안내 방법
US20160171108A1 (en) * 2014-12-12 2016-06-16 Yahoo! Inc. Method and system for indexing and providing suggestions
US10003563B2 (en) 2015-05-26 2018-06-19 Facebook, Inc. Integrated telephone applications on online social networks
US10733247B2 (en) * 2016-02-18 2020-08-04 Adobe Inc. Methods and systems for tag expansion by handling website object variations and automatic tag suggestions in dynamic tag management
US10817519B2 (en) * 2016-06-06 2020-10-27 Baidu Usa Llc Automatic conversion stage discovery
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US20170221010A1 (en) * 2016-08-17 2017-08-03 Stella.Ai, Inc. System and method for data mining messaging systems to discover references to companies with job opportunities matching a candidate
CN108073565A (zh) * 2016-11-10 2018-05-25 株式会社Ntt都科摩 词语规范化的方法和设备及机器翻译方法和设备
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10706107B2 (en) 2017-05-30 2020-07-07 Open Text Sa Ulc Search systems and methods utilizing search based user clustering
US10883345B2 (en) * 2017-09-05 2021-01-05 Nec Corporation Processing of computer log messages for visualization and retrieval
US11093518B1 (en) 2017-09-23 2021-08-17 Splunk Inc. Information technology networked entity monitoring with dynamic metric and threshold selection
US11159397B2 (en) 2017-09-25 2021-10-26 Splunk Inc. Lower-tier application deployment for higher-tier system data monitoring
US10635703B2 (en) * 2017-10-19 2020-04-28 International Business Machines Corporation Data clustering
US10769141B2 (en) 2017-10-27 2020-09-08 Microsoft Technology Licensing, Llc Expanding search queries
US10747793B2 (en) * 2017-10-27 2020-08-18 Microsoft Technology Licensing, Llc Expanding search queries
US10387473B2 (en) * 2017-11-09 2019-08-20 Accenture Global Solutions Limited Real-time data input correction and facilitation of data entry at point of input
WO2019147365A1 (en) * 2018-01-24 2019-08-01 Hrl Laboratories, Llc Multiscale, hierarchical clustering on customer observables using persistent geometric features of co-occurrence simplicial complexes
US11042896B1 (en) * 2018-03-12 2021-06-22 Inmar Clearing, Inc. Content influencer scoring system and related methods
US10872303B2 (en) 2018-05-31 2020-12-22 Microsoft Technology Licensing, Llc Generating semantic representations for organizations and computing peer organization groups
US11409910B2 (en) 2018-05-31 2022-08-09 Microsoft Technology Licensing, Llc Predicting confidential data value insights at organization level using peer organization group
CN108763536B (zh) * 2018-05-31 2020-04-14 阿里巴巴集团控股有限公司 数据库访问方法及装置
RU2731658C2 (ru) 2018-06-21 2020-09-07 Общество С Ограниченной Ответственностью "Яндекс" Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения
JP6679683B2 (ja) * 2018-09-20 2020-04-15 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
RU2733481C2 (ru) 2018-12-13 2020-10-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система генерирования признака для ранжирования документа
RU2744029C1 (ru) 2018-12-29 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Система и способ формирования обучающего набора для алгоритма машинного обучения
CN110175113B (zh) * 2019-04-18 2023-07-14 创新先进技术有限公司 业务场景确定方法和装置
US11100170B2 (en) * 2019-11-15 2021-08-24 Microsoft Technology Licensing, Llc Domain-agnostic structured search query exploration
KR102425770B1 (ko) * 2020-04-13 2022-07-28 네이버 주식회사 급상승 검색어 제공 방법 및 시스템
CN112650907B (zh) * 2020-12-25 2023-07-14 百度在线网络技术(北京)有限公司 搜索词的推荐方法、目标模型的训练方法、装置及设备
US11676072B1 (en) 2021-01-29 2023-06-13 Splunk Inc. Interface for incorporating user feedback into training of clustering model
US20230252032A1 (en) * 2022-02-07 2023-08-10 Maplebear Inc. (Dba Instacart) Accounting for item attributes when selecting items satisfying a query based on item embeddings and an embedding for the query

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (ja) 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5224206A (en) 1989-12-01 1993-06-29 Digital Equipment Corporation System and method for retrieving justifiably relevant cases from a case library
US5488725A (en) 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5361628A (en) 1993-08-02 1994-11-08 Ford Motor Company System and method for processing test measurements collected from an internal combustion engine for diagnostic purposes
US7251637B1 (en) 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5576954A (en) 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5794237A (en) 1995-11-13 1998-08-11 International Business Machines Corporation System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking
US5812134A (en) * 1996-03-28 1998-09-22 Critical Thought, Inc. User interface navigational system & method for interactive representation of information contained within a database
US6188776B1 (en) 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
WO1997049048A1 (en) 1996-06-17 1997-12-24 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5987460A (en) 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
US5819258A (en) 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6112202A (en) * 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6298351B1 (en) 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
US6470307B1 (en) 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JPH11328724A (ja) 1998-05-18 1999-11-30 Fuji Photo Film Co Ltd 3次元光メモリ
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6189002B1 (en) 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6226408B1 (en) 1999-01-29 2001-05-01 Hnc Software, Inc. Unsupervised identification of nonlinear data cluster in multidimensional data
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US7065500B2 (en) * 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US7539656B2 (en) 2000-03-06 2009-05-26 Consona Crm Inc. System and method for providing an intelligent multi-step dialog with a user
US6697998B1 (en) 2000-06-12 2004-02-24 International Business Machines Corporation Automatic labeling of unlabeled text data
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US6578032B1 (en) 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7027975B1 (en) 2000-08-08 2006-04-11 Object Services And Consulting, Inc. Guided natural language interface system and method
US6950829B2 (en) 2000-08-23 2005-09-27 General Electric Company Method for database storing, accessing personnel to service selected assemblies of selected equipment
US7587428B2 (en) 2000-10-13 2009-09-08 Microsoft Corporation Maintaining a relationship between two different items of data
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7305465B2 (en) 2000-11-15 2007-12-04 Robert Wing Collecting appliance problem information over network and providing remote technical support to deliver appliance fix information to an end user
US6772120B1 (en) 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
JP2002215674A (ja) * 2001-01-22 2002-08-02 Kddi Corp Webページ閲覧支援システム、方法及びプログラム
EP1384155A4 (en) 2001-03-01 2007-02-28 Health Discovery Corp SPECTRAL KNIVES FOR LEARNING MACHINES
US6892193B2 (en) 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030065632A1 (en) 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
KR20030069640A (ko) * 2002-02-22 2003-08-27 이의범 계층적 및 개념적 클러스터링에 의한 정보검색 시스템 및그 방법
JP2003316819A (ja) 2002-04-22 2003-11-07 Shinkichi Himeno オブジェクト分類検索装置及びそれを実行するためのプログラム
US7167871B2 (en) 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP3918664B2 (ja) 2002-07-10 2007-05-23 ヤマハ株式会社 音響信号処理装置
US7136876B1 (en) 2003-03-03 2006-11-14 Hewlett-Packard Development Company, L.P. Method and system for building an abbreviation dictionary
US7225176B2 (en) 2003-03-26 2007-05-29 Casebank Technologies Inc. System and method for case-based reasoning
US20040249808A1 (en) 2003-06-06 2004-12-09 Microsoft Corporation Query expansion using query logs
US20040255301A1 (en) * 2003-06-13 2004-12-16 Andrzej Turski Context association schema for computer system architecture
US7225184B2 (en) 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US8086619B2 (en) * 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter

Also Published As

Publication number Publication date
CN1694101A (zh) 2005-11-09
EP1587012A3 (en) 2005-12-14
CN100465954C (zh) 2009-03-04
KR20060045782A (ko) 2006-05-17
EP1587012A2 (en) 2005-10-19
US7689585B2 (en) 2010-03-30
JP2005302043A (ja) 2005-10-27
US20050234972A1 (en) 2005-10-20
KR101043523B1 (ko) 2011-06-23

Similar Documents

Publication Publication Date Title
JP4838529B2 (ja) 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US11392778B2 (en) Use of statistical flow data for machine translations between different languages
US7966305B2 (en) Relevance-weighted navigation in information access, search and retrieval
JP4908214B2 (ja) サーチクエリのリファインメントを提供するシステム及び方法。
US7698317B2 (en) Techniques for detecting duplicate web pages
KR101005510B1 (ko) 블로그 문서의 순위 부여
CN100433007C (zh) 提供搜索结果的方法
US20110125791A1 (en) Query classification using search result tag ratios
Wang et al. Mining subtopics from text fragments for a web query
Yu et al. Towards high performance text mining: a TextRank-based method for automatic text summarization
CN115905489A (zh) 一种提供招投标信息搜索服务的方法
Song et al. Transfer understanding from head queries to tail queries
Liang et al. A hybrid recommender systems based on weighted tags
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
Xu et al. Generating personalized web search using semantic context
AU2021100441A4 (en) A method of text mining in ranking of web pages using machine learning
Wang et al. An effective content-based recommendation method for Web browsing based on keyword context matching
Castillo et al. Query-log mining for detecting polysemy and spam
Gothankar et al. A Novel Technique for Inferring User Search using Feedback Sessions
Ma et al. Using multi-categorization semantic analysis and personalization for semantic search
Campos et al. Clustering of Web Page Search Results: A Full Text Based Approach

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080415

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110525

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371