JP5634859B2 - サイトクラスタシステムおよびサイトクラスタ方法 - Google Patents

サイトクラスタシステムおよびサイトクラスタ方法 Download PDF

Info

Publication number
JP5634859B2
JP5634859B2 JP2010294003A JP2010294003A JP5634859B2 JP 5634859 B2 JP5634859 B2 JP 5634859B2 JP 2010294003 A JP2010294003 A JP 2010294003A JP 2010294003 A JP2010294003 A JP 2010294003A JP 5634859 B2 JP5634859 B2 JP 5634859B2
Authority
JP
Japan
Prior art keywords
site
cluster
theme
user
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010294003A
Other languages
English (en)
Other versions
JP2011138517A (ja
Inventor
允 泳 ▲鄭▼
允 泳 ▲鄭▼
民 嬉 ▲黄▼
民 嬉 ▲黄▼
載 恩 金
載 恩 金
載 傑 崔
載 傑 崔
定 禹 ▲呉▼
定 禹 ▲呉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2011138517A publication Critical patent/JP2011138517A/ja
Application granted granted Critical
Publication of JP5634859B2 publication Critical patent/JP5634859B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Description

本発明は、サイトクラスタシステムおよびサイトクラスタ方法に関し、より詳しくは、サイトクリックログから関連サイトを抽出し、接続関係によりサイトクラスタを生成してテーマ別に分類するサイトクラスタシステムおよび方法に関する。
インターネットの使用が普遍化になりつつ、現在のインターネット上には数多くのサイトが存在する。企画者たちはインターネット上に分布する数多くのサイトを構造的に理解するために努力をしている。すなわち、ウェブサイトをどのように組織化して価値のある形態に活用できるのかに対する要求がある。
このようなウェブサイトは、一般的にユーザが検索エンジンに検索語を入力することで検索を行うことによって検索される場合が多い。ユーザが直接にウェブサイトURLを入力してウェブサイトを訪問する場合もあるが、主に検索エンジンを介して検索してウェブサイトを訪問する場合が極めて多い。
したがって、このようなユーザの検索パターンを用いてインターネット上に分布するサイトを分析し、これを活用する方法が求められている。
特開2009−193465号公報
本発明は、ユーザによって生成されたサイトクリックログから関連サイトを抽出し、関連サイトの接続関係を介してサイトクラスタを生成することによって、インターネット上に分布するサイトを一定の基準に応じて組織化することができるシステムおよびその方法を提供する。
本発明は、生成されたサイトクラスタを流入キーワードを介してテーマ別に分類することによって、インターネット上に分布するサイトをより効率よく活用することができるシステムおよびその方法を提供する。
本発明は、テーマ別に分類されたサイトクラスタに対する分析結果を提供することによって、サイトクラスタリングした結果を多様な分野で活用できるようにするシステムおよびその方法を提供する。
本発明の一実施形態に係るサイトクラスタシステムは、ユーザのサイトクリックログを用いて関連サイトを抽出する関連サイト抽出部と、前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成するクラスタ生成部とを含んでもよい。
本発明の一実施形態に係るサイトクラスタシステムは、生成されたサイトクラスタを類似のテーマ別に分類するクラスタ分類部をさらに含んでもよい。
本発明の一実施形態に係るサイトクラスタシステムは、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供するクラスタ分析部をさらに含んでもよい。
本発明の一実施形態に係るサイトクラスタ方法は、ユーザのサイトクリックログを用いて関連サイトを抽出するステップと、前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成するステップとを含んでもよい。
本発明の一実施形態に係るサイトクラスタ方法は、生成されたサイトクラスタを類似のテーマ別に分類するステップをさらに含んでもよい。
本発明の一実施形態に係るサイトクラスタ方法は、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供するステップをさらに含んでもよい。
本発明の一実施形態によれば、ユーザによって生成されたサイトクリックログから関連サイトを抽出し、関連サイトの接続関係を介してサイトクラスタを生成することによってインターネット上に分布するサイトを一定の基準に応じて組織化することができる。
本発明の一実施形態によれば、生成されたサイトクラスタを流入キーワードを介してテーマ別に分類することによって、インターネット上に分布するサイトをより効率よく活用することができる。
本発明の一実施形態によれば、テーマ別に分類されたサイトクラスタに対する分析結果を提供することによって、サイトクラスタリングした結果を多様な分野で活用することができる。
本発明の一実施形態に係るサイトクラスタシステムの細部構成を示すブロックダイアグラムである。 本発明の一実施形態に係る関連サイトを抽出する過程を示す図である。 本発明の一実施形態に係る関連サイトからサイトクラスタを生成する過程を示す図である。 本発明の一実施形態に係るテーマ別のサイトクラスタを生成する全体過程を示すブロックダイアグラムである。 本発明の一実施形態に係るサイトクラスタをテーマ別に分類して日別にクラスタリングすることを示す図である。 本発明の一実施形態に係るテーマ、サイトクラスタ、および関連サイト間の階層関係を示す一例を示す図である。 本発明の一実施形態に係るサイトクラスタ方法を示すフローチャートである。
以下、添付の図面に記載された内容を参照して本発明に係る実施形態を詳細に説明する。ただし、本発明が実施形態によって制限されたり限定されたりすることはない。各図面に示される同一の参照符号は同一の部材・構成を示す。本発明の一実施形態に係るサイトクラスタ方法は、サイトクラスタシステムによって行われてもよい。
図1は、本発明の一実施形態に係るサイトクラスタシステムの概略構成を示すブロックダイアグラムである。
図1に示すように、サイトクラスタシステム100は、関連サイト抽出部101、クラスタ生成部102、クラスタ分類部103、およびクラスタ分析部104を含んでもよい。
関連サイト抽出部101は、ユーザのサイトクリックログを用いて関連サイトを抽出することができる。一例として、関連サイト抽出部101は、同一の時間区間においてユーザ別にクリックしたサイト情報を収集し、収集したサイト情報に関連規則を適用して関連サイトを抽出してもよい。
関連サイトとは、サイト内に含まれたコンテンツに類似するか、あるいはサイトの属性が類似するサイトのことを意味する。または、関連サイトとは、ユーザが入力した検索サイト以後に特定の時間内に入力されて検索される比率が高いサイトを意味する。すなわち、関連サイトは、ユーザが自身の検索意図に適した検索結果を導き出すことができるように共に検索する傾向の高いサイトを意味する。言い換えれば、検索サイトに対する関連サイトは、ユーザの検索意図を把握することのできる1つの手段になり得る。
一例として、関連サイト抽出部101は、ユーザのサイトクリックログを介して一定期間の間に検索回数が予め設定した検索回数以上である検索サイトに対して関連サイトを抽出してもよい。例えば、最近一週間の検索回数(Query Count:QC)が300以上である検索サイトに対して関連サイトを抽出してもよい。すなわち、一定数以上の検索回数を示す検索サイトに対して関連サイトを抽出することによって、検索サイトを入力したユーザの検索意図をより正確に把握することができる。
このとき、関連サイト抽出部101は、サイトの検索回数に係る関連規則、ユーザのIPアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか1つの関連規則に基づいて関連サイトを抽出してもよい。これについては図2を参照してより具体的に説明することにする。
クラスタ生成部102は、関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成してもよい。すなわち、サイトクラスタは、類似の属性を有する関連サイトをグループ化することを意味する。また、サイトクラスタは、ユーザ別に一定の時間内に同じ検索意図をもってクリックするサイトをグループ化することを意味する。
一例として、クラスタ生成部102は、抽出された関連サイトに応じて代表サイトおよび関連サイトの対を生成してサイトクラスタを生成してもよい。このとき、クラスタ生成部102は、代表サイトおよび関連サイトの対で共通の関連サイトを用いて関連サイトに対する接続関係を生成してもよい。このとき、代表サイトに対して共通の関連サイトに基づいて接続関係を生成してもよい。共通の関連サイトが多いほど、代表サイトに対する接続強度が増加することがある。
また、クラスタ生成部102は、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。すなわち、クラスタ生成部102は、範疇型のクラスタ方式を適用してサイトクラスタを生成することによって、関連関係を介して代表サイトとの間の類似度を判断し、類似度の高い代表サイトをグループ化してサイトクラスタを生成することができる。
クラスタ分類部103は、生成されたサイトクラスタを類似のテーマ別に分類することができる。1つのテーマに少なくとも1つのサイトクラスタを含んでもよい。このとき、テーマはユーザの検索意図を意味する。一例として、クラスタ分類部103は、サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮し、サイトクラスタを類似のテーマ別に分類してもよい。ここで、サイト別の流入キーワードはサイトクラスタに属するサイトを検索するために入力したキーワードを意味する。ユーザの検索意図はサイト別の流入キーワードを介して把握することができ、サイト別の流入キーワードもテーマ別に分類してもよい。
このとき、クラスタ分類部103は、最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類してもよい。
クラスタ分析部104は、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供することができる。一例として、クラスタ分析部104は、サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果のうち少なくとも1つの分析結果を提供してもよい。分析結果は、上記で記載した事項に限定することなく、システムの構成によってサイトクラスタに対する分析結果は異なっていてもよい。
特に、クラスタ分析部104は、テーマを含む第1階層、テーマ別に分類されたサイトクラスタを含む第2階層、およびサイトクラスタに対する関連サイトを含む第3階層を含んで視覚的に図式化したデータ階層図を提供してもよい。このとき、クラスタ分析部104は、テーマに含まれたサイトクラスタの検索回数に応じて第1階層に対するテーマ別のサイズを決定してもよい。また、クラスタ分析部104は、サイトクラスタに含まれた関連サイトの検索回数に応じて第2階層に対するサイトクラスタ別のサイズを決定してもよい。また、クラスタ分析部104は、関連サイトの検索回数に応じて第3階層に対する関連サイト別のサイズを決定してもよい。
図2は、本発明の一実施形態に係る関連サイトを抽出する過程を示す図である。
サイトクラスタシステム100は、ユーザのサイトクリックログ201を用いて関連サイトを抽出してもよい。サイトクリックログ201は、ユーザ別に一定の時間内にサイトのURLに対するユーザクリック数によって構成されていてもよい。サイトクリックログ201を調べれば、クッキーは、ユーザが一定の時間内に検索を行った検索セッションに対応してもよい。例えば、クッキーAを調べれば、ユーザが一定の時間内にサイトをa、aおよびaを順次入力したことを意味する。このようなサイトクリックログ201はユーザがサイトを検索しようとする意図を含んでいる。
サイトクラスタシステム100は、サイトクリックログ201に関連規則を適用して関連サイトを抽出してもよい。このとき、サイトクラスタシステム100は、関連規則に基づいて検索キーワードに対する関連キーワードを抽出してもよい。例えば、ユーザがXというキーワードを入力してサイトAを検索した後、より詳細な検索結果を獲得するために連続してサイトBを検索した場合、Bというキーワードを入力したときに、サイトAが検索された後にサイトBが入力される条件が予め設定した閾値以上であれば、サイトBはサイトAに対する関連サイトとして定義され得る。
一例として、サイトクラスタシステム100は、サイトの検索回数に係る関連規則を用いてサイトクリックログ201から関連サイトを抽出してもよい。具体的に、サイトクラスタシステム100は、サイトAの検索回数、サイトBの検索回数、およびサイトAが検索された後に特定の時間内にサイトBの検索回数を介して条件付き確率(Aが検索された後Bが続いて検索される確率)およびサイト間の相関関係を決定し、条件付き確率および相関関係に基づいてサイトAとサイトBとが関連関係にあるかを判断するようにしてもよい。このとき、サイトクラスタシステム100は、サイトAとサイトBが関連関係にあるかを判断するために検索回数、条件付き確率、および相関関係程度に閾値を設定してもよい。
他の一例として、サイトクラスタシステム100は、サイトを検索したユーザのIPアドレスに係る関連規則を用いて、サイトクリックログ201から関連サイトを抽出してもよい。具体的に、サイトクラスタシステム100は、サイトAを検索したユーザのIPアドレス情報、サイトBを検索したユーザのIPアドレス情報、およびサイトAが検索された後にサイトBが検索された場合、サイトBを入力したユーザのIPアドレス情報を介して条件付き確率を決定し、条件付き確率に基づいてサイトAとサイトBが関連関係にあるか否かを判断することができる。このとき、サイトクラスタシステム100は、サイトAとサイトBが関連関係にあるかを判断するために、IPアドレス数、条件付き確率に閾値を設定してもよい。
更なる一例として、サイトクラスタシステム100は、サイトを検索したユーザのユーザ識別情報(UID)に係る関連規則を用いて、サイトクリックログ201から関連サイトを抽出してもよい。ユーザ識別情報に係る関連規則は、ユーザのIPアドレスに係る関連規則を用いた方法と同一の形態に適用してもよい。
このような過程を介してサイトクリックログ201から関連サイトが抽出されれば、サイトクラスタシステム100は、表202のように代表サイトと関連サイトとの間に対を生成してもよい。代表サイトは、関連サイトのうち代表的な関連サイトを意味する。代表サイトは、システムの構成によって異なるように決定してもよい。代表サイトに対して少なくとも1つの関連サイトが接続されて1つのグループを形成してもよい。このようなグループに範疇型のクラスタリングを適用してサイトクラスタを生成してもよい。
図3は、本発明の一実施形態に係る関連サイトからサイトクラスタを生成する過程を示す図である。
サイトクラスタシステム100は、関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成してもよい。一例として、サイトクラスタシステム100は、代表サイトおよび関連サイトの対で共通の関連サイトを用いて関連サイトに対する接続関係を生成し、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。
図3において、サイトX、サイトY、サイトZ、サイトWは関連サイトに対する代表サイトを意味する。また、X、X、X、X、X、Xは代表サイトのサイトXと接続関係にある関連サイトを意味する。また、Z、Z、Z、Z、Z、X、X、Xは代表サイトのサイトZと接続関係にある関連サイトを意味する。同じように、Y、Y、Y、Y、Y、Y、Xは代表サイトのサイトYと接続関係にある関連サイトを意味する。また、W、W、W、W、W、W、Z、Yは代表サイトのサイトWと接続関係にある関連サイトを意味する。すなわち、図3は共通した関連サイトに基づいた代表サイトの間の接続関係を示す。
サイトクラスタシステム100は、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。具体的に、サイトクラスタシステム100は、代表サイトの間の接続関係から接続強度に基づいてサイトクラスタを生成してもよい。
サイトクラスタを生成するために関連サイトに対応する基準接続強度が2と設定するとき、代表サイトXおよび代表サイトZは共通の関連サイトがX、X、Xと3つがあり、サイトクラスタ(1)301を形成してもよい。また、代表サイトYの場合、代表サイトXと代表サイトWとの間に共通する関連サイトが存在するものの、基準接続強度を超過することができず、代表サイトXおよび代表サイトWに対してサイトクラスタを生成することができない。したがって、代表サイトYは、関連サイトのY、Y、Y、Y、Y、Yと共にサイトクラスタ(2)302を形成してもよい。
同じように、代表サイトWの場合、代表サイトZと代表サイトYと間に共通する関連サイトが存在するものの、基準接続強度を超過することができず、代表サイトYおよび代表サイトZに対してサイトクラスタを生成することができない。したがって、代表サイトWは、関連サイトのW、W、W、W、W、Wと共にサイトクラスタ(3)303を形成してもよい。
図4は、本発明の一実施形態に係るテーマ別のサイトクラスタを生成する全体過程を示すブロックダイアグラムである。
複数のユーザによってサイトクリックログ401が生成する。サイトクリックログ401は、ユーザが一定時間の間に同じ検索意図をもってサイトをクリックした情報を収集したものである。サイトクラスタシステム100は、サイトクリックログ401に関連規則を適用して少なくとも1つの関連サイト402を抽出してもよい。その後、サイトクラスタシステム100は、関連サイト402から類似の属性を有する関連サイトに対するサイトクラスタ403を生成してもよい。すなわち、サイトクラスタシステム100は、関連サイト402を類似程度に応じてグループ化することができる。
サイトクラスタシステム100は、サイトクラスタ403をゲーム、乳児、ショッピング、金融/ビジネスのようなテーマ404に分類してもよい。このとき、サイトクラスタシステム100は、サイトクラスタ403に属したサイト別の流入キーワードのテーマを考慮してテーマ404に分類してもよい。サイトクラスタシステム100は、テーマ404に分類されたサイトクラスタ403を用いてテーマ別の分析結果405を抽出してもよい。テーマ別の分析結果405は、サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果のうち少なくとも1つの分析結果を含んでもよい。
時系列的分析は、時間帯別、日別、週別、月別、年別のようにテーマに係るサイト検索回数/分布度、サイトクリック回数/分布度などを意味する。また、テーマ別分布度は、多様なテーマ別にサイトクラスタの数に応じて決定してもよい。クリック回数は、テーマ別にサイトクラスタに属した関連サイトをユーザがクリックした回数を意味する。テーマ別サイトリストは、テーマ別に分類されたサイトクラスタに属する関連サイトの目録を意味する。テーマ別関心ユーザ数は、テーマ別に分類されたサイトクラスタに属した関連サイトにクリックして訪問したユーザを意味する。ユーザの訪問行動の結果は、テーマ別に分類されたサイトクラスタに属した関連サイトに訪問してサイトに加入したり、サイトで販売する物品を購入したりする行為を追跡分析した結果を意味する。
このような分析結果を介してユーザに対するターゲット広告を行なうことができ、ユーザの検索意図を把握して検索エンジンを更に最適化することができると共に、広告主にテーマ別の分析結果を提供して広告を販売することができる。
また、テーマ別分析結果405は、テーマを含む第1階層、テーマ別に分類されたサイトクラスタを含む第2階層、およびサイトクラスタに対する関連サイトを含む第3階層に構成されたデータ階層を含んでもよい。
図5は、本発明の一実施形態に係るサイトクラスタをテーマ別に分類して日別にクラスタリングすることを示す図である。
一例として、サイトクラスタシステム100は、最初に生成された検索キーワードクラスタに対してテーマ別に分類してシードクラスタを生成し、シードクラスタに基づいて予め設定した周期別に生成された検索キーワードクラスタをテーマ別に分類してもよい。
図5に示すように、2008年7月17日から2008年10月30日までの日別検索キーワードクラスタを生成して検索キーワードクラスタを分類する過程を示している。
まず、2008年7月17日に最初にサイトクラスタ501(cluster 40214、cluster 27584、cluster 73920、cluster 58134、cluster 21276、cluster 15865)が生成されれば、サイトクラスタシステム100は、サイトクラスタ501を複数のテーマ501それぞれに分類してもよい。図5において、X、X、X、Xはサイトクラスタのcluster 40214に属した関連サイトを意味する。
図5に示すように、cluster 40214、cluster 27584は「大衆音楽」に分類されており、cluster 73920は「ゲーム」に分類されている。同じように、cluster 58134は「衣類/雑貨」に分類され、cluster 21276、cluster 15865は「旅行」に分類され得る。このようにテーマ別に分類されたサイトクラスタ501がシードクラスタになり得る。
すると、翌日2008年7月18日に生成されたサイトクラスタは複数のシードクラスタ各々が属したテーマ別に分類され、このような過程は2008年10月30日まで毎日繰り返されてもよい。
日別に生成されたサイトクラスタはシードクラスタが属したテーマ別に分類され、最終的に検索キーワードが複数のテーマそれぞれに分類されてもよい。テーマはユーザの検索意図と対応するため、同一のテーマに含まれたサイトクラスタは同一のユーザの検索意図を示すことを意味する。このとき、テーマは予め設定した数だけ設定されてもよい。
図6は、本発明の一実施形態に係るテーマ、サイトクラスタ、および関連サイトの間の階層関係を示す一例を示す図である。
本発明の一実施形態に係るサイトクラスタシステム100は、関連サイト−>サイトクラスタ−>テーマの3ステップの階層を導き出すことができる。このとき、サイトクラスタシステム100は、テーマを含む第1階層601、テーマ別に分類されたサイトクラスタを含む第2階層602およびサイトクラスタに対する関連サイトを含む第3階層603に構成されたデータ階層図を生成してもよい。
一例として、サイトクラスタシステム100は、テーマに含まれた関連サイトの検索回数に応じて第1階層601に対するテーマ別のサイズを決定してもよい。また、サイトクラスタシステム100は、サイトクラスタに含まれた関連サイトの検索回数に応じて第2階層602に対するサイトクラスタ別のサイズを決定してもよい。また、サイトクラスタシステム100は、関連サイトの検索回数に応じて第3階層603に対する関連サイト別のサイズを決定してもよい。
第1階層601に含まれた四角形の広さはテーマ別のサイズを意味し、四角形の広さが広いほど該当の四角形に対応するテーマに含まれる関連サイトの検索回数が多いことを意味する。また、第2階層602に含まれる四角形の広さはサイトクラスタ別のサイズを意味し、四角形の広さが広いほど該当の四角形に対応するサイトクラスタに含まれる関連サイトの検索回数が多いことを意味する。また、第3階層603に含まれる四角形の広さは関連サイト別のサイズを意味し、四角形の広さが広いほど該当の四角形に対応する関連サイトの検索回数が多いことを意味する。
サイトクラスタシステム100は、第1階層601、第2階層602および第3階層603を視覚的/定量的に提供することができる。もし、第1階層601でテーマX604が選択されれば、サイトクラスタシステム100は、テーマX604に分類されたサイトクラスタに対する第2階層602を表示してもよい。また、第2階層602でサイトクラスタY605が選択されれば、サイトクラスタシステム100は、サイトクラスタY605に含まれた関連サイトに対する第3階層603を表示してもよい。図6に示されたデータ階層図は一例に過ぎず、システムの構成によって異なる形態に表してもよい。
図7は、本発明の一実施形態に係るサイトクラスタ方法を示すフローチャートである。
サイトクラスタシステム100は、ユーザのサイトクリックログを用いて関連サイトを抽出してもよい(S701)。一例として、サイトクラスタシステム100は、同一の時間区間でユーザ別にクリックしたサイト情報を収集し、収集されたサイト情報に関連規則を適用して関連サイトを抽出してもよい。具体的に、サイトクラスタシステム100は、サイトの検索回数に係る関連規則、ユーザのIPアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか1つの関連規則に基づいて関連サイトを抽出してもよい。
サイトクラスタシステム100は、抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成してもよい(S702)。一例として、サイトクラスタシステム100は、抽出された関連サイトによって代表サイトおよび関連サイトの対を生成してサイトクラスタを生成してもよい。このとき、サイトクラスタシステム100は、代表サイトおよび関連サイトの対に共通している関連サイトを用いて関連サイトに対する接続関係を生成してもよい。また、サイトクラスタシステム100は、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。
サイトクラスタシステム100は、生成されたサイトクラスタを類似のテーマ別に分類してもよい(S703)。一例として、サイトクラスタシステム100は、サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮してサイトクラスタを類似のテーマ別に分類してもよい。また、サイトクラスタシステム100は、最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類してもよい。
サイトクラスタシステム100は、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供してもよい(S704)。一例として、サイトクラスタシステム100は、テーマを含む第1階層、テーマ別に分類されたサイトクラスタを含む第2階層、およびサイトクラスタに対する関連サイトを含む第3階層に構成されたデータ階層図を提供してもよい。また、サイトクラスタシステム100は、サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果のうち少なくとも1つの分析結果を提供してもよい。
図7で説明していない事項は図1〜図6の説明を参考にしてもよい。
また、本発明の一実施形態に係るサイトクラスタ方法は、多様なコンピュータ手段を介して実行することができるプログラム命令形態に具現され、コンピュータ読取可能な記録媒体に記録されることができる。前記コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともできる。前記媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピーディスク(登録商標)および磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。
上述したように、本発明は、例示として限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態の記載から多様な修正および変形が可能である。
したがって、本発明の範囲は説明された実施形態に限定されて解釈されてはならず、特許請求の範囲の記載だけでなく、この特許請求の範囲の記載と均等なものなどによって定められなければならない。
100 サイトクラスタシステム
101 関連サイト抽出部
102 クラスタ生成部
103 クラスタ分類部
104 クラスタ分析部

Claims (17)

  1. ユーザのサイトクリックログを用いて関連サイトを抽出する関連サイト抽出部と、
    前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成するクラスタ生成部と、
    前記生成されたサイトクラスタを類似のテーマ別に分類するクラスタ分類部と、
    前記テーマに応じて分類されたサイトクラスタを分析して、前記サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果を含む分析結果を提供するクラスタ分析部と、を含むことを特徴とするサイトクラスタシステム。
  2. 前記関連サイト抽出部は、同一の時間区間でユーザ別にクリックしたサイト情報を収集し、前記収集したサイト情報に関連規則を適用して関連サイトを抽出することを特徴とする請求項1に記載のサイトクラスタシステム。
  3. 前記関連サイト抽出部は、サイトの検索回数に係る関連規則、ユーザのIPアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか1つの関連規則に基づいて関連サイトを抽出することを特徴とする請求項に記載のサイトクラスタシステム。
  4. 前記クラスタ生成部は、前記抽出された関連サイトに応じて代表サイトおよび関連サイトの対を生成してサイトクラスタを生成することを特徴とする請求項1に記載のサイトクラスタシステム。
  5. 前記クラスタ生成部は、前記代表サイトおよび関連サイトの対に共通する関連サイトを用いて関連サイトに対する接続関係を生成し、前記接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成することを特徴とする請求項に記載のサイトクラスタシステム。
  6. 前記クラスタ分類部は、前記サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮して前記サイトクラスタを類似のテーマ別に分類することを特徴とする請求項に記載のサイトクラスタシステム。
  7. 前記クラスタ分類部は、最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、前記生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類することを特徴とする請求項に記載のサイトクラスタシステム。
  8. 前記クラスタ分析部は、前記テーマを含む第1階層、前記テーマ別に分類されたサイトクラスタを含む第2階層、および前記サイトクラスタに対する関連サイトを含む第3階層に構成されたデータ階層図を提供することを特徴とする請求項に記載のサイトクラスタシステム。
  9. 関連サイト抽出部と、クラスタ生成部と、クラスタ分類部と、クラスタ分析部と、を含むサイトクラスタシステムにおけるサイトクラスタ方法であって、
    前記関連サイト抽出部がユーザのサイトクリックログを用いて関連サイトを抽出し、
    前記クラスタ生成部が前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成し、
    前記クラスタ分類部が前記生成されたサイトクラスタを類似のテーマ別に分類し、
    前記クラスタ分析部が前記テーマに応じて分類されたサイトクラスタを分析して、前記サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果を含む分析結果を提供すること、
    を含むことを特徴とするサイトクラスタ方法。
  10. 前記関連サイトを抽出することは、前記関連サイト抽出部が、同一の時間区間でユーザ別にクリックしたサイト情報を収集し、前記収集したサイト情報に関連規則を適用して関連サイトを抽出することを特徴とする請求項に記載のサイトクラスタ方法。
  11. 前記関連サイトを抽出することは、前記関連サイト抽出部が、サイトの検索回数に係る関連規則、ユーザのIPアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか1つの関連規則に基づいて関連サイトを抽出することを特徴とする請求項10に記載のサイトクラスタ方法。
  12. 前記関連サイトに対するサイトクラスタを生成することは、前記クラスタ生成部が、前記抽出された関連サイトに応じて代表サイトおよび関連サイトの対を生成してサイトクラスタを生成することを特徴とする請求項に記載のサイトクラスタ方法。
  13. 前記関連サイトに対するサイトクラスタを生成することは、
    前記クラスタ生成部が、
    サンギ代表サイトおよび関連サイトの対に共通する関連サイトを用いて関連サイトに対する接続関係を生成し、
    前記接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成すること、
    を含むことを特徴とする請求項12に記載のサイトクラスタ方法。
  14. 前記生成されたサイトクラスタを類似するテーマ別に分類することは、前記サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮して前記サイトクラスタを類似のテーマ別に分類することを特徴とする請求項に記載のサイトクラスタ方法。
  15. 前記生成されたサイトクラスタを類似のテーマ別に分類することは、
    前記クラスタ分類部が、
    最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、
    前記生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類すること、
    を含むことを特徴とする請求項に記載のサイトクラスタ方法。
  16. 前記サイトクラスタを分析して分析結果を提供することは、前記クラスタ分析部が、前記テーマを含む第1階層、前記テーマ別に分類されたサイトクラスタを含む第2階層、および前記サイトクラスタに対する関連サイトを含む第3階層に構成されたデータ階層図を提供することを特徴とする請求項に記載のサイトクラスタ方法。
  17. 請求項乃至請求項16のいずれか1項の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
JP2010294003A 2009-12-30 2010-12-28 サイトクラスタシステムおよびサイトクラスタ方法 Active JP5634859B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2009-0134033 2009-12-30
KR1020090134033A KR101076522B1 (ko) 2009-12-30 2009-12-30 사이트 클러스터링 시스템 및 사이트 클러스터링 방법

Publications (2)

Publication Number Publication Date
JP2011138517A JP2011138517A (ja) 2011-07-14
JP5634859B2 true JP5634859B2 (ja) 2014-12-03

Family

ID=44349807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010294003A Active JP5634859B2 (ja) 2009-12-30 2010-12-28 サイトクラスタシステムおよびサイトクラスタ方法

Country Status (2)

Country Link
JP (1) JP5634859B2 (ja)
KR (1) KR101076522B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5944878B2 (ja) * 2013-10-18 2016-07-05 ヤフー株式会社 判定装置、判定方法及び判定プログラム
RU2632149C2 (ru) * 2015-05-06 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148846A (ja) * 2003-11-11 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類システムおよび方法、コンピュータプログラムおよび記録媒体
JP2007323334A (ja) * 2006-05-31 2007-12-13 Waakuatto:Kk Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム
US7680858B2 (en) 2006-07-05 2010-03-16 Yahoo! Inc. Techniques for clustering structurally similar web pages

Also Published As

Publication number Publication date
JP2011138517A (ja) 2011-07-14
KR20110077445A (ko) 2011-07-07
KR101076522B1 (ko) 2011-10-24

Similar Documents

Publication Publication Date Title
Lu et al. BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services
Elmeleegy et al. Mashup advisor: A recommendation tool for mashup development
CA2617954C (en) Method and system for extracting web data
Belhadi et al. A data-driven approach for Twitter hashtag recommendation
KR101048540B1 (ko) 연관 키워드에 따른 클러스터를 이용하여 검색 키워드를 분류하는 장치 및 방법
US20100185623A1 (en) Topical ranking in information retrieval
Zhuang et al. Measuring conference quality by mining program committee characteristics
EP2827294A1 (en) Systems and method for determining influence of entities with respect to contexts
Huang et al. Kb-enabled query recommendation for long-tail queries
Jagan et al. A survey on web personalization of web usage mining
JP2012141985A (ja) ユーザグループごとにキーワードの順位を決定するシステムおよび方法
Mehrotra et al. An intelligent clustering approach for improving search result of a website
Wang et al. Magnet community identification on social networks
Katz et al. Wikiometrics: a Wikipedia based ranking system
Rawat et al. Topic modelling of legal documents using NLP and bidirectional encoder representations from transformers
US10255246B1 (en) Systems and methods for providing a searchable concept network
JP5634859B2 (ja) サイトクラスタシステムおよびサイトクラスタ方法
Zhang et al. Discovering consumers’ purchase intentions based on mobile search behaviors
Gupta et al. Search bot: Search intention based filtering using decision tree based technique
Cuzzola et al. Automated classification and localization of daily deal content from the Web
Dziczkowski et al. An opinion mining approach for web user identification and clients' behaviour analysis
KR20150079353A (ko) 브랜드 이미지 측정장치 및 측정방법
Munilatha et al. A study on issues and techniques of web mining
Saleheen et al. User centric dynamic web information visualization
Lucchese et al. Recommender Systems.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141015

R150 Certificate of patent or registration of utility model

Ref document number: 5634859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250