JP5634859B2

JP5634859B2 - サイトクラスタシステムおよびサイトクラスタ方法

Info

Publication number: JP5634859B2
Application number: JP2010294003A
Authority: JP
Inventors: 允泳 ▲鄭▼; 民嬉 ▲黄▼; 載恩金; 載傑崔; 定禹 ▲呉▼
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2009-12-30
Filing date: 2010-12-28
Publication date: 2014-12-03
Anticipated expiration: 2030-12-28
Also published as: JP2011138517A; KR20110077445A; KR101076522B1

Description

本発明は、サイトクラスタシステムおよびサイトクラスタ方法に関し、より詳しくは、サイトクリックログから関連サイトを抽出し、接続関係によりサイトクラスタを生成してテーマ別に分類するサイトクラスタシステムおよび方法に関する。

インターネットの使用が普遍化になりつつ、現在のインターネット上には数多くのサイトが存在する。企画者たちはインターネット上に分布する数多くのサイトを構造的に理解するために努力をしている。すなわち、ウェブサイトをどのように組織化して価値のある形態に活用できるのかに対する要求がある。

このようなウェブサイトは、一般的にユーザが検索エンジンに検索語を入力することで検索を行うことによって検索される場合が多い。ユーザが直接にウェブサイトＵＲＬを入力してウェブサイトを訪問する場合もあるが、主に検索エンジンを介して検索してウェブサイトを訪問する場合が極めて多い。

したがって、このようなユーザの検索パターンを用いてインターネット上に分布するサイトを分析し、これを活用する方法が求められている。

特開２００９−１９３４６５号公報

本発明は、ユーザによって生成されたサイトクリックログから関連サイトを抽出し、関連サイトの接続関係を介してサイトクラスタを生成することによって、インターネット上に分布するサイトを一定の基準に応じて組織化することができるシステムおよびその方法を提供する。

本発明は、生成されたサイトクラスタを流入キーワードを介してテーマ別に分類することによって、インターネット上に分布するサイトをより効率よく活用することができるシステムおよびその方法を提供する。

本発明は、テーマ別に分類されたサイトクラスタに対する分析結果を提供することによって、サイトクラスタリングした結果を多様な分野で活用できるようにするシステムおよびその方法を提供する。

本発明の一実施形態に係るサイトクラスタシステムは、ユーザのサイトクリックログを用いて関連サイトを抽出する関連サイト抽出部と、前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成するクラスタ生成部とを含んでもよい。

本発明の一実施形態に係るサイトクラスタシステムは、生成されたサイトクラスタを類似のテーマ別に分類するクラスタ分類部をさらに含んでもよい。

本発明の一実施形態に係るサイトクラスタシステムは、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供するクラスタ分析部をさらに含んでもよい。

本発明の一実施形態に係るサイトクラスタ方法は、ユーザのサイトクリックログを用いて関連サイトを抽出するステップと、前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成するステップとを含んでもよい。

本発明の一実施形態に係るサイトクラスタ方法は、生成されたサイトクラスタを類似のテーマ別に分類するステップをさらに含んでもよい。

本発明の一実施形態に係るサイトクラスタ方法は、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供するステップをさらに含んでもよい。

本発明の一実施形態によれば、ユーザによって生成されたサイトクリックログから関連サイトを抽出し、関連サイトの接続関係を介してサイトクラスタを生成することによってインターネット上に分布するサイトを一定の基準に応じて組織化することができる。

本発明の一実施形態によれば、生成されたサイトクラスタを流入キーワードを介してテーマ別に分類することによって、インターネット上に分布するサイトをより効率よく活用することができる。

本発明の一実施形態によれば、テーマ別に分類されたサイトクラスタに対する分析結果を提供することによって、サイトクラスタリングした結果を多様な分野で活用することができる。

本発明の一実施形態に係るサイトクラスタシステムの細部構成を示すブロックダイアグラムである。本発明の一実施形態に係る関連サイトを抽出する過程を示す図である。本発明の一実施形態に係る関連サイトからサイトクラスタを生成する過程を示す図である。本発明の一実施形態に係るテーマ別のサイトクラスタを生成する全体過程を示すブロックダイアグラムである。本発明の一実施形態に係るサイトクラスタをテーマ別に分類して日別にクラスタリングすることを示す図である。本発明の一実施形態に係るテーマ、サイトクラスタ、および関連サイト間の階層関係を示す一例を示す図である。本発明の一実施形態に係るサイトクラスタ方法を示すフローチャートである。

以下、添付の図面に記載された内容を参照して本発明に係る実施形態を詳細に説明する。ただし、本発明が実施形態によって制限されたり限定されたりすることはない。各図面に示される同一の参照符号は同一の部材・構成を示す。本発明の一実施形態に係るサイトクラスタ方法は、サイトクラスタシステムによって行われてもよい。

図１は、本発明の一実施形態に係るサイトクラスタシステムの概略構成を示すブロックダイアグラムである。

図１に示すように、サイトクラスタシステム１００は、関連サイト抽出部１０１、クラスタ生成部１０２、クラスタ分類部１０３、およびクラスタ分析部１０４を含んでもよい。

関連サイト抽出部１０１は、ユーザのサイトクリックログを用いて関連サイトを抽出することができる。一例として、関連サイト抽出部１０１は、同一の時間区間においてユーザ別にクリックしたサイト情報を収集し、収集したサイト情報に関連規則を適用して関連サイトを抽出してもよい。

関連サイトとは、サイト内に含まれたコンテンツに類似するか、あるいはサイトの属性が類似するサイトのことを意味する。または、関連サイトとは、ユーザが入力した検索サイト以後に特定の時間内に入力されて検索される比率が高いサイトを意味する。すなわち、関連サイトは、ユーザが自身の検索意図に適した検索結果を導き出すことができるように共に検索する傾向の高いサイトを意味する。言い換えれば、検索サイトに対する関連サイトは、ユーザの検索意図を把握することのできる１つの手段になり得る。

一例として、関連サイト抽出部１０１は、ユーザのサイトクリックログを介して一定期間の間に検索回数が予め設定した検索回数以上である検索サイトに対して関連サイトを抽出してもよい。例えば、最近一週間の検索回数（ＱｕｅｒｙＣｏｕｎｔ：ＱＣ）が３００以上である検索サイトに対して関連サイトを抽出してもよい。すなわち、一定数以上の検索回数を示す検索サイトに対して関連サイトを抽出することによって、検索サイトを入力したユーザの検索意図をより正確に把握することができる。

このとき、関連サイト抽出部１０１は、サイトの検索回数に係る関連規則、ユーザのＩＰアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか１つの関連規則に基づいて関連サイトを抽出してもよい。これについては図２を参照してより具体的に説明することにする。

クラスタ生成部１０２は、関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成してもよい。すなわち、サイトクラスタは、類似の属性を有する関連サイトをグループ化することを意味する。また、サイトクラスタは、ユーザ別に一定の時間内に同じ検索意図をもってクリックするサイトをグループ化することを意味する。

一例として、クラスタ生成部１０２は、抽出された関連サイトに応じて代表サイトおよび関連サイトの対を生成してサイトクラスタを生成してもよい。このとき、クラスタ生成部１０２は、代表サイトおよび関連サイトの対で共通の関連サイトを用いて関連サイトに対する接続関係を生成してもよい。このとき、代表サイトに対して共通の関連サイトに基づいて接続関係を生成してもよい。共通の関連サイトが多いほど、代表サイトに対する接続強度が増加することがある。

また、クラスタ生成部１０２は、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。すなわち、クラスタ生成部１０２は、範疇型のクラスタ方式を適用してサイトクラスタを生成することによって、関連関係を介して代表サイトとの間の類似度を判断し、類似度の高い代表サイトをグループ化してサイトクラスタを生成することができる。

クラスタ分類部１０３は、生成されたサイトクラスタを類似のテーマ別に分類することができる。１つのテーマに少なくとも１つのサイトクラスタを含んでもよい。このとき、テーマはユーザの検索意図を意味する。一例として、クラスタ分類部１０３は、サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮し、サイトクラスタを類似のテーマ別に分類してもよい。ここで、サイト別の流入キーワードはサイトクラスタに属するサイトを検索するために入力したキーワードを意味する。ユーザの検索意図はサイト別の流入キーワードを介して把握することができ、サイト別の流入キーワードもテーマ別に分類してもよい。

このとき、クラスタ分類部１０３は、最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類してもよい。

クラスタ分析部１０４は、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供することができる。一例として、クラスタ分析部１０４は、サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果のうち少なくとも１つの分析結果を提供してもよい。分析結果は、上記で記載した事項に限定することなく、システムの構成によってサイトクラスタに対する分析結果は異なっていてもよい。

特に、クラスタ分析部１０４は、テーマを含む第１階層、テーマ別に分類されたサイトクラスタを含む第２階層、およびサイトクラスタに対する関連サイトを含む第３階層を含んで視覚的に図式化したデータ階層図を提供してもよい。このとき、クラスタ分析部１０４は、テーマに含まれたサイトクラスタの検索回数に応じて第１階層に対するテーマ別のサイズを決定してもよい。また、クラスタ分析部１０４は、サイトクラスタに含まれた関連サイトの検索回数に応じて第２階層に対するサイトクラスタ別のサイズを決定してもよい。また、クラスタ分析部１０４は、関連サイトの検索回数に応じて第３階層に対する関連サイト別のサイズを決定してもよい。

図２は、本発明の一実施形態に係る関連サイトを抽出する過程を示す図である。

サイトクラスタシステム１００は、ユーザのサイトクリックログ２０１を用いて関連サイトを抽出してもよい。サイトクリックログ２０１は、ユーザ別に一定の時間内にサイトのＵＲＬに対するユーザクリック数によって構成されていてもよい。サイトクリックログ２０１を調べれば、クッキーは、ユーザが一定の時間内に検索を行った検索セッションに対応してもよい。例えば、クッキーＡを調べれば、ユーザが一定の時間内にサイトをａ_１、ａ_２およびａ_３を順次入力したことを意味する。このようなサイトクリックログ２０１はユーザがサイトを検索しようとする意図を含んでいる。

サイトクラスタシステム１００は、サイトクリックログ２０１に関連規則を適用して関連サイトを抽出してもよい。このとき、サイトクラスタシステム１００は、関連規則に基づいて検索キーワードに対する関連キーワードを抽出してもよい。例えば、ユーザがＸというキーワードを入力してサイトＡを検索した後、より詳細な検索結果を獲得するために連続してサイトＢを検索した場合、Ｂというキーワードを入力したときに、サイトＡが検索された後にサイトＢが入力される条件が予め設定した閾値以上であれば、サイトＢはサイトＡに対する関連サイトとして定義され得る。

一例として、サイトクラスタシステム１００は、サイトの検索回数に係る関連規則を用いてサイトクリックログ２０１から関連サイトを抽出してもよい。具体的に、サイトクラスタシステム１００は、サイトＡの検索回数、サイトＢの検索回数、およびサイトＡが検索された後に特定の時間内にサイトＢの検索回数を介して条件付き確率（Ａが検索された後Ｂが続いて検索される確率）およびサイト間の相関関係を決定し、条件付き確率および相関関係に基づいてサイトＡとサイトＢとが関連関係にあるかを判断するようにしてもよい。このとき、サイトクラスタシステム１００は、サイトＡとサイトＢが関連関係にあるかを判断するために検索回数、条件付き確率、および相関関係程度に閾値を設定してもよい。

他の一例として、サイトクラスタシステム１００は、サイトを検索したユーザのＩＰアドレスに係る関連規則を用いて、サイトクリックログ２０１から関連サイトを抽出してもよい。具体的に、サイトクラスタシステム１００は、サイトＡを検索したユーザのＩＰアドレス情報、サイトＢを検索したユーザのＩＰアドレス情報、およびサイトＡが検索された後にサイトＢが検索された場合、サイトＢを入力したユーザのＩＰアドレス情報を介して条件付き確率を決定し、条件付き確率に基づいてサイトＡとサイトＢが関連関係にあるか否かを判断することができる。このとき、サイトクラスタシステム１００は、サイトＡとサイトＢが関連関係にあるかを判断するために、ＩＰアドレス数、条件付き確率に閾値を設定してもよい。

更なる一例として、サイトクラスタシステム１００は、サイトを検索したユーザのユーザ識別情報（ＵＩＤ）に係る関連規則を用いて、サイトクリックログ２０１から関連サイトを抽出してもよい。ユーザ識別情報に係る関連規則は、ユーザのＩＰアドレスに係る関連規則を用いた方法と同一の形態に適用してもよい。

このような過程を介してサイトクリックログ２０１から関連サイトが抽出されれば、サイトクラスタシステム１００は、表２０２のように代表サイトと関連サイトとの間に対を生成してもよい。代表サイトは、関連サイトのうち代表的な関連サイトを意味する。代表サイトは、システムの構成によって異なるように決定してもよい。代表サイトに対して少なくとも１つの関連サイトが接続されて１つのグループを形成してもよい。このようなグループに範疇型のクラスタリングを適用してサイトクラスタを生成してもよい。

図３は、本発明の一実施形態に係る関連サイトからサイトクラスタを生成する過程を示す図である。

サイトクラスタシステム１００は、関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成してもよい。一例として、サイトクラスタシステム１００は、代表サイトおよび関連サイトの対で共通の関連サイトを用いて関連サイトに対する接続関係を生成し、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。

図３において、サイトＸ、サイトＹ、サイトＺ、サイトＷは関連サイトに対する代表サイトを意味する。また、Ｘ_１、Ｘ_２、Ｘ_３、Ｘ_４、Ｘ_５、Ｘ_６は代表サイトのサイトＸと接続関係にある関連サイトを意味する。また、Ｚ_１、Ｚ_２、Ｚ_３、Ｚ_４、Ｚ_５、Ｘ_３、Ｘ_４、Ｘ_５は代表サイトのサイトＺと接続関係にある関連サイトを意味する。同じように、Ｙ_１、Ｙ_２、Ｙ_３、Ｙ_４、Ｙ_５、Ｙ_６、Ｘ_２は代表サイトのサイトＹと接続関係にある関連サイトを意味する。また、Ｗ_１、Ｗ_２、Ｗ_３、Ｗ_４、Ｗ_５、Ｗ_６、Ｚ_３、Ｙ_３は代表サイトのサイトＷと接続関係にある関連サイトを意味する。すなわち、図３は共通した関連サイトに基づいた代表サイトの間の接続関係を示す。

サイトクラスタシステム１００は、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。具体的に、サイトクラスタシステム１００は、代表サイトの間の接続関係から接続強度に基づいてサイトクラスタを生成してもよい。

サイトクラスタを生成するために関連サイトに対応する基準接続強度が２と設定するとき、代表サイトＸおよび代表サイトＺは共通の関連サイトがＸ_５、Ｘ_４、Ｘ_６と３つがあり、サイトクラスタ（１）３０１を形成してもよい。また、代表サイトＹの場合、代表サイトＸと代表サイトＷとの間に共通する関連サイトが存在するものの、基準接続強度を超過することができず、代表サイトＸおよび代表サイトＷに対してサイトクラスタを生成することができない。したがって、代表サイトＹは、関連サイトのＹ_１、Ｙ_２、Ｙ_３、Ｙ_４、Ｙ_５、Ｙ_６と共にサイトクラスタ（２）３０２を形成してもよい。

同じように、代表サイトＷの場合、代表サイトＺと代表サイトＹと間に共通する関連サイトが存在するものの、基準接続強度を超過することができず、代表サイトＹおよび代表サイトＺに対してサイトクラスタを生成することができない。したがって、代表サイトＷは、関連サイトのＷ_１、Ｗ_２、Ｗ_３、Ｗ_４、Ｗ_５、Ｗ_６と共にサイトクラスタ（３）３０３を形成してもよい。

図４は、本発明の一実施形態に係るテーマ別のサイトクラスタを生成する全体過程を示すブロックダイアグラムである。

複数のユーザによってサイトクリックログ４０１が生成する。サイトクリックログ４０１は、ユーザが一定時間の間に同じ検索意図をもってサイトをクリックした情報を収集したものである。サイトクラスタシステム１００は、サイトクリックログ４０１に関連規則を適用して少なくとも１つの関連サイト４０２を抽出してもよい。その後、サイトクラスタシステム１００は、関連サイト４０２から類似の属性を有する関連サイトに対するサイトクラスタ４０３を生成してもよい。すなわち、サイトクラスタシステム１００は、関連サイト４０２を類似程度に応じてグループ化することができる。

サイトクラスタシステム１００は、サイトクラスタ４０３をゲーム、乳児、ショッピング、金融／ビジネスのようなテーマ４０４に分類してもよい。このとき、サイトクラスタシステム１００は、サイトクラスタ４０３に属したサイト別の流入キーワードのテーマを考慮してテーマ４０４に分類してもよい。サイトクラスタシステム１００は、テーマ４０４に分類されたサイトクラスタ４０３を用いてテーマ別の分析結果４０５を抽出してもよい。テーマ別の分析結果４０５は、サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果のうち少なくとも１つの分析結果を含んでもよい。

時系列的分析は、時間帯別、日別、週別、月別、年別のようにテーマに係るサイト検索回数／分布度、サイトクリック回数／分布度などを意味する。また、テーマ別分布度は、多様なテーマ別にサイトクラスタの数に応じて決定してもよい。クリック回数は、テーマ別にサイトクラスタに属した関連サイトをユーザがクリックした回数を意味する。テーマ別サイトリストは、テーマ別に分類されたサイトクラスタに属する関連サイトの目録を意味する。テーマ別関心ユーザ数は、テーマ別に分類されたサイトクラスタに属した関連サイトにクリックして訪問したユーザを意味する。ユーザの訪問行動の結果は、テーマ別に分類されたサイトクラスタに属した関連サイトに訪問してサイトに加入したり、サイトで販売する物品を購入したりする行為を追跡分析した結果を意味する。

このような分析結果を介してユーザに対するターゲット広告を行なうことができ、ユーザの検索意図を把握して検索エンジンを更に最適化することができると共に、広告主にテーマ別の分析結果を提供して広告を販売することができる。

また、テーマ別分析結果４０５は、テーマを含む第１階層、テーマ別に分類されたサイトクラスタを含む第２階層、およびサイトクラスタに対する関連サイトを含む第３階層に構成されたデータ階層を含んでもよい。

図５は、本発明の一実施形態に係るサイトクラスタをテーマ別に分類して日別にクラスタリングすることを示す図である。

一例として、サイトクラスタシステム１００は、最初に生成された検索キーワードクラスタに対してテーマ別に分類してシードクラスタを生成し、シードクラスタに基づいて予め設定した周期別に生成された検索キーワードクラスタをテーマ別に分類してもよい。

図５に示すように、２００８年７月１７日から２００８年１０月３０日までの日別検索キーワードクラスタを生成して検索キーワードクラスタを分類する過程を示している。

まず、２００８年７月１７日に最初にサイトクラスタ５０１（ｃｌｕｓｔｅｒ４０２１４、ｃｌｕｓｔｅｒ２７５８４、ｃｌｕｓｔｅｒ７３９２０、ｃｌｕｓｔｅｒ５８１３４、ｃｌｕｓｔｅｒ２１２７６、ｃｌｕｓｔｅｒ１５８６５）が生成されれば、サイトクラスタシステム１００は、サイトクラスタ５０１を複数のテーマ５０１それぞれに分類してもよい。図５において、Ｘ_１、Ｘ_２、Ｘ_３、Ｘ_４はサイトクラスタのｃｌｕｓｔｅｒ４０２１４に属した関連サイトを意味する。

図５に示すように、ｃｌｕｓｔｅｒ４０２１４、ｃｌｕｓｔｅｒ２７５８４は「大衆音楽」に分類されており、ｃｌｕｓｔｅｒ７３９２０は「ゲーム」に分類されている。同じように、ｃｌｕｓｔｅｒ５８１３４は「衣類／雑貨」に分類され、ｃｌｕｓｔｅｒ２１２７６、ｃｌｕｓｔｅｒ１５８６５は「旅行」に分類され得る。このようにテーマ別に分類されたサイトクラスタ５０１がシードクラスタになり得る。

すると、翌日２００８年７月１８日に生成されたサイトクラスタは複数のシードクラスタ各々が属したテーマ別に分類され、このような過程は２００８年１０月３０日まで毎日繰り返されてもよい。

日別に生成されたサイトクラスタはシードクラスタが属したテーマ別に分類され、最終的に検索キーワードが複数のテーマそれぞれに分類されてもよい。テーマはユーザの検索意図と対応するため、同一のテーマに含まれたサイトクラスタは同一のユーザの検索意図を示すことを意味する。このとき、テーマは予め設定した数だけ設定されてもよい。

図６は、本発明の一実施形態に係るテーマ、サイトクラスタ、および関連サイトの間の階層関係を示す一例を示す図である。

本発明の一実施形態に係るサイトクラスタシステム１００は、関連サイト−＞サイトクラスタ−＞テーマの３ステップの階層を導き出すことができる。このとき、サイトクラスタシステム１００は、テーマを含む第１階層６０１、テーマ別に分類されたサイトクラスタを含む第２階層６０２およびサイトクラスタに対する関連サイトを含む第３階層６０３に構成されたデータ階層図を生成してもよい。

一例として、サイトクラスタシステム１００は、テーマに含まれた関連サイトの検索回数に応じて第１階層６０１に対するテーマ別のサイズを決定してもよい。また、サイトクラスタシステム１００は、サイトクラスタに含まれた関連サイトの検索回数に応じて第２階層６０２に対するサイトクラスタ別のサイズを決定してもよい。また、サイトクラスタシステム１００は、関連サイトの検索回数に応じて第３階層６０３に対する関連サイト別のサイズを決定してもよい。

第１階層６０１に含まれた四角形の広さはテーマ別のサイズを意味し、四角形の広さが広いほど該当の四角形に対応するテーマに含まれる関連サイトの検索回数が多いことを意味する。また、第２階層６０２に含まれる四角形の広さはサイトクラスタ別のサイズを意味し、四角形の広さが広いほど該当の四角形に対応するサイトクラスタに含まれる関連サイトの検索回数が多いことを意味する。また、第３階層６０３に含まれる四角形の広さは関連サイト別のサイズを意味し、四角形の広さが広いほど該当の四角形に対応する関連サイトの検索回数が多いことを意味する。

サイトクラスタシステム１００は、第１階層６０１、第２階層６０２および第３階層６０３を視覚的／定量的に提供することができる。もし、第１階層６０１でテーマＸ６０４が選択されれば、サイトクラスタシステム１００は、テーマＸ６０４に分類されたサイトクラスタに対する第２階層６０２を表示してもよい。また、第２階層６０２でサイトクラスタＹ６０５が選択されれば、サイトクラスタシステム１００は、サイトクラスタＹ６０５に含まれた関連サイトに対する第３階層６０３を表示してもよい。図６に示されたデータ階層図は一例に過ぎず、システムの構成によって異なる形態に表してもよい。

図７は、本発明の一実施形態に係るサイトクラスタ方法を示すフローチャートである。

サイトクラスタシステム１００は、ユーザのサイトクリックログを用いて関連サイトを抽出してもよい（Ｓ７０１）。一例として、サイトクラスタシステム１００は、同一の時間区間でユーザ別にクリックしたサイト情報を収集し、収集されたサイト情報に関連規則を適用して関連サイトを抽出してもよい。具体的に、サイトクラスタシステム１００は、サイトの検索回数に係る関連規則、ユーザのＩＰアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか１つの関連規則に基づいて関連サイトを抽出してもよい。

サイトクラスタシステム１００は、抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成してもよい（Ｓ７０２）。一例として、サイトクラスタシステム１００は、抽出された関連サイトによって代表サイトおよび関連サイトの対を生成してサイトクラスタを生成してもよい。このとき、サイトクラスタシステム１００は、代表サイトおよび関連サイトの対に共通している関連サイトを用いて関連サイトに対する接続関係を生成してもよい。また、サイトクラスタシステム１００は、接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成してもよい。

サイトクラスタシステム１００は、生成されたサイトクラスタを類似のテーマ別に分類してもよい（Ｓ７０３）。一例として、サイトクラスタシステム１００は、サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮してサイトクラスタを類似のテーマ別に分類してもよい。また、サイトクラスタシステム１００は、最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類してもよい。

サイトクラスタシステム１００は、テーマに応じて分類されたサイトクラスタを分析して分析結果を提供してもよい（Ｓ７０４）。一例として、サイトクラスタシステム１００は、テーマを含む第１階層、テーマ別に分類されたサイトクラスタを含む第２階層、およびサイトクラスタに対する関連サイトを含む第３階層に構成されたデータ階層図を提供してもよい。また、サイトクラスタシステム１００は、サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果のうち少なくとも１つの分析結果を提供してもよい。

図７で説明していない事項は図１〜図６の説明を参考にしてもよい。

また、本発明の一実施形態に係るサイトクラスタ方法は、多様なコンピュータ手段を介して実行することができるプログラム命令形態に具現され、コンピュータ読取可能な記録媒体に記録されることができる。前記コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともできる。前記媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピーディスク（登録商標）および磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。

上述したように、本発明は、例示として限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態の記載から多様な修正および変形が可能である。

したがって、本発明の範囲は説明された実施形態に限定されて解釈されてはならず、特許請求の範囲の記載だけでなく、この特許請求の範囲の記載と均等なものなどによって定められなければならない。

１００サイトクラスタシステム
１０１関連サイト抽出部
１０２クラスタ生成部
１０３クラスタ分類部
１０４クラスタ分析部

Claims

ユーザのサイトクリックログを用いて関連サイトを抽出する関連サイト抽出部と、
前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成するクラスタ生成部と、
前記生成されたサイトクラスタを類似のテーマ別に分類するクラスタ分類部と、
前記テーマに応じて分類されたサイトクラスタを分析して、前記サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果を含む分析結果を提供するクラスタ分析部と、を含むことを特徴とするサイトクラスタシステム。
前記関連サイト抽出部は、同一の時間区間でユーザ別にクリックしたサイト情報を収集し、前記収集したサイト情報に関連規則を適用して関連サイトを抽出することを特徴とする請求項１に記載のサイトクラスタシステム。
前記関連サイト抽出部は、サイトの検索回数に係る関連規則、ユーザのＩＰアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか１つの関連規則に基づいて関連サイトを抽出することを特徴とする請求項２に記載のサイトクラスタシステム。
前記クラスタ生成部は、前記抽出された関連サイトに応じて代表サイトおよび関連サイトの対を生成してサイトクラスタを生成することを特徴とする請求項１に記載のサイトクラスタシステム。
前記クラスタ生成部は、前記代表サイトおよび関連サイトの対に共通する関連サイトを用いて関連サイトに対する接続関係を生成し、前記接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成することを特徴とする請求項４に記載のサイトクラスタシステム。
前記クラスタ分類部は、前記サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮して前記サイトクラスタを類似のテーマ別に分類することを特徴とする請求項１に記載のサイトクラスタシステム。
前記クラスタ分類部は、最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、前記生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類することを特徴とする請求項１に記載のサイトクラスタシステム。
前記クラスタ分析部は、前記テーマを含む第１階層、前記テーマ別に分類されたサイトクラスタを含む第２階層、および前記サイトクラスタに対する関連サイトを含む第３階層に構成されたデータ階層図を提供することを特徴とする請求項１に記載のサイトクラスタシステム。
関連サイト抽出部と、クラスタ生成部と、クラスタ分類部と、クラスタ分析部と、を含むサイトクラスタシステムにおけるサイトクラスタ方法であって、
前記関連サイト抽出部がユーザのサイトクリックログを用いて関連サイトを抽出し、
前記クラスタ生成部が前記抽出された関連サイトの関連関係を用いて類似の属性を有する関連サイトに対するサイトクラスタを生成し、
前記クラスタ分類部が前記生成されたサイトクラスタを類似のテーマ別に分類し、
前記クラスタ分析部が前記テーマに応じて分類されたサイトクラスタを分析して、前記サイトクラスタのテーマに応じて時系列的分析、テーマ別分布度、クリック回数、テーマ別サイトリスト、テーマ別関心ユーザ数、またはユーザの訪問行動の結果を含む分析結果を提供すること、
を含むことを特徴とするサイトクラスタ方法。
前記関連サイトを抽出することは、前記関連サイト抽出部が、同一の時間区間でユーザ別にクリックしたサイト情報を収集し、前記収集したサイト情報に関連規則を適用して関連サイトを抽出することを特徴とする請求項９に記載のサイトクラスタ方法。
前記関連サイトを抽出することは、前記関連サイト抽出部が、サイトの検索回数に係る関連規則、ユーザのＩＰアドレスに係る関連規則、またはユーザ識別情報に係る関連規則のうちいずれか１つの関連規則に基づいて関連サイトを抽出することを特徴とする請求項１０に記載のサイトクラスタ方法。
前記関連サイトに対するサイトクラスタを生成することは、前記クラスタ生成部が、前記抽出された関連サイトに応じて代表サイトおよび関連サイトの対を生成してサイトクラスタを生成することを特徴とする請求項９に記載のサイトクラスタ方法。
前記関連サイトに対するサイトクラスタを生成することは、
前記クラスタ生成部が、
サンギ代表サイトおよび関連サイトの対に共通する関連サイトを用いて関連サイトに対する接続関係を生成し、
前記接続関係に範疇型のクラスタ方式を適用してサイトクラスタを生成すること、
を含むことを特徴とする請求項１２に記載のサイトクラスタ方法。
前記生成されたサイトクラスタを類似するテーマ別に分類することは、前記サイトクラスタを構成するサイト別の流入キーワードに対するテーマを考慮して前記サイトクラスタを類似のテーマ別に分類することを特徴とする請求項９に記載のサイトクラスタ方法。
前記生成されたサイトクラスタを類似のテーマ別に分類することは、
前記クラスタ分類部が、
最初に生成されたサイトクラスタに対してテーマ別に分類してシードクラスタを生成し、
前記生成されたシードクラスタに基づいて予め設定した周期別に生成されたサイトクラスタをテーマ別に分類すること、
を含むことを特徴とする請求項９に記載のサイトクラスタ方法。
前記サイトクラスタを分析して分析結果を提供することは、前記クラスタ分析部が、前記テーマを含む第１階層、前記テーマ別に分類されたサイトクラスタを含む第２階層、および前記サイトクラスタに対する関連サイトを含む第３階層に構成されたデータ階層図を提供することを特徴とする請求項９に記載のサイトクラスタ方法。
請求項９乃至請求項１６のいずれか１項の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。