JP2003331089A - サービスサイト利用状況の分析装置 - Google Patents

サービスサイト利用状況の分析装置

Info

Publication number
JP2003331089A
JP2003331089A JP2002134897A JP2002134897A JP2003331089A JP 2003331089 A JP2003331089 A JP 2003331089A JP 2002134897 A JP2002134897 A JP 2002134897A JP 2002134897 A JP2002134897 A JP 2002134897A JP 2003331089 A JP2003331089 A JP 2003331089A
Authority
JP
Japan
Prior art keywords
information
user
data
history information
service site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002134897A
Other languages
English (en)
Inventor
Keiko Shimazu
恵子 嶋津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002134897A priority Critical patent/JP2003331089A/ja
Publication of JP2003331089A publication Critical patent/JP2003331089A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 分析精度を向上できるサービスサイト利用状
況の分析装置を提供する。 【解決手段】 サービスサイトの利用状況の分析装置1
0であって、所定のデータを対象としてユーザが行った
操作を認識し、当該操作の対象となったデータに関する
情報と当該操作に関する情報とを関連づけて履歴情報と
して記録し、ユーザからの一連の操作に応じて生成され
る、一連の履歴情報を、所定の分割ルールに基づき、所
定単位に分割し、この所定単位に分割された履歴情報に
よりサービスサイトの利用状況の分析処理を行う分析装
置である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ウエブサイト等の
サービスサイトの利用状況の分析装置に関する。
【0002】
【従来の技術】[技術背景]近年、様々な組織内で、専
門性の高い知識の共有を図るため、ナレッジ・マネジメ
ント(Knowledge Management)と呼ばれる技術が注目さ
れている。これは組織内に点在する専門性の高い知識を
必要に応じて即座に活用し、かつその結果を知識の所有
者間で共有することにより、さらに新しい知識を創造し
ていく拡大再生産型プロセスを指している。本来ナレッ
ジ・マネジメントは必ずしも情報技術を前提とした経営
コンセプトではなく、組織内の高度な知識を用いて生産
性の飛躍的向上を達成するための現実的なソリューショ
ンを求めるものである。
【0003】従って、ナレッジ・マネジメントは、その
黎明期にあっては、組織論や経営管理論などの学問領域
からのアプローチが多かった。その後、知識活用状況の
分析の視点に技術的要素を加え、これをきっかけにし
て、欧米を中心に情報技術(IT)を活用したナレッジ
・マネジメントのシステムが発展してきた。特にナレッ
ジ・マネジメントを実現するための基盤システムとし
て、ウエブ(Web)を利用した組織内情報共有システ
ム〈イントラネット)を応用した情報インフラストラク
チャが、多くの企業に導入されている。
【0004】一方、このような知的活動を支援する新し
い情報技術として、データマイニング技術が注目されて
いる。データマイニングは、組織内で蓄積されたデータ
の大容量化に鑑み、そのようなデータの蓄積から有益な
情報を発見するための技術である。この技術の狙いは、
煩雑な操作を組み合わせ、しかもそのような操作を繰り
返しを行なわなければ、蓄積されたデータから見いだし
得ないような、データ間の規則性や法則性を人為的介入
なしに発掘することにある。
【0005】しかし近年、データマイニング技術の利用
が浸透するに従って、より高度な要求が掲げら始めてい
る。例えば(1)データに潜む槻念やメカニズムの存
在、つまりデータはノイズや誤差で崩れているかもしれ
ないが、その裏には学習すべき貴重なものが隠されてい
る、という期待や、(2)固定的なテーブルに格納され
ている定型的データだけでなく、非定型データに対して
も適応させたい、という要望である。
【0006】つまり獲得目標が、データ間の単純な規則
性から、情報内に潜む汎用性の高い知識へと移りつつあ
る。
【0007】さらに、近年のウエブ(特にWorld Wide W
eb)上の情報蓄積量や、そのアクセスのしやすさに着目
し、ウエブにデータマイニングを適用しようとする研究
が盛んに行われている。このような背景に加え、最近で
はウエブサイトへの情報の登録を支援するツール群も整
備されつつあり、情報交換の過程から記録を残すことも
可能になっている。これらのことから、ウエブサイト上
に蓄積された情報から動的に知識を獲得することへの要
求・期待が高まっている。
【0008】ウエブを対象としたデータマイニングの具
体的な手法として、(1)ウエブサイト上のコンテンツ
やハイパーリンク構造を対象としたもの(いわゆるWeb
Contentマイニング)と、(2)ウエブサーバに記録さ
れるアクセスログなどから利用者の特徴やアクセス傾向
を把握するもの(いわゆるWeb Usageマイニング)と、
がある。後者のWeb Usageマイニングは、ウエブサイト
を用いた電子商取引等のサービスの展開において、ウエ
ブサイトデザインの改善などへの貢献が期待されてお
り、研究的側面だけでなく、商業的側面・社会的側面で
も広く注目を集めている。
【0009】[関連技術]従来、一般的なデータマイニ
ングを行うための研究として、U.Fayyad, et. al., "Fr
om Data Mining to Knowledge Discovery in Database,
American Association for Artificial Intelligenc
e", Fall 1996, pp.37-52(1996)が知られている。この
中でファヤド(Fayyad)は、データマイニング技術の応
用の汎用プロセスを示し、同時に前処理の重要性を主張
している。一方Web Usageマイニングの研究例は少数で
ある。例えば、R.Cooley, et.al., "Web Mining: Infor
mationand Pattern Discovery on the World Wide We
b", Proceedings of the 9th IEEE International Conf
erence on Tools with Artificial Intelligence(ICTA
I'97), November (1997)において、アトランタオリンピ
ック公式Webサイトのアクセスログを対象にしたデータ
マイニング実験の成果が報告されている。また、この中
では汎用のWeb Usageマイニングプロセスが提案されて
いる。
【0010】具体的にクーリー(Cooley)のWeb Usage
マイニングのプロセスは、ファヤドのプロセス(KDDプ
ロセスと呼ばれているもの)を踏襲したものである。ウ
エブに特有の事情に配慮した部分としては、当該プロセ
スのうちの前処理部分がある。具体的には、(1)アク
セスログからデータマイニング用データベースを作成す
る工程とは別に、サイトマップを生成する工程が用意さ
れていること、(2)データの塊に区切りを入れる操作
を行っていること、である。特に区切りを入れる操作
は、セッションの同定とトランザクションの同定といっ
た2箇所で行なわれている。セッションとは、ユーザが
ウエブサイトにアクセスを開始してから終了するまでの
一連の操作であり、トランザクションとは個々の操作に
伴って行われるデータの授受状態を指す。
【0011】セッションの同定は、ウエブサイト側で記
録されるアクセスログデータを、各ユーザがウエブサイ
トに入ってから出ていくまでの単位ごとに区切りを入れ
る作業である。具体的にはユーザごとに時系列に並び替
えられたレコード群(アクセス記録)に対し、サーバへ
のアクセスを終了していると判断できるレコードを、セ
ッションの区切りとして特定する。このセッション同定
の精度は、同一セッション内で、ともにアクセスされる
傾向の高いコンテンツの群を把握することに大きく影響
し、従ってマイニングの結果に大きく影響すると考えら
れる。
【0012】トランザクションの同定は、各セッション
内の時系列レコードを、さらに何らかの意味ある単位毎
に区切り、かつ整形する作業である。これはユーザが求
めるコンテンツ(対象コンテンツ)に辿りつくまでの道
筋を利用したマイニングの結果に影響を与えると考えら
れる。
【0013】セッションの区切りのために、クーリー
は、多くの商用サイトが30分のタイムアウトの設定を
おこなっていることに注目し、この値をセッションの区
切りの時間閾値に用いることを提案している。なお、ク
ーリー以外の研究者が提案しているものとしては、ユー
ザのクライアント環境に操作を記録するモジュールを設
置し、ユーザの操作の区切りを統計的に求める実験を行
い、25.5分の時間閾値とすべきであるというもの
や、Java(登録商標)エージェントを用いてウエブサイ
トへのアクセスの都度、ユーザ側(クライアント)での
操作内容を取得して、それによりセッションの区切りを
見いだそうというものがある。
【0014】また、トランザクションの区切りのため
に、クーリーらはユーザが所望のコンテンツ(対象コン
テンツ)を取得したか否かを検出することとしている。
このためにまず、ユーザが情報を獲得する際の行動とし
て、ウエブサイトの構築者が想定したメニューページ間
の選択経路と、実際に利用者の多くが辿ったそれとの差
を把握する。すなわち、ウエブサイト内の各ウエブペー
ジへのアクセス操作が、ユーザにとってメニューページ
を開いたことに相当しているのか、対象コンテンツを開
いたことに相当しているかを特定する。より具体的に
は、ユーザのふるまいをヘッド(Head)ページの参照、
ナビゲーション(Navigation)ページの参照、検索(Lo
ok Up)ページの参照、個人(Personal)ページの参
照、コンテンツ(Content)ページの参照という5つの
種類に分け、コンテンツページの参照以外を補助的ペー
ジの参照として定義する。
【0015】そしてクーリーらの方法では、対象コンテ
ンツを開いたと判断するための基準として、ユーザが当
該情報を参照している時間(参照時間)を用いる。つま
り、コンテンツページの参照時間と比較して、補助的ペ
ージの参照時間は短いと想定され、あるページの参照時
間が、所定の閾値より大きい場合に、そのユーザの操作
を「対象コンテンツを入手した」と判定する。なお、こ
のときの閾値計算には、ポワソン分布が利用されている
が、クーリーは、機械学習等の方法を用いて精密化する
ことが望ましいと述べている。
【0016】こうして対象コンテンツを取得したという
操作の記録(レコード)により、当該レコードをトラン
ザクション中の最終地点〈トランザクション中の最終レ
コード)とする。以下、この方法を便宜的に参照長さ法
(Reference Length Method)と呼ぶ。
【0017】また、クーリー以外の方法として、ウエブ
サイトにて記録されたアクセスログから、ユーザの操作
意図を分析し、トランザクションの区切りを見いだす方
法が提案されている。この方法では具体的に、ウエブサ
イト内のハイパーリンク構造とユーザのアクセス記録と
を照らし合わせ、〈ハイパーリンクをたどることなく)
ブラウザの「戻る」ボタンをクリックして移動したと見
られる時点を把握する。つまり「戻る」ボタンを押した
ことで、ユーザが一定の作業を終了し、後戻りをしてい
ると仮定し、トランザクションの区切りとする。以下、
この方法を便宜的に、最大前進参照法(Maximal Forwar
d Reference Method)と呼ぶ。
【0018】
【発明が解決しようとする課題】このように、上記従来
のウエブサイトへのアクセス状態を調べるためのデータ
マイニング(Web Usageマイニングなど)では、ユーザ
が行った一連の操作内容を、所望のデータ(対象コンテ
ンツ)を入手するごとの単位に分割している。しかしな
がら、その分割の方法は、ユーザが対象コンテンツを入
手したと推認する条件を定め、当該条件でレコードを検
出するというものである。
【0019】ところが、一般的にウエブサイトへのアク
セス環境は、ユーザごとに大きく異なる。これは、たと
えナレッジ・マネジメントを前提として設計されたイン
トラネット上であっても同じである。モパイル通信環境
が広く利用されている現在、常時接続可能な場合と、ダ
イヤルアップのように安定した通信が期待できない場合
とでは、ユーザの操作手順は大きく変わってくる。例え
ば常時接続可能な状態であれば、さまざまな理由で作業
の保留(ウエブページを開いたまま席を離れる等)が発
生し、対象コンテンツのページでなくとも長い時間開い
ておく場合もあって、参照長さ法ではトランザクション
の区切りとして認識されてしまう。
【0020】また,ウエブサイト内のメニュー構造が長
期に亘り、あまり変更されない場合には、ユーザが探索
経路を学習して、操作の誤りが時間の経過と共に減少す
る。「戻る」ボタンを押したときをユーザの何らかの操
作の区切りと結びつけることは、この場合には妥当と考
えられる。ところが実際は、提供される情報の更新に応
じてウエブサイトのハイパーリンク構造は動的に変化し
ており、構築者は、メニュー体系を日々更新しているの
である。このためユーザは、ウエブサイトの内容が更新
されるたびに、試行錯誤的な操作を繰り返して行い、誤
った場所に行き着くたびに「戻る」ボタンをクリックし
てしまう。従って最大前進参照法によると、このような
場合にトランザクションの区切りと認識されてしまう。
【0021】このように、従来のデータマイニング手法
では、現実のウエブサイトの構築状態に鑑みると、ユー
ザが迷っていたり、中座したりといった状態が、トラン
ザクションの区切りとして、すなわちユーザが所望のデ
ータを入手したとして認識されることとなって妥当性を
欠く。
【0022】本発明は上記実情に鑑みて為されたもの
で、ウエブサイト等、ネットワークを介して行われるサ
ービスのサイトの現実的な構築状態に配慮し、セッショ
ンやトランザクションの区切りをより的確に認識でき、
それにより分析精度を向上できるサービスサイト利用状
況の分析装置を提供することを目的とする。
【0023】
【課題を解決するための手段】このために本発明では、
セッションやトランザクションの区切り処理にユーザの
操作の意図をより正確に表現するモデルを導入するとと
もに、機械学習の利用を通じてさらに精度を高める。ま
た前処理に関し、マイニング用対象データベースを、ア
クセスログだけでなくコンテンツにも関連したデータベ
ースとし、さらにはユーザに関するデータをも統合した
データベースとすることで、さらなる精度の向上を図っ
たものである。
【0024】そこで上記従来例の問題点を解決するため
の本発明は、ネットワークを介してアクセスされるサー
ビスサイト側に設けられ、当該サービスサイトの利用状
況を分析する装置であって、所定のデータを対象として
ユーザが行った操作を認識し、当該操作の対象となった
データに関する情報と当該操作に関する情報とを関連づ
けて履歴情報として記録する手段と、ユーザからの一連
の操作に応じて生成される、一連の履歴情報を、所定の
分割ルールに基づき、所定単位に分割する手段と、前記
所定単位に分割された履歴情報に基づき、サービスサイ
トの利用状況の分析処理を行う手段と、を含むこととし
ている。
【0025】ここでさらに、前記分割ルールを、過去の
分割例を教師とした学習処理により更新する手段を含む
ことも好ましい。また、前記履歴情報は、操作の種別及
び当該操作の対象となったデータの種別ごとに、予め定
義されたグループ識別子として記録されることとするの
も好ましい。
【0026】また、本発明のある態様によれば、ネット
ワークを介してアクセスされるサービスサイト側に設け
られ、当該サービスサイトの利用状況を分析する方法で
あって、所定のデータを対象としてユーザが行った操作
を認識し、当該操作の対象となったデータに関する情報
と当該操作に関する情報とを関連づけて履歴情報として
記録する工程と、ユーザからの一連の操作に応じて生成
される、一連の履歴情報を、所定の分割ルールに基づ
き、所定単位に分割する工程と、前記所定単位に分割さ
れた履歴情報に基づき、サービスサイトの利用状況の分
析処理を行う工程と、を含むこととした。
【0027】また本発明のさらに別の態様によれば、ネ
ットワークを介してアクセスされるサービスサイト側に
設けられ、当該サービスサイトの利用状況を分析するプ
ログラムであって、コンピュータに、所定のデータを対
象としてユーザが行った操作を認識し、当該操作の対象
となったデータに関する情報と当該操作に関する情報と
を関連づけて履歴情報として記録する手順と、ユーザか
らの一連の操作に応じて生成される、一連の履歴情報
を、所定の分割ルールに基づき、所定単位に分割する手
順と、前記所定単位に分割された履歴情報に基づき、サ
ービスサイトの利用状況の分析処理を行う手順と、を実
行させることとした。
【0028】
【発明の実施の形態】本発明の実施の形態について図面
を参照しながら説明する。本発明の実施の形態に係る分
析装置10は、図1に示すように、各ユーザごとに設け
られたクライアント側装置2にネットワークを介して接
続された一般的なサーバコンピュータであって、CPU
11と、記憶部12と、ストレージ13と、ネットワー
クインタフェース14とを含んで構成されている。ま
た、これらの各部は互いにバス(BUS)を介して接続
されている。
【0029】CPU11は、ストレージ13に格納され
ているプログラムに従って動作しており、履歴情報の記
録処理と、履歴情報を所定単位に分割する処理と、分析
処理とを実行する。これらCPU11の処理の具体的内
容については、後に詳しく述べる。記憶部12は、RA
M(Random Access Memory)などであり、CPU11の
処理に際して使われる、ワークメモリ等として動作す
る。ストレージ13は、CPU11により実行されるプ
ログラムを格納する領域と、ウエブサイトのコンテンツ
を格納する領域と、履歴情報を格納する領域と、ユーザ
データベースを格納した領域とを含んでいる。具体的
に、このストレージ13は、一又は複数のディスク装置
として構成することができる。ネットワークインタフェ
ース14は、ネットワークに接続され、ネットワークを
介して受信されるデータをCPU11に出力する。また
このネットワークインタフェース14は、CPU11か
ら入力される指示に従ってデータを送信する。
【0030】次に、CPU11の具体的処理の内容につ
いて説明する。本実施の形態においてはCPU11は、
イントラネット上で文書管理システムに関するサービス
サイトとしての処理を行っているものとする。そして、
当該サービスサイトの利用状況を分析するために、上述
した履歴情報の記録処理と、履歴情報を所定単位に分割
する処理と、分析処理とを実行している。以下では、こ
れらの各処理の内容について、それぞれに分けて説明す
る。
【0031】[サービスサイトの提供処理]CPU11
は、ウエブサーバとしての処理を実行しており、クライ
アント側装置2で実行されるウエブブラウザからの要求
に応じて、ドキュメントデータの閲覧・共有・搭載・更
新をおこなう。このようなシステムの一例においては、
各ドキュメントデータは、オブジェクトとして管理さ
れ、オブジェクトの種別ごとに、一意に名前がつけら
れ、一つのインスタンス(ウエブページ)として扱われ
る。オブジェクトの種別は、ファイル(File)、フォル
ダ(Collection)、掲示板(BulletinBoard)、予定表
(Calendar)等、複数種類あり、あるファイルをサーバ
に格納すると、それに対して、「File-123」といったよ
うに、オブジェクト種別と識別番号とを含んでなる、固
有の識別子が付与され、この識別子によりファイルの特
定が行われる。また、各オブジェクトに対する操作は、
ディレクトリサービス環境と同様に、オブジェクト種別
毎にフォルダインスタンスを作成し、さらにその中にい
ずれかのオブジェクトのインスタンスを格納するという
作業を必要に応じて繰り返す。なお、このシステムでは
ユーザの情報もオブジェクトとして扱われるものとして
もよい。
【0032】CPU11は、各オブジェクトインスタン
スの関係をHTML(Hyper Text Markup Language)ド
キュメント上のハイパーリンクの構造で表現する。そし
てコンテンツデータが追加・編集されると、この表現は
自動的に更新される。また、ファイルの格納作業の際
に、対応するHTMLドキュメントヘの変換も行う。従
ってユーザは、クライアント側装置2でウエブブラウザ
を利用し、ドキュメントデータをURLにて指定するこ
とで、どのオブジェクトインスタンスの参照もできるよ
うになっている。
【0033】具体的に、このような機能の提供は、CG
I(Common Gateway Interface)プログラムの集合とし
て実装されており、利用者がハイパーリンクをクリック
し、ウエブページの閲覧や格納等の操作を行なうたび
に、それに対応するCGIプログラムがCPU11によ
り実行される。
【0034】[履歴情報の記録処理]このときCPU1
1は、履歴情報の記録の処理として、当該実行されたC
GIプログラムを特定する情報(プログラム名など)
と、その際に指定されたクエリから、操作の対象(オブ
ジェクト種別と識別子)とをアクセスログとして記憶部
12に記録する。これによりユーザがどのボタンやメニ
ュー(ハイパーリンク)を選択し、何の操作を行ったか
を認識することになる。ここで記録されるアクセスログ
は、具体的には図2に示すように、クライアント側装置
2に付与されたアドレス情報(IPアドレスなど)A
と、アクセス時刻T、実行されたCGIプログラムを特
定する情報P、当該CGIプログラムの処理の対象とな
った(つまり操作の対象となった)データを特定する情
報D、その他クライアント側装置2に関する情報R等を
含む。なお、CPU11がサービスサイトの提供処理に
おいて、アクセスするユーザを認証しているときには、
当該ユーザに関する情報Uをさらに併せて記録すること
も好ましい。
【0035】そしてCPU11は、このアクセスログの
各レコードから、操作とその操作の対象となったデータ
との組により表現される、履歴情報を生成する。履歴情
報は、操作を特定する情報と、操作の対象となったデー
タを特定する情報とをそのまま含んだものとすることと
してもよいが、例えば文書管理システムであれば、一般
に100を超える種類の操作があり、データは登録した
数だけとなってデータマイニングのための情報として用
いるには、情報が発散しすぎて好ましくない。そこでデ
ータは、そのオブジェクト種別に分類する。また、操作
と、その操作の対象となったデータのオブジェクト種別
と、の組を予め定義したグループのいずれかに分類し、
その分類したグループを識別する情報を履歴情報とする
ことが好ましい。
【0036】アクセスログにおいては、実行されたCG
Iプログラムを特定する情報Pとデータを特定する情報
Dとは、図3(a)のようにCGIプログラムのURL
とクエリ(Query)として、又は図3(b)のように、
仮想的なアクセスパスの中にCGIプログラムを特定す
る情報Pとそのプログラムにより操作の対象となったデ
ータを特定する情報Dとを含んだものとして記録され
る。CPU11は、この記録からCGIプログラムを特
定する情報と、データを特定する情報とを抽出し、予め
ストレージ13に格納されているグループ定義テーブル
を参照してこれらの情報をグループに分類する。
【0037】ここでグループ定義テーブルは、例えば図
4に示すように、操作が「閲覧(view)」で、オブジェ
クト種別が「フォルダ(collection)」である場合に、
「メニュー表示(探索用)」としてグループ分けされて
いる。本実施の形態において特徴的なことは、グループ
定義が図4に示すように階層構造となっていることであ
る。すなわち、この「メニュー表示(探索用)」のグル
ープ(以下、便宜的に「中位概念」と呼ぶ)は、さらに
上位のグループ(上位の操作概念グループ(以下、上位
概念と略称する))の「前/後処理」(所望の操作を行
う前または後に行われる操作)に属している。
【0038】CPU11は、履歴情報に、操作の上位概
念を識別する文字列と、操作の中位概念を識別する文字
列と、操作を特定する情報と、データのオブジェクト種
別の情報と、データを特定する情報とを含めて保持す
る。
【0039】[分割処理]次に、記憶部12に格納され
た一連の履歴情報を、セッションやトランザクションと
いった所定の単位に分割する処理について説明する。こ
の分割に用いることのできる情報としては、一般に、
(1)コンテンツに関するソースデータとして、a.ウ
エブサイト内のコンテンツ(インスタンス)情報、すな
わちHTMLとXMLで定義されるウエブドキュメント、b.
サイトマップ情報、すなわちウエブサイト内のハイパー
リンクの構造情報、c.インスタンス属性値情報、すな
わち各コンテンツ(インスタンス)の特徴に関する情報
一覧、作成目的や関連する情報、公開範囲など(2)ア
クセスログに関するソースデータとして、a.アクセス
記録、すなわち上述の履歴情報、b.エラー記録、すな
わちユーザの操作によって、サービスサイトを提供する
処理において何らかのエラーが発生し、それを表示した
ときの記録、(3)ユーザに関するソースデータとし
て、a.個別のユーザごとの属性情報、といったものが
ある。
【0040】ここで(1)コンテンツに関するソースデ
ータは、ウエブサイト構築・編集時に格納されるHTMLや
XMLドキュメントおよびその構成ファイルである。これ
らのファイルをユーザが参照した結果として記録される
のが、(2)履歴情報に関するソースデータである。つ
まりこれら2つのソースデータは、ウエブサイトを立ち
上げ、利用することによって必ず蓄積できる。一方、
(3)ユーザの情報に関するソースデータは、履歴情報
やコンテンツとは一切関連のないユーザの付帯(属性)
情報である。これはウエブサイトにおいて認証の処理を
実行したり、他のデータベースと連携することによって
得られる。具体的には、このサービスサイトと同じイン
トラネット上に存在する(図示しない)人事データベー
スから得られる。なお、ユーザの属性情報としては、社
員番号,所属組織,居室所在ビル,職種,役職,専門分
野,担当業務,電子メールアドレス,内線電話番号など
がある。
【0041】このように、ユーザの属性情報、サイトマ
ップ等のコンテンツ情報を併せて利用することで、履歴
情報の分割の結果だけでなく、その後のデータマイニン
グの処理にもユーザの操作に関する付帯的情報(その操
作の意図に関するテキスト情報など)を反映させること
ができることとなる。このため、本実施の形態において
は、セッション単位の分割の前に、ユーザの特定と、マ
イニング対象データベースの統合処理とが行われること
となる。
【0042】次にCPU11が行う具体的な分割処理の
内容について図5を参照しながら説明する。CPU11
は、記録されたアクセスログを参照して、アクセスログ
上の各レコードについてその操作を行ったユーザを特定
する(S11)。これは例えばプロキシサーバを利用し
ていない場合はIPアドレスを利用して(つまり、ユー
ザ認証を行ったときのIPアドレスとその後利用されて
いるIPアドレスとは同じものであると推認されること
を利用して、IPアドレスとユーザを特定する情報とを
関連づけて)行ってもよいし、文書管理システム側で、
各操作ごとにユーザを特定する情報を含めてアクセスロ
グに記録する場合には、その記録された情報を利用して
もよい。
【0043】そしてCPU11は、ユーザを特定した後
のアクセスログについて、ユーザを特定する情報をキー
としてユーザデータベースからアクセスログから特定さ
れた各ユーザの属性情報を抽出する(S12)。また、
操作の対象となったデータの識別番号をキーとして文書
管理システムのデータベースから当該データに関するイ
ンスタンス属性テーブルを抽出する(S13)。この統
合の処理によって、データマイニングのために、ユーザ
に関する情報とコンテンツデータに関する情報とを利用
できるようになる。
【0044】CPU11は、これらデータベースから抽
出した情報と、各ユーザごとに分けたアクセスログと、
履歴情報とを利用して、所定単位への分割ルールで用い
られる種々の情報を生成する(S14)。ここでは、分
割ルールとしてアクセス時刻や操作対象のデータを識別
する情報、参照時間、コンテンツの作成者に関する情
報、ユーザの役職に関する情報、履歴情報である。なお
参照時間は、アクセスログのうち、操作対象のデータを
識別する情報とアクセス時刻とを用いて演算可能であ
る。そして、こうして生成された情報を元にした所定の
第1分割ルールによって、あるユーザによって行われた
一連の操作に基づく一連の履歴情報をセッションごとに
分割する(S15)。さらに処理S14にて生成された
情報を元にした所定の第2分割ルールによって、セッシ
ョンごとに分割された後の、一連の履歴情報をさらに、
トランザクションに分割して(S16)、処理を終了す
る。
【0045】[分割ルール]ここで、第1、第2の分割
ルールは、それぞれセッションへの分割を行うためのル
ールと、トランザクションへの分割を行うためのルール
である。具体的に各分割ルールは、予め人為的に生成し
た事例を元に機械学習処理を通して生成することができ
る。まず、セッション単位の分割を行う第1分割ルール
の生成について説明すると、一連の履歴情報について複
数の担当者がそれぞれ独立にセッションの終了点を特定
する。機械学習処理では、各担当者により特定されたセ
ッションの終了点(に相当する履歴情報及びそれに対応
するアクセスログ)について、処理S14で生成した情
報をパラメータとして含んでなる情報の組(以下、概念
的にこれを「ベクトル」と呼ぶ)を求め、これを入力と
して(すなわち教師として)ルール学習を行う。かかる
ルール学習を行うためのコンピュータプログラムとし
て、J.R.Quinlanによる、決定木の生成システムC4.
5がある。このシステムの実装例としては、Java(登録
商標)を用いたものとして、J48と呼ばれているもの
がある。
【0046】また、第2分割ルールについても、同じよ
うな機械学習処理を用いて、予め複数の担当者によって
トランザクションの終了点として指定された履歴情報及
びそれに対応するアクセスログを教師として求めること
ができる。
【0047】[分析処理]CPU11は、さらに、トラ
ンザクションごとに分割された一連の履歴情報(以下、
トランザクションデータという)を基に、相関ルールを
抽出する。この相関ルールは、トランザクションデータ
のセットの共起頻度を演算し、共起頻度が予め定めたし
きい値を超えるトランザクションデータのセットに関す
る所定のルールを相関ルールとして見いだすものであ
る。この相関ルールの抽出プログラムとしては、R.Agra
wal and R.Srikant:Fast Algorithms for Mining Assoc
iationRules, In Proceedings of the 20th VLDB Confe
rence, pp.487-499, Sept. 1994. によるAprioriシステ
ムがある。
【0048】そしてこの相関ルール(例えばトランザク
ションデータのペアの共起確率の情報)を表示部(図示
せず)に出力し、又は印刷する。
【0049】[動作]すなわち、本実施の形態に係る分
析装置は、分析の対象となったウエブサイト側に配置さ
れ、ウエブサイトへのユーザのアクセスログを記録す
る。このアクセスログには、ユーザが行った操作の内容
と、その操作の対象となったコンテンツデータとをそれ
ぞれ特定する情報を含む。さらに分析装置は、このアク
セスログから、操作及び操作対象のデータを互いに関連
づけた情報を予め定めたグループのいずれかに分類して
履歴情報として生成する。またアクセスログに基づき各
コンテンツデータの参照時間などの種々の情報を生成し
ておく。
【0050】次に分析対象のウエブサイトへのアクセス
ログの例について、複数の担当者が人為的に分析して得
ておいたセッションの終了点、並びにトランザクション
の終了点に相当するアクセスログのレコードの情報を教
師として、セッション単位への分割ルール(上述の第1
分割ルール)と、トランザクション単位への分割ルール
(上述の第2分割ルール)とを機械学習により獲得し、
これらの分割ルールを記憶する。
【0051】実際の分析においては、図6に示すよう
に、コンテンツデータに関する情報としてのサイトマッ
プと、インスタンス属性テーブル(コンテンツデータの
種別・作成者に関する情報など)をストレージ13に格
納されているウエブサイトのコンテンツから抽出する
(S21)。また、アクセスログについては、予め定め
た情報を抜き出したり、順序を入れ替えるなどの所定の
処理(いわゆるデータ洗浄)を行い(S22)、各レコ
ードの操作を行ったユーザを特定するなどにより履歴情
報を生成する(S23)。
【0052】そしてインスタンス属性テーブルとユーザ
データベースの内容とを、アクセスログや処理S23で
得た履歴情報に統合してデータベース化する(S2
4)。そして機械学習により獲得した第1分割ルールを
用いて、処理S24で得たデータベース内の履歴情報や
アクセスログをセッション単位に分割する(S25)。
さらに、第2分割ルールによってセッション単位に分割
されたデータをトランザクション単位に分割し、トラン
ザクションデータを得る(S26)。ここで、コンテン
ツデータに関するサイトマップ情報を利用して、各操作
の対象となったファイルについて、サイト上の位置(パ
ス)を取得し、トランザクションデータに含めておく
(パス補完する)ことも好ましい。これを含めておけば
後の相関ルールの抽出の際に、パスの情報も利用できる
こととなる。
【0053】こうして得られたトランザクションデータ
の末尾付近で情報取得されたファイルは、ユーザの所望
したコンテンツデータ(対象コンテンツ)であると推認
され、他のトランザクションデータのセットやペアにつ
いての共起頻度などからトランザクションデータについ
ての相関ルールを抽出し、分析結果として出力する(S
27)。この分析結果は、サイト管理者(やサイト作成
者)のサイト管理情報として利用される。
【0054】具体的に文書管理システムにおいて、「セ
キュリティについて」と題した文書や、「ネットワーク
サービスについて」と題した文書などが登録されている
ときに、複数のユーザが行った操作がアクセスログとし
て記録されているとする。
【0055】本実施形態の分析装置は、このサービスの
サイトにおける当該アクセスログから操作履歴を得て、
さらにセッションへの分割、トランザクションへの分割
を行う。そして「セキュリティについて」と題した文書
について閲覧操作やダウンロード操作といった(図4に
示した上位概念でいう)「情報取得」がトランザクショ
ンの終了点で行われているとき、当該トランザクション
データを生成したユーザの属性情報の職種が「企画業
務」であるユーザの占める割合が高い、などの相関ルー
ルを見いだすことができるようになる。
【0056】また、別の相関ルールでは、「セキュリテ
ィについて」と題した文書の情報取得操作と、「ネット
ワークサービスについて」と題した文書の情報取得操作
との共起確率が高いといった相関ルールが見いだされる
場合もある。
【0057】この場合においては、「セキュリティにつ
いて」と題した文書と「ネットワークサービスについ
て」と題した文書とを同じ場所(フォルダ)に配置する
ことが好ましいと判断できる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る分析装置と、それ
を含んだネットワークシステムを表す構成ブロック図で
ある。
【図2】 アクセスログの一例を表す説明図である。
【図3】 操作と、その操作の対象とがどのようにアク
セスログに含まれているかの例を表す説明図である。
【図4】 操作と、その操作の対象とをグループに分け
るためのテーブルの一例を表す説明図である。
【図5】 操作履歴の分割の処理の例を表すフローチャ
ート図である。
【図6】 分析装置の動作の概要を表すフローチャート
図である。
【符号の説明】
2 クライアント側装置、10 分析装置、11 CP
U、12 記憶部、13 ストレージ、14 ネットワ
ークインタフェース。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークを介してアクセスされるサ
    ービスサイト側に設けられ、当該サービスサイトの利用
    状況を分析する装置であって、 所定のデータを対象としてユーザが行った操作を認識
    し、当該操作の対象となったデータに関する情報と当該
    操作に関する情報とを関連づけて履歴情報として記録す
    る手段と、 ユーザからの一連の操作に応じて生成される、一連の履
    歴情報を、所定の分割ルールに基づき、所定単位に分割
    する手段と、 前記所定単位に分割された履歴情報に基づき、サービス
    サイトの利用状況の分析処理を行う手段と、 を含むことを特徴とする分析装置。
  2. 【請求項2】 請求項1に記載の分析装置において、さ
    らに、 前記分割ルールを、過去の分割例を教師とした学習処理
    により更新する手段を含むことを特徴とする分析装置。
  3. 【請求項3】 請求項1または2に記載の分析装置にお
    いて、 前記履歴情報は、操作の種別及び当該操作の対象となっ
    たデータの種別ごとに、予め定義されたグループ識別子
    として記録されることを特徴とする分析装置。
  4. 【請求項4】 ネットワークを介してアクセスされるサ
    ービスサイト側に設けられ、当該サービスサイトの利用
    状況を分析する方法であって、 所定のデータを対象としてユーザが行った操作を認識
    し、当該操作の対象となったデータに関する情報と当該
    操作に関する情報とを関連づけて履歴情報として記録す
    る工程と、 ユーザからの一連の操作に応じて生成される、一連の履
    歴情報を、所定の分割ルールに基づき、所定単位に分割
    する工程と、 前記所定単位に分割された履歴情報に基づき、サービス
    サイトの利用状況の分析処理を行う工程と、 を含むことを特徴とする分析方法。
  5. 【請求項5】 ネットワークを介してアクセスされるサ
    ービスサイト側に設けられ、当該サービスサイトの利用
    状況を分析するプログラムであって、コンピュータに、 所定のデータを対象としてユーザが行った操作を認識
    し、当該操作の対象となったデータに関する情報と当該
    操作に関する情報とを関連づけて履歴情報として記録す
    る手順と、 ユーザからの一連の操作に応じて生成される、一連の履
    歴情報を、所定の分割ルールに基づき、所定単位に分割
    する手順と、 前記所定単位に分割された履歴情報に基づき、サービス
    サイトの利用状況の分析処理を行う手順と、 を実行させることを特徴とするプログラム。
JP2002134897A 2002-05-10 2002-05-10 サービスサイト利用状況の分析装置 Pending JP2003331089A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002134897A JP2003331089A (ja) 2002-05-10 2002-05-10 サービスサイト利用状況の分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002134897A JP2003331089A (ja) 2002-05-10 2002-05-10 サービスサイト利用状況の分析装置

Publications (1)

Publication Number Publication Date
JP2003331089A true JP2003331089A (ja) 2003-11-21

Family

ID=29697362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002134897A Pending JP2003331089A (ja) 2002-05-10 2002-05-10 サービスサイト利用状況の分析装置

Country Status (1)

Country Link
JP (1) JP2003331089A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106759A (ja) * 2018-04-02 2018-07-05 ヤフー株式会社 名寄せ装置、名寄せ方法及び名寄せプログラム
WO2022259559A1 (ja) * 2021-06-11 2022-12-15 日本電信電話株式会社 判定装置、判定方法および判定プログラム
US11574211B2 (en) 2017-09-27 2023-02-07 Nec Corporation Log analysis system, log analysis method, log analysis program, and storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11574211B2 (en) 2017-09-27 2023-02-07 Nec Corporation Log analysis system, log analysis method, log analysis program, and storage medium
JP2018106759A (ja) * 2018-04-02 2018-07-05 ヤフー株式会社 名寄せ装置、名寄せ方法及び名寄せプログラム
WO2022259559A1 (ja) * 2021-06-11 2022-12-15 日本電信電話株式会社 判定装置、判定方法および判定プログラム

Similar Documents

Publication Publication Date Title
US6286043B1 (en) User profile management in the presence of dynamic pages using content templates
US20170242934A1 (en) Methods for integrating semantic search, query, and analysis and devices thereof
US7062475B1 (en) Personalized multi-service computer environment
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
Dwivedi et al. A review paper on data preprocessing: A critical phase in web usage mining process
Punin et al. Web usage mining—Languages and algorithms
JP2005530224A (ja) 知識ベース型データ・マイニング・システム用データ・ストア
Srivastava et al. Preprocessing techniques in web usage mining: A survey
Al-asadi et al. A survey on web mining techniques and applications
Jagan et al. A survey on web personalization of web usage mining
Aldekhail Application and significance of web usage mining in the 21st century: a literature review
CN103984747B (zh) 屏幕信息处理方法和装置
US9843559B2 (en) Method for determining validity of command and system thereof
Guo et al. A web crawler detection algorithm based on web page member list
JP2003331089A (ja) サービスサイト利用状況の分析装置
UTKALUNIVERSITY Integration of web mining and web crawler: Relevance and state of art
Dhawan et al. Web Usage Mining: Finding Usage Patterns from Web Logs
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
JPH11306160A (ja) サービス利用履歴からのサービス単位の抽出方法、抽出装置及び抽出プログラムを記録した記録媒体
Raju et al. Preprocessing of Web Usage Data for Application in Prefetching to Reduce Web Latency
Singh et al. Exploring web usage mining with scope of agent technology
JPH11265402A (ja) データ処理システム及びデータ処理システムを制御するプログラムを記録した記録媒体
Khan et al. Web Usage Mining and User Behavior Prediction
Jetha FREE USER BEHAVIOR INFORMATION FROM CENTRAL DATABASE USING WEB USAGE MINING

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080408