JP2009128937A - Web browsing action feature extracting device and program - Google Patents
Web browsing action feature extracting device and program Download PDFInfo
- Publication number
- JP2009128937A JP2009128937A JP2007299787A JP2007299787A JP2009128937A JP 2009128937 A JP2009128937 A JP 2009128937A JP 2007299787 A JP2007299787 A JP 2007299787A JP 2007299787 A JP2007299787 A JP 2007299787A JP 2009128937 A JP2009128937 A JP 2009128937A
- Authority
- JP
- Japan
- Prior art keywords
- web browsing
- behavior
- browsing behavior
- search
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、Web閲覧行動特徴抽出装置及びプログラムに係り、特に、ユーザがパーソナルコンピュータ上で行ったWeb閲覧行動を記録し、その行動をカテゴリ分けするための特徴ベクトルを抽出するWeb閲覧行動特徴抽出装置及び方法及びプログラムに関する。具体的には、Web検索活動を中心としたWeb閲覧行動を分類するためのWeb閲覧行動特徴抽出装置及びプログラムに関する。 The present invention relates to a Web browsing behavior feature extraction apparatus and program, and in particular, records a Web browsing behavior performed by a user on a personal computer, and extracts a Web browsing behavior feature extraction for categorizing the behavior. The present invention relates to an apparatus, a method, and a program. Specifically, the present invention relates to a Web browsing behavior feature extraction apparatus and a program for classifying Web browsing behavior centered on Web search activities.
従来の第1の技術として、パーソナルコンピュータ(PC)上でユーザが行った操作を記録し、表示するシステムがある。例えば、操作記録システム「ねころがー」及びその操作記録を表示するシステムhttp://www.mind.sist.chukyo-u.ac.jp/~hkondo/index.html(参考文献)がある。これは、キーボードの入力やスクリーンショット・クリップボードの内容等を適切なタイミングで記録していくことで、過去に行った作業を再現しやすくするものである。 As a conventional first technique, there is a system for recording and displaying an operation performed by a user on a personal computer (PC). For example, there is an operation record system “Nekoraga” and a system http://www.mind.sist.chukyo-u.ac.jp/˜hkondo/index.html (reference document) for displaying the operation record. This makes it easier to reproduce the work done in the past by recording keyboard input, screenshots, clipboard contents, etc. at an appropriate timing.
また、従来の第2の技術として、学習支援システムにおいて操作履歴を蓄積し、操作履歴から学習状況の概観を表示することも行われている(例えば、特許文献1参照)。
しかしながら、ユーザがPCや端末上で行う操作が増えるに従い、大量の操作履歴が取得できるようになった一方で、大量のデータを分析して有意義な情報を抽出することは困難になってきている。 However, as the number of operations performed by a user on a PC or terminal increases, a large amount of operation history can be acquired. On the other hand, it is difficult to analyze a large amount of data and extract meaningful information. .
上記の従来の第1の技術では、操作画面をキャプチャしておき、そのサムネイル画像を時系列で表示することにより、操作履歴の内容を表示することが行われている。サムネイル画像を見ることにより、Webページの閲覧を行っていたことは知ることができる。しかし、サムネイル画像からだけでは、Webページの検索を行っているのか、検索結果として得られたWebページを閲覧しているのかといったように、Web閲覧行動をさらにカテゴリに分類することは困難であった。 In the first conventional technique described above, the operation history is displayed by capturing the operation screen and displaying the thumbnail images in time series. By viewing the thumbnail image, it is possible to know that the Web page was being browsed. However, it is difficult to further classify web browsing behavior into categories, such as whether a web page is being searched or a web page obtained as a search result is being browsed from only thumbnail images. It was.
また、上記の従来の第2の技術では、ユーザ活動を分類してIDを付与し、分類IDの時系列変化を表示する等の方法によりユーザ活動を概観する方法が述べられている。この方法では専用の学習支援システムを使用するためユーザ活動IDが付与されることが前提となっている。しかし、汎用のWebブラウザでWebページを閲覧している場合には、Web閲覧行動をさらにカテゴリに分類してIDを付与することは困難であった。 In the second conventional technique described above, a method is described in which user activities are overviewed by a method of classifying user activities, assigning IDs, and displaying time-series changes of classification IDs. This method is based on the premise that a user activity ID is given because a dedicated learning support system is used. However, when browsing web pages with a general-purpose web browser, it is difficult to further classify web browsing behavior into categories and assign IDs.
本発明は、上記の点に鑑みなされたもので、上記の問題を解決し、ユーザがPC上で行ったWeb閲覧行動を記録し、その行動をカテゴリ分類し、閲覧行動の特徴量のベクトルを求めることにより、大量のWeb閲覧行動全体を概観することが可能なWeb閲覧行動特徴抽出装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, solves the above problems, records Web browsing actions performed by a user on a PC, categorizes the actions, and sets feature vector of browsing actions. It is an object of the present invention to provide a Web browsing behavior feature extraction device and program that can obtain an overview of a large amount of Web browsing behavior as a whole.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、ユーザのWeb閲覧行動からその特徴を示す特徴ベクトルを抽出するWeb閲覧行動特徴抽出装置であって、
予め検索サイトリストが格納されている検索サイトリスト記憶手段8と、
ユーザが行ったWeb閲覧の日時、URL、ウィンドウID、リファラからなるWeb閲覧行動履歴を取得してWeb閲覧行動履歴記憶手段7に格納するWeb閲覧行動履歴記録手段1と、
指定された時間範囲のWeb閲覧行動履歴をWeb閲覧行動履歴記憶手段7から時間順に読み出す特徴ベクトル生成制御手段2と、
検索サイトリスト記憶手段8を参照して、現在着目しているWeb閲覧行動である注目Web閲覧行動が、検索サイトへのアクセスか否かを判定し、検索サイトへのアクセスである場合は検索語を取得し、検索サイトへのアクセスでない場合は、閲覧行動の状況を閲覧状況記憶手段9に記録する検索サイト判別手段3と、
検索サイト判別手段3において、検索サイトへのアクセスであると判別された場合には、注目Web閲覧行動に対して取得した検索語と、閲覧状況記憶手段9の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が新たな閲覧行動である「カテゴリ1」、または、既に行われた検索行動の他の候補の閲覧行動である「カテゴリ2」と判別する検索行動判別手段4と、
検索サイト判別手段3において、検索サイトへのアクセスでないと判別された場合には、注目Web閲覧行動のリファラの値と閲覧状況記憶手段9の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が、検索行動の結果として得られたWebページからリンクを辿ることによって行われた行動である「カテゴリ3」、または、それ以外の行動である「カテゴリ4」と判別する閲覧行動判別手段5と、
検索行動判別手段4、または、閲覧行動判別手段5によって決定されたカテゴリiについて、特徴ベクトルの第i成分の値を1増加させることにより、Web閲覧行動特徴ベクトルを求める特徴ベクトル計算手段6と、を有する。
The present invention (Claim 1) is a Web browsing behavior feature extraction device that extracts a feature vector indicating a feature from a user's Web browsing behavior,
A search site list storage means 8 in which a search site list is stored in advance;
Web browsing action history recording means 1 for acquiring a Web browsing action history consisting of the date and time of the Web browsing performed by the user, URL, window ID, referrer and storing it in the Web browsing action history storage means 7;
A feature vector
With reference to the search site list storage means 8, it is determined whether or not the Web browsing behavior that is currently focused on Web access is access to the search site. If the access to the search site is not obtained, the search site determination means 3 for recording the browsing action status in the browsing status storage means 9;
When the search
If the search
For the category i determined by the search behavior discriminating means 4 or the browsing behavior discriminating means 5, the feature vector calculating means 6 for obtaining the Web browsing behavior feature vector by increasing the value of the i-th component of the feature vector by 1, Have
本発明(請求項2)は、請求項1に記載のWeb閲覧行動特徴抽出装置を構成する各手段としてコンピュータを機能させるWeb閲覧行動特徴抽出プログラムである。
The present invention (Claim 2) is a Web browsing behavior feature extraction program for causing a computer to function as each means constituting the Web browsing behavior feature extraction device according to
上記のように本発明によれば、Web閲覧行動の特徴が、特徴ベクトルの形で簡潔に表されるので、大量のWeb閲覧行動全体を概観することができる。 As described above, according to the present invention, the features of the Web browsing behavior are simply expressed in the form of feature vectors, so that a large amount of the entire Web browsing behavior can be overviewed.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図2は、本発明の一実施の形態におけるWeb閲覧行動特徴抽出装置の構成を示す。 FIG. 2 shows a configuration of the Web browsing behavior feature extraction apparatus according to the embodiment of the present invention.
同図に示すWeb閲覧行動特徴抽出装置は、Web閲覧行動履歴記録部1、特徴ベクトル生成制御部2、検索サイト判別部3、検索行動判別部4、閲覧行動判別部5、特徴ベクトル計算部6、Web閲覧行動履歴記憶部7、検索サイトリスト記憶部8、閲覧状況管理テーブル記憶部9、入力部10から構成される。
The web browsing behavior feature extraction apparatus shown in FIG. 1 includes a web browsing behavior
検索サイトリスト記憶部8は、検索サイトで検索を行った場合のURL、及びURLから検索語の取り出し方を予め記述しておく。
The search site
閲覧状況管理テーブル記憶部9(以下では、単に閲覧状況管理テーブルと記す)は、ウィンドウID、URL、検索語、ブックマークフラグからなるテーブルを格納している。 The browsing status management table storage unit 9 (hereinafter simply referred to as a browsing status management table) stores a table including a window ID, a URL, a search word, and a bookmark flag.
Web閲覧行動履歴記録部1は、ユーザがWeb閲覧行動を行うと、その日時、URL,ウィンドウID、リファラをWeb閲覧行動履歴として取得して、Web閲覧行動履歴記憶部7に格納する。
When the user performs a web browsing action, the web browsing action
特徴ベクトル生成制御部2は、処理対象時間範囲として、日時t1,t2が与えられると、Web閲覧行動履歴記憶部7からこのt1からt2の間にあたるWeb行動履歴を取り出し、時間順に1つずつ各閲覧行動のカテゴリ判定を以下の検索サイト判別部3、検索行動判別部4、閲覧行動判別部5に対して実行させる。
When the date and time t 1 and t 2 are given as the processing target time range, the feature vector
検索サイト判別部3は、現在注目しているWeb閲覧行動のURLと、検索サイトリスト記憶部8の検索サイトリストの中のURLを比較し、検索サイトへのアクセスかどうかを判定する。
The search site
検索行動判別部4は、検索サイト判別部3により検索サイトへのアクセスと判別された場合には、以下のどちらであるかを判定する。
When the search
・新たな検索行動である「カテゴリ1」;
・その前に行われた検索行動の再表示である「カテゴリ2」;
当該検索行動判別部4の動作については後述する。
・ "
-“
The operation of the search
閲覧行動判別部5は、検索サイト判別部3により、検索サイトへのアクセスでないと判定された場合には、以下のどちらであるかを判定する。
When the search
・検索行動からクリックで辿られたWeb閲覧である「カテゴリ3」
・ブックマークに登録されたWebページの閲覧等、検索以外の行動から始まったWebページ閲覧である「カテゴリ4」
当該閲覧行動判判別部5の動作については後述する。
・ "
-“
The operation of the browsing behavior determination unit 5 will be described later.
特徴ベクトル計算部6は、行動の判定結果に従い、4次元からなる特徴ベクトルに対して、判定結果がカテゴリiだった場合には第i成分に1を加算するという処理を行う。これを、Web閲覧行動履歴記憶部7から読み出された日時t1とt2の間の全Web閲覧行動に対して繰り返すことにより、Web閲覧行動特徴ベクトルが求められる。なお、特徴ベクトルの初期値は(0,0,0,0)としておく。例えば、「カテゴリ1」と判定された回数が4回、「カテゴリ3」と判定された場合の特徴ベクトルは(4,0,3,0)となる。
The feature vector calculation unit 6 performs processing of adding 1 to the i-th component when the determination result is the category i for the four-dimensional feature vector according to the determination result of the behavior. By repeating this for all web browsing behaviors between the dates t 1 and t 2 read from the web browsing behavior
次に、上記の構成における動作の概要を説明する。 Next, an outline of the operation in the above configuration will be described.
図3は、本発明の一実施の形態におけるWeb閲覧行動特徴抽出装置の動作のフローチャートである。 FIG. 3 is a flowchart of the operation of the Web browsing behavior feature extraction apparatus according to the embodiment of the present invention.
ステップ110) Web閲覧行動履歴記録部1は、当該Web閲覧行動履歴特徴抽出装置に接続されるPCから、日時、URL、ウィンドウID、リファラを含むWeb閲覧行動履歴を取得して、Web閲覧行動履歴記憶部7に格納する。
Step 110) The web browsing behavior
ステップ120) 特徴ベクトル生成制御部2において、キーボード等の入力部10を介して入力された特徴ベクトルを生成する対象となる終了時刻t2となった場合には、処理を終了し、そうでない場合はステップ130に移行する。
Step 120) in the feature vector
ステップ130) 特徴ベクトル生成制御部2は、入力部10から与えられた時間範囲t1〜t2の間の時間順にWeb閲覧行動履歴記憶部7から閲覧行動履歴を読み出す。
Step 130) The feature vector
ステップ140) 検索サイト判別部3は、特徴ベクトル生成制御部2から与えられた閲覧行動履歴のURLに基づいて、検索サイトリスト記憶部8を参照し、閲覧行動履歴のURLが検索サイトリスト記憶部8に存在する場合には、検索行動であると判定し、ステップ150の処理に移行し、そうでない場合はステップ160に移行する。
Step 140) The search
ステップ150) 検索行動判別部4は、以下の図4に示す動作によりカテゴリを判定し、ステップ180に移行する。
Step 150) The search
図4は、本発明の一実施の形態における検索行動判定部の動作のフローチャートである。 FIG. 4 is a flowchart of the operation of the search behavior determination unit in one embodiment of the present invention.
検索行動判定部4は、行動履歴のウィンドウIDに基づいて閲覧状況管理テーブル9を参照して、同じウィンドウIDのエントリがあるかを判定し(ステップ151)、ない場合には(ステップ151、No)、当該ウィンドウIDに対応するエントリを閲覧状況管理テーブル9に追加する。このとき、ウィンドウID、URL、検索語を設定し、ブックマークフラグを"0"にセットし(ステップ152)、「カテゴリ1」と判定する(ステップ153)。
The search
また、閲覧状況管理テーブル9に同じウィンドウIDのエントリがある場合は(ステップ151、Yes)、検索語が同じであるかを判定する(ステップ154)。異なる場合には(ステップ154、No)、閲覧状況管理テーブル9のURLと検索語を更新し(ステップ155)、「カテゴリ1」と判定する(ステップ156)。
If there is an entry with the same window ID in the browsing status management table 9 (step 151, Yes), it is determined whether the search terms are the same (step 154). If they are different (
また、検索語が同じ場合(ステップ154、Yes)は、閲覧状況管理テーブル9のURLを更新し(ステップ157)、「カテゴリ2」と判定する(ステップ158)。
If the search terms are the same (
ステップ160) ステップ140において、行動履歴のURLが検索サイトリスト記憶部8に存在しない場合には、以下の図5に示す動作によりカテゴリを判定し、ステップ180に移行する。
Step 160) If the URL of the action history does not exist in the search site
図5は、本発明の一実施の形態における閲覧行動制御部の動作のフローチャートである。 FIG. 5 is a flowchart of the operation of the browsing behavior control unit in one embodiment of the present invention.
閲覧行動判別部5は、閲覧行動履歴のウィンドウIDに基づいて閲覧状況管理テーブル9を参照して、同じウィンドウIDのエントリがあるかを判定し(ステップ161)、ある場合には(ステップ161、Yes)、閲覧状況管理テーブル9のブックマークフラグが"0"であるかを判定し(ステップ162)、"0"である場合は(ステップ163、Yes)、「カテゴリ3」と判定する(ステップ163)。一方、ブックマークフラグが"0"出ない場合は(ステップ162、No)、「カテゴリ4」と判定する(ステップ164)。
The browsing behavior determination unit 5 refers to the browsing status management table 9 based on the window ID of the browsing behavior history and determines whether there is an entry with the same window ID (step 161). Yes), it is determined whether the bookmark flag in the browsing status management table 9 is “0” (step 162). If it is “0” (
また、ステップ161において、同じウィンドウIDのエントリが閲覧状況管理テーブル9にない場合は(ステップ161、No)、閲覧状況管理テーブル9にエントリを追加して、ウィンドウID、URLを設定する(ステップ165)。閲覧行動履歴にリファラがあるかを判定し、ない場合は(ステップ166、No)、リファラをnullとし、ブックマークフラグを"1"とし(ステップ167)、「カテゴリ4」と判定する(ステップ168)。また、閲覧行動履歴にリファラがある場合は(ステップ166、Yes)、閲覧状況管理テーブル9からリファラがURLと一致するエントリを探し、ブックマークフラグを取得し、それと同じ値を新エントリにセットする(ステップ169)。取得したブックマークフラグが"0"であるか判定し、"0"である場合は(ステップ170、Yes)、「カテゴリ3」と判定する。また、ブックマークフラグが"0"でない場合は(ステップ170、No)、「カテゴリ4」と判定する(ステップ172)。
If there is no entry with the same window ID in the browsing status management table 9 in step 161 (
ステップ180) 特徴ベクトル計算部6は、検索行動判別部4と閲覧行動判別部5から判定結果を取得し、4次元からなる特徴ベクトルに対して、各カテゴリ毎に特徴成分に1加算し、ステップ120に移行する。
Step 180) The feature vector calculation unit 6 acquires the determination results from the search
以下に、上記の処理を具体的に説明する。 The above processing will be specifically described below.
図6は、本発明の一実施の形態におけるWeb閲覧行動履歴記憶部の例であり、Web閲覧行動履歴として、CSV形式で記録した例を示している。1行が1つのWeb閲覧行動に対応し、日時、URL、ウィンドウID、リファラから構成されている。 FIG. 6 is an example of a web browsing action history storage unit according to an embodiment of the present invention, and shows an example in which the web browsing action history is recorded in the CSV format. One line corresponds to one Web browsing action, and is composed of date and time, URL, window ID, and referrer.
指定日時として特徴ベクトル生成制御部2に、
t1=2007/08/20 13:50
t2=2007/08/20 13:55
が与えられると、この間に入るWeb閲覧行動は、図6の(1),(2),…,(6)となる。従って、特徴ベクトル作成制御部2では、(1),(2),…,(6)の順で閲覧行動のカテゴリ判別を行う処理を行い、特徴ベクトルを生成していく。
As the designated date and time, the feature vector
t 1 = 2007/08/20 13:50
t 2 = 2007/08/20 13:55
Is given, the Web browsing behavior that enters this period is (1), (2),..., (6) in FIG. Therefore, the feature vector
図7は、本発明の一実施の形態における検索サイトリストの例を示す。検索サイト判別部3がポータルサイトgoo(登録商標)で検索を行うと、URLは、
http://search.goo.ne.jp/web.jsp?MT=%E7%A6%8F%e7%94%b0%E5%BA%7%E5%A4%4%AB&
STYPE=web&IE=UTF=8&frcm=gootop
のようになる。検索サイトリスト記憶部8の検索サイトリストの第1行は、このURLの前方部分に相当する。そして、"?"以下の引数部分から検索語(この場合は"福田康夫")を取り出す関数gooParserとして用意されていることを示している。
FIG. 7 shows an example of a search site list in one embodiment of the present invention. When the search
http://search.goo.ne.jp/web.jsp?MT=%E7%A6%8F%e7%94%b0%E5%BA%7%E5%A4%4%AB&
STYPE = web & IE = UTF = 8 & frcm = gootop
become that way. The first line of the search site list in the search site
図8は、本発明の一実施の形態における閲覧状況管理テーブル記憶部の例を示している。同図に示す閲覧状況管理テーブルの初期状態は空の状態であり、検索行動判別部4及び閲覧行動判別部5の動作に応じて、エントリが追加され、各エントリのウィンドウID、検索語、ブックマークフラグの値が設定または、更新されていく。
FIG. 8 shows an example of the browsing status management table storage unit in the embodiment of the present invention. The initial state of the browsing status management table shown in the figure is an empty state, and entries are added according to the operations of the search
上記の例において、まず、Web閲覧行動履歴記録部1において、図6に示すようなWeb閲覧行動履歴がWeb閲覧行動履歴記憶部7に記録される。次に、特徴ベクトル生成制御部2では、時刻t1,t2が上記のように与えられると、この時間範囲に含まれるWeb閲覧行動履歴(1)〜(6)をWeb閲覧行動履歴記憶部7から取り出し、(1),(2),…,(6)の順で検索サイト判別部3に渡される。検索行動判別部3は、取得した閲覧行動履歴に基づいて、図7に示すような検索サイトリストを参照して、検索行動判別部4または、閲覧行動判別部5のいずれに処理を移すかを判定する。検索行動判別部4または、閲覧行動判別部5では、図8に示すような閲覧状況管理テーブル9を参照して、閲覧行動履歴がカテゴリ1〜4のいずれのカテゴリであるかの判別を行う。
In the above example, first, in the web browsing behavior
最後に、特徴ベクトル計算部6は、閲覧行動判別部5から取得したWeb閲覧行動履歴(1)に対する判別結果、(2)に対する判別結果、…、を順に取得して、特徴ベクトルの該当する成分に対する加算を行い、特徴ベクトルを計算し、出力する。 Finally, the feature vector calculation unit 6 sequentially obtains the discrimination result for the web browsing behavior history (1) acquired from the browsing behavior discrimination unit 5, the discrimination result for (2),. Is added, and a feature vector is calculated and output.
上記の実施の形態における図2に示すWeb閲覧行動特徴抽出装置の構成要素の動作をプログラムとして構築し、Web閲覧行動特徴抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させること可能である。 The operation of the constituent elements of the Web browsing behavior feature extraction device shown in FIG. 2 in the above embodiment is constructed as a program and installed and executed on a computer used as the Web browsing behavior feature extraction device, or via a network. Can be distributed.
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、又は、配布することが可能である。 In addition, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、ユーザがPC上で行ったWeb閲覧行動についての履歴管理やユーザの閲覧の嗜好性を把握する技術に適用可能である。 The present invention can be applied to techniques for managing history regarding Web browsing behavior performed by a user on a PC and grasping user's browsing preference.
1 Web閲覧行動履歴記録手段、Web閲覧行動履歴記録部
2 特徴ベクトル生成制御手段、特徴ベクトル生成制御部
3 検索サイト判別手段、検索サイト判別部
4 検索行動判別手段、検索行動判別部
5 閲覧行動判別手段、閲覧行動判別部
6 特徴ベクトル計算手段、特徴ベクトル計算部
7 Web閲覧行動履歴記憶手段、Web閲覧行動履歴記憶部
8 検索サイトリスト記憶手段、検索サイトリスト記憶部
9 閲覧状況記憶手段、閲覧状況管理テーブル記憶部
10 入力部
DESCRIPTION OF
Claims (2)
予め検索サイトリストが格納されている検索サイトリスト記憶手段と、
ユーザが行ったWeb閲覧の日時、URL、ウィンドウID、リファラからなるWeb閲覧行動履歴を取得してWeb閲覧行動履歴記憶手段に格納するWeb閲覧行動履歴記録手段と、
指定された時間範囲の前記Web閲覧行動履歴を前記Web閲覧行動履歴記憶手段から時間順に読み出す特徴ベクトル生成制御手段と、
前記検索サイトリスト記憶手段を参照して、現在着目しているWeb閲覧行動である注目Web閲覧行動が、検索サイトへのアクセスか否かを判定し、検索サイトへのアクセスである場合は検索語を取得し、検索サイトへのアクセスでない場合は、閲覧行動の状況を閲覧状況記憶手段に記録する検索サイト判別手段と、
前記検索サイト判別手段において、検索サイトへのアクセスであると判別された場合には、前記注目Web閲覧行動に対して取得した前記検索語と、前記閲覧状況記憶手段の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が新たな閲覧行動である「カテゴリ1」、または、既に行われた検索行動の他の候補の閲覧行動である「カテゴリ2」と判別する検索行動判別手段と、
前記検索サイト判別手段において、検索サイトへのアクセスでないと判別された場合には、前記注目Web閲覧行動のリファラの値と前記閲覧状況記憶手段の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が、検索行動の結果として得られたWebページからリンクを辿ることによって行われた行動である「カテゴリ3」、または、それ以外の行動である「カテゴリ4」と判別する閲覧行動判別手段と、
前記検索行動判別手段、または、前記閲覧行動判別手段によって決定されたカテゴリiについて、特徴ベクトルの第i成分の値を1増加させることにより、Web閲覧行動特徴ベクトルを求める特徴ベクトル計算手段と、
を有することを特徴とするWeb閲覧行動特徴抽出装置。 A web browsing behavior feature extraction device that extracts a feature vector indicating a feature from a web browsing behavior of a user,
A search site list storage means for storing a search site list in advance;
Web browsing action history recording means for acquiring a Web browsing action history consisting of the date and time of the Web browsing performed by the user, URL, window ID, and referrer, and storing it in the Web browsing action history storage means;
Feature vector generation control means for reading out the web browsing behavior history in a designated time range from the web browsing behavior history storage means in time order;
With reference to the search site list storage means, it is determined whether or not the attention web browsing behavior that is the web browsing behavior currently focused on is access to the search site. If the search site is not accessed, the search site determination means for recording the browsing behavior status in the browsing status storage means,
If the search site determination means determines that the access is to a search site, the search word acquired for the attention web browsing behavior and the browsing behavior status of the browsing status storage means Search behavior discrimination means for discriminating that the web browsing behavior of interest is “category 1” in which the web browsing behavior is a new browsing behavior, or “category 2” that is another candidate browsing behavior that has already been performed; ,
When it is determined that the search site determination means is not an access to the search site, the attention web browsing behavior is determined from the value of the referrer of the attention web browsing behavior and the browsing behavior status of the browsing status storage means. Browsing behavior discriminating whether the web browsing behavior is “category 3” that is a behavior performed by following a link from a web page obtained as a result of the search behavior, or “category 4” that is other behavior. Means,
For the category i determined by the search behavior determination means or the browsing behavior determination means, a feature vector calculation means for obtaining a Web browsing behavior feature vector by increasing the value of the i-th component of the feature vector by 1,
A Web browsing behavior feature extraction apparatus characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299787A JP4906687B2 (en) | 2007-11-19 | 2007-11-19 | Web browsing behavior feature extraction apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299787A JP4906687B2 (en) | 2007-11-19 | 2007-11-19 | Web browsing behavior feature extraction apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009128937A true JP2009128937A (en) | 2009-06-11 |
JP4906687B2 JP4906687B2 (en) | 2012-03-28 |
Family
ID=40819845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007299787A Active JP4906687B2 (en) | 2007-11-19 | 2007-11-19 | Web browsing behavior feature extraction apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4906687B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012093803A (en) * | 2010-10-22 | 2012-05-17 | Nippon Telegr & Teleph Corp <Ntt> | Browsing log analyzer and browsing log analyzing program |
JP2021125128A (en) * | 2020-02-07 | 2021-08-30 | ヤフー株式会社 | Information processing device, information management method, and information processing program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330852A (en) * | 2002-05-10 | 2003-11-21 | Canon Electronics Inc | Information management server, information processor, information management system, and control method and program therefor |
JP2004070576A (en) * | 2002-08-05 | 2004-03-04 | Canon Inc | Information retrieval device, information retrieval method and storage medium |
JP2004510230A (en) * | 2000-09-20 | 2004-04-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Automated bookmarks in information systems |
-
2007
- 2007-11-19 JP JP2007299787A patent/JP4906687B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004510230A (en) * | 2000-09-20 | 2004-04-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Automated bookmarks in information systems |
JP2003330852A (en) * | 2002-05-10 | 2003-11-21 | Canon Electronics Inc | Information management server, information processor, information management system, and control method and program therefor |
JP2004070576A (en) * | 2002-08-05 | 2004-03-04 | Canon Inc | Information retrieval device, information retrieval method and storage medium |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012093803A (en) * | 2010-10-22 | 2012-05-17 | Nippon Telegr & Teleph Corp <Ntt> | Browsing log analyzer and browsing log analyzing program |
JP2021125128A (en) * | 2020-02-07 | 2021-08-30 | ヤフー株式会社 | Information processing device, information management method, and information processing program |
JP7177107B2 (en) | 2020-02-07 | 2022-11-22 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP4906687B2 (en) | 2012-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101377389B1 (en) | Visual and multi-dimensional search | |
US9195662B2 (en) | Online analysis and display of correlated information | |
TW201514845A (en) | Title and body extraction from web page | |
JP7069802B2 (en) | Systems and methods for user-oriented topic selection and browsing, how to display multiple content items, programs, and computing devices. | |
JP6237168B2 (en) | Information processing apparatus and information processing program | |
WO2021129122A1 (en) | Display method for book query page, electronic device and computer storage medium | |
US9208150B2 (en) | Automatic association of informational entities | |
TWI457775B (en) | Method for sorting and managing websites and electronic device of executing the same | |
US9223854B2 (en) | Document relevance determining method and computer program | |
JP2008310514A (en) | User operation history acquisition display device, user operation history acquisition display method, user operation history acquisition display program and recording medium recording that program | |
JP5345963B2 (en) | Method for generating tag data to search for images | |
JP5271920B2 (en) | Using structured data for online searching | |
JP5337317B2 (en) | Digital content browsing apparatus and digital content browsing management system | |
JP5210098B2 (en) | Digital content browsing management system | |
CN112182451A (en) | Webpage content abstract generation method, equipment, storage medium and device | |
JP4906687B2 (en) | Web browsing behavior feature extraction apparatus and program | |
JP2011243066A (en) | Electronic document management device, display method, display program and record medium | |
JP2006309509A (en) | Browsing screen reusing device, browsing screen reusing program, and storage medium | |
Hales et al. | Investigating visualisation techniques for rapid triage of digital forensic evidence | |
JP2009199164A (en) | Document management device, document management method and recording medium | |
CN112417252B (en) | Crawler path determination method and device, storage medium and electronic equipment | |
WO2016124099A1 (en) | Webpage display method and device | |
JP4607443B2 (en) | Document display device and document display method | |
JP2009129036A (en) | Information retrieval system, information retrieval method, and program | |
CN116028637A (en) | Map construction method and device, and data retrieval method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120110 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4906687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |