JP2009128937A - Web browsing action feature extracting device and program - Google Patents

Web browsing action feature extracting device and program Download PDF

Info

Publication number
JP2009128937A
JP2009128937A JP2007299787A JP2007299787A JP2009128937A JP 2009128937 A JP2009128937 A JP 2009128937A JP 2007299787 A JP2007299787 A JP 2007299787A JP 2007299787 A JP2007299787 A JP 2007299787A JP 2009128937 A JP2009128937 A JP 2009128937A
Authority
JP
Japan
Prior art keywords
web browsing
behavior
browsing behavior
search
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007299787A
Other languages
Japanese (ja)
Other versions
JP4906687B2 (en
Inventor
Akimichi Tanaka
明通 田中
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007299787A priority Critical patent/JP4906687B2/en
Publication of JP2009128937A publication Critical patent/JP2009128937A/en
Application granted granted Critical
Publication of JP4906687B2 publication Critical patent/JP4906687B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To find a feature vector by categorizing browsing actions from records of Web browsing actions that a user has taken on a PC. <P>SOLUTION: A search site list is referred to with respect to an input Web browsing action history to decide a search action or browsing action, when the search action is taken, the action is classified into one of categories "new search action" and "redisplay of previous search action" and when the browsing action is taken, meanwhile, the action is classified into one of categories "Web browsing by clicking from search action" and "Web browsing starting from other than the search", thereby representing feature quantities for each category briefly in the form of feature vectors. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、Web閲覧行動特徴抽出装置及びプログラムに係り、特に、ユーザがパーソナルコンピュータ上で行ったWeb閲覧行動を記録し、その行動をカテゴリ分けするための特徴ベクトルを抽出するWeb閲覧行動特徴抽出装置及び方法及びプログラムに関する。具体的には、Web検索活動を中心としたWeb閲覧行動を分類するためのWeb閲覧行動特徴抽出装置及びプログラムに関する。   The present invention relates to a Web browsing behavior feature extraction apparatus and program, and in particular, records a Web browsing behavior performed by a user on a personal computer, and extracts a Web browsing behavior feature extraction for categorizing the behavior. The present invention relates to an apparatus, a method, and a program. Specifically, the present invention relates to a Web browsing behavior feature extraction apparatus and a program for classifying Web browsing behavior centered on Web search activities.

従来の第1の技術として、パーソナルコンピュータ(PC)上でユーザが行った操作を記録し、表示するシステムがある。例えば、操作記録システム「ねころがー」及びその操作記録を表示するシステムhttp://www.mind.sist.chukyo-u.ac.jp/~hkondo/index.html(参考文献)がある。これは、キーボードの入力やスクリーンショット・クリップボードの内容等を適切なタイミングで記録していくことで、過去に行った作業を再現しやすくするものである。   As a conventional first technique, there is a system for recording and displaying an operation performed by a user on a personal computer (PC). For example, there is an operation record system “Nekoraga” and a system http://www.mind.sist.chukyo-u.ac.jp/˜hkondo/index.html (reference document) for displaying the operation record. This makes it easier to reproduce the work done in the past by recording keyboard input, screenshots, clipboard contents, etc. at an appropriate timing.

また、従来の第2の技術として、学習支援システムにおいて操作履歴を蓄積し、操作履歴から学習状況の概観を表示することも行われている(例えば、特許文献1参照)。
特開2005−242619号公報
As a second conventional technique, an operation history is accumulated in a learning support system, and an overview of a learning situation is displayed from the operation history (see, for example, Patent Document 1).
JP 2005-242619 A

しかしながら、ユーザがPCや端末上で行う操作が増えるに従い、大量の操作履歴が取得できるようになった一方で、大量のデータを分析して有意義な情報を抽出することは困難になってきている。   However, as the number of operations performed by a user on a PC or terminal increases, a large amount of operation history can be acquired. On the other hand, it is difficult to analyze a large amount of data and extract meaningful information. .

上記の従来の第1の技術では、操作画面をキャプチャしておき、そのサムネイル画像を時系列で表示することにより、操作履歴の内容を表示することが行われている。サムネイル画像を見ることにより、Webページの閲覧を行っていたことは知ることができる。しかし、サムネイル画像からだけでは、Webページの検索を行っているのか、検索結果として得られたWebページを閲覧しているのかといったように、Web閲覧行動をさらにカテゴリに分類することは困難であった。   In the first conventional technique described above, the operation history is displayed by capturing the operation screen and displaying the thumbnail images in time series. By viewing the thumbnail image, it is possible to know that the Web page was being browsed. However, it is difficult to further classify web browsing behavior into categories, such as whether a web page is being searched or a web page obtained as a search result is being browsed from only thumbnail images. It was.

また、上記の従来の第2の技術では、ユーザ活動を分類してIDを付与し、分類IDの時系列変化を表示する等の方法によりユーザ活動を概観する方法が述べられている。この方法では専用の学習支援システムを使用するためユーザ活動IDが付与されることが前提となっている。しかし、汎用のWebブラウザでWebページを閲覧している場合には、Web閲覧行動をさらにカテゴリに分類してIDを付与することは困難であった。   In the second conventional technique described above, a method is described in which user activities are overviewed by a method of classifying user activities, assigning IDs, and displaying time-series changes of classification IDs. This method is based on the premise that a user activity ID is given because a dedicated learning support system is used. However, when browsing web pages with a general-purpose web browser, it is difficult to further classify web browsing behavior into categories and assign IDs.

本発明は、上記の点に鑑みなされたもので、上記の問題を解決し、ユーザがPC上で行ったWeb閲覧行動を記録し、その行動をカテゴリ分類し、閲覧行動の特徴量のベクトルを求めることにより、大量のWeb閲覧行動全体を概観することが可能なWeb閲覧行動特徴抽出装置及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, solves the above problems, records Web browsing actions performed by a user on a PC, categorizes the actions, and sets feature vector of browsing actions. It is an object of the present invention to provide a Web browsing behavior feature extraction device and program that can obtain an overview of a large amount of Web browsing behavior as a whole.

図1は、本発明の原理構成図である。   FIG. 1 is a principle configuration diagram of the present invention.

本発明(請求項1)は、ユーザのWeb閲覧行動からその特徴を示す特徴ベクトルを抽出するWeb閲覧行動特徴抽出装置であって、
予め検索サイトリストが格納されている検索サイトリスト記憶手段8と、
ユーザが行ったWeb閲覧の日時、URL、ウィンドウID、リファラからなるWeb閲覧行動履歴を取得してWeb閲覧行動履歴記憶手段7に格納するWeb閲覧行動履歴記録手段1と、
指定された時間範囲のWeb閲覧行動履歴をWeb閲覧行動履歴記憶手段7から時間順に読み出す特徴ベクトル生成制御手段2と、
検索サイトリスト記憶手段8を参照して、現在着目しているWeb閲覧行動である注目Web閲覧行動が、検索サイトへのアクセスか否かを判定し、検索サイトへのアクセスである場合は検索語を取得し、検索サイトへのアクセスでない場合は、閲覧行動の状況を閲覧状況記憶手段9に記録する検索サイト判別手段3と、
検索サイト判別手段3において、検索サイトへのアクセスであると判別された場合には、注目Web閲覧行動に対して取得した検索語と、閲覧状況記憶手段9の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が新たな閲覧行動である「カテゴリ1」、または、既に行われた検索行動の他の候補の閲覧行動である「カテゴリ2」と判別する検索行動判別手段4と、
検索サイト判別手段3において、検索サイトへのアクセスでないと判別された場合には、注目Web閲覧行動のリファラの値と閲覧状況記憶手段9の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が、検索行動の結果として得られたWebページからリンクを辿ることによって行われた行動である「カテゴリ3」、または、それ以外の行動である「カテゴリ4」と判別する閲覧行動判別手段5と、
検索行動判別手段4、または、閲覧行動判別手段5によって決定されたカテゴリiについて、特徴ベクトルの第i成分の値を1増加させることにより、Web閲覧行動特徴ベクトルを求める特徴ベクトル計算手段6と、を有する。
The present invention (Claim 1) is a Web browsing behavior feature extraction device that extracts a feature vector indicating a feature from a user's Web browsing behavior,
A search site list storage means 8 in which a search site list is stored in advance;
Web browsing action history recording means 1 for acquiring a Web browsing action history consisting of the date and time of the Web browsing performed by the user, URL, window ID, referrer and storing it in the Web browsing action history storage means 7;
A feature vector generation control unit 2 that reads a web browsing behavior history in a specified time range from the web browsing behavior history storage unit 7 in time order;
With reference to the search site list storage means 8, it is determined whether or not the Web browsing behavior that is currently focused on Web access is access to the search site. If the access to the search site is not obtained, the search site determination means 3 for recording the browsing action status in the browsing status storage means 9;
When the search site determination unit 3 determines that the access is to the search site, the Web of interest is determined from the search word acquired for the Web browsing behavior of interest and the status of the browsing behavior of the browsing status storage unit 9. A search behavior discriminating means 4 for discriminating the browsing behavior as “category 1” in which the web browsing behavior is a new browsing behavior or “category 2” as another browsing behavior of another search behavior already performed;
If the search site determination unit 3 determines that the access is not to the search site, the Web browsing behavior of interest is determined from the referrer value of the Web browsing behavior of interest and the status of the browsing behavior of the browsing status storage unit 9. Browsing behavior discriminating means for discriminating whether “browsing behavior” is “category 3” which is behavior performed by following a link from a Web page obtained as a result of search behavior or “category 4” which is other behavior. 5 and
For the category i determined by the search behavior discriminating means 4 or the browsing behavior discriminating means 5, the feature vector calculating means 6 for obtaining the Web browsing behavior feature vector by increasing the value of the i-th component of the feature vector by 1, Have

本発明(請求項2)は、請求項1に記載のWeb閲覧行動特徴抽出装置を構成する各手段としてコンピュータを機能させるWeb閲覧行動特徴抽出プログラムである。   The present invention (Claim 2) is a Web browsing behavior feature extraction program for causing a computer to function as each means constituting the Web browsing behavior feature extraction device according to Claim 1.

上記のように本発明によれば、Web閲覧行動の特徴が、特徴ベクトルの形で簡潔に表されるので、大量のWeb閲覧行動全体を概観することができる。   As described above, according to the present invention, the features of the Web browsing behavior are simply expressed in the form of feature vectors, so that a large amount of the entire Web browsing behavior can be overviewed.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図2は、本発明の一実施の形態におけるWeb閲覧行動特徴抽出装置の構成を示す。   FIG. 2 shows a configuration of the Web browsing behavior feature extraction apparatus according to the embodiment of the present invention.

同図に示すWeb閲覧行動特徴抽出装置は、Web閲覧行動履歴記録部1、特徴ベクトル生成制御部2、検索サイト判別部3、検索行動判別部4、閲覧行動判別部5、特徴ベクトル計算部6、Web閲覧行動履歴記憶部7、検索サイトリスト記憶部8、閲覧状況管理テーブル記憶部9、入力部10から構成される。   The web browsing behavior feature extraction apparatus shown in FIG. 1 includes a web browsing behavior history recording unit 1, a feature vector generation control unit 2, a search site discrimination unit 3, a search behavior discrimination unit 4, a browsing behavior discrimination unit 5, and a feature vector calculation unit 6. , A web browsing action history storage unit 7, a search site list storage unit 8, a browsing status management table storage unit 9, and an input unit 10.

検索サイトリスト記憶部8は、検索サイトで検索を行った場合のURL、及びURLから検索語の取り出し方を予め記述しておく。   The search site list storage unit 8 describes in advance the URL when a search is performed at the search site, and how to retrieve the search term from the URL.

閲覧状況管理テーブル記憶部9(以下では、単に閲覧状況管理テーブルと記す)は、ウィンドウID、URL、検索語、ブックマークフラグからなるテーブルを格納している。   The browsing status management table storage unit 9 (hereinafter simply referred to as a browsing status management table) stores a table including a window ID, a URL, a search word, and a bookmark flag.

Web閲覧行動履歴記録部1は、ユーザがWeb閲覧行動を行うと、その日時、URL,ウィンドウID、リファラをWeb閲覧行動履歴として取得して、Web閲覧行動履歴記憶部7に格納する。   When the user performs a web browsing action, the web browsing action history recording unit 1 acquires the date, URL, window ID, and referrer as a web browsing action history and stores them in the web browsing action history storage unit 7.

特徴ベクトル生成制御部2は、処理対象時間範囲として、日時t,tが与えられると、Web閲覧行動履歴記憶部7からこのtからtの間にあたるWeb行動履歴を取り出し、時間順に1つずつ各閲覧行動のカテゴリ判定を以下の検索サイト判別部3、検索行動判別部4、閲覧行動判別部5に対して実行させる。 When the date and time t 1 and t 2 are given as the processing target time range, the feature vector generation control unit 2 takes out the Web action history corresponding to the period between t 1 and t 2 from the Web browsing action history storage unit 7, and in time order The search site discriminating unit 3, the search behavior discriminating unit 4, and the browsing behavior discriminating unit 5 are made to perform category determination of each browsing behavior one by one.

検索サイト判別部3は、現在注目しているWeb閲覧行動のURLと、検索サイトリスト記憶部8の検索サイトリストの中のURLを比較し、検索サイトへのアクセスかどうかを判定する。   The search site discriminating unit 3 compares the URL of the Web browsing action that is currently focused on with the URL in the search site list of the search site list storage unit 8 to determine whether the access is to the search site.

検索行動判別部4は、検索サイト判別部3により検索サイトへのアクセスと判別された場合には、以下のどちらであるかを判定する。   When the search site determination unit 3 determines that the search action is an access to the search site, the search behavior determination unit 4 determines which of the following is true.

・新たな検索行動である「カテゴリ1」;
・その前に行われた検索行動の再表示である「カテゴリ2」;
当該検索行動判別部4の動作については後述する。
・ "Category 1" which is a new search action;
-“Category 2”, which is a re-display of the search action performed before that;
The operation of the search behavior determination unit 4 will be described later.

閲覧行動判別部5は、検索サイト判別部3により、検索サイトへのアクセスでないと判定された場合には、以下のどちらであるかを判定する。   When the search site determination unit 3 determines that the access to the search site is not access, the browsing behavior determination unit 5 determines which of the following is true.

・検索行動からクリックで辿られたWeb閲覧である「カテゴリ3」
・ブックマークに登録されたWebページの閲覧等、検索以外の行動から始まったWebページ閲覧である「カテゴリ4」
当該閲覧行動判判別部5の動作については後述する。
・ "Category 3" is a web browsing that is followed by a click from the search action
-“Category 4”, which is web page browsing that started from an action other than search, such as browsing a web page registered in a bookmark
The operation of the browsing behavior determination unit 5 will be described later.

特徴ベクトル計算部6は、行動の判定結果に従い、4次元からなる特徴ベクトルに対して、判定結果がカテゴリiだった場合には第i成分に1を加算するという処理を行う。これを、Web閲覧行動履歴記憶部7から読み出された日時tとtの間の全Web閲覧行動に対して繰り返すことにより、Web閲覧行動特徴ベクトルが求められる。なお、特徴ベクトルの初期値は(0,0,0,0)としておく。例えば、「カテゴリ1」と判定された回数が4回、「カテゴリ3」と判定された場合の特徴ベクトルは(4,0,3,0)となる。 The feature vector calculation unit 6 performs processing of adding 1 to the i-th component when the determination result is the category i for the four-dimensional feature vector according to the determination result of the behavior. By repeating this for all web browsing behaviors between the dates t 1 and t 2 read from the web browsing behavior history storage unit 7, the web browsing behavior feature vector is obtained. Note that the initial value of the feature vector is (0, 0, 0, 0). For example, the feature vector when the number of times determined as “Category 1” is 4 times and “Category 3” is (4, 0, 3, 0).

次に、上記の構成における動作の概要を説明する。   Next, an outline of the operation in the above configuration will be described.

図3は、本発明の一実施の形態におけるWeb閲覧行動特徴抽出装置の動作のフローチャートである。   FIG. 3 is a flowchart of the operation of the Web browsing behavior feature extraction apparatus according to the embodiment of the present invention.

ステップ110) Web閲覧行動履歴記録部1は、当該Web閲覧行動履歴特徴抽出装置に接続されるPCから、日時、URL、ウィンドウID、リファラを含むWeb閲覧行動履歴を取得して、Web閲覧行動履歴記憶部7に格納する。   Step 110) The web browsing behavior history recording unit 1 acquires a web browsing behavior history including date and time, URL, window ID, and referrer from a PC connected to the web browsing behavior history feature extraction device, and the web browsing behavior history. Store in the storage unit 7.

ステップ120) 特徴ベクトル生成制御部2において、キーボード等の入力部10を介して入力された特徴ベクトルを生成する対象となる終了時刻tとなった場合には、処理を終了し、そうでない場合はステップ130に移行する。 Step 120) in the feature vector generation control unit 2, when it becomes the end time t 2 for which to generate a feature vector input via the input unit 10 such as a keyboard, the process is finished. If not Goes to step 130.

ステップ130) 特徴ベクトル生成制御部2は、入力部10から与えられた時間範囲t〜tの間の時間順にWeb閲覧行動履歴記憶部7から閲覧行動履歴を読み出す。 Step 130) The feature vector generation control unit 2 reads the browsing behavior history from the web browsing behavior history storage unit 7 in the time order between the time ranges t 1 to t 2 given from the input unit 10.

ステップ140) 検索サイト判別部3は、特徴ベクトル生成制御部2から与えられた閲覧行動履歴のURLに基づいて、検索サイトリスト記憶部8を参照し、閲覧行動履歴のURLが検索サイトリスト記憶部8に存在する場合には、検索行動であると判定し、ステップ150の処理に移行し、そうでない場合はステップ160に移行する。   Step 140) The search site determination unit 3 refers to the search site list storage unit 8 based on the URL of the browsing behavior history given from the feature vector generation control unit 2, and the URL of the browsing behavior history is the search site list storage unit. If it is present in step 8, it is determined that the action is a search action, and the process proceeds to step 150. If not, the process proceeds to step 160.

ステップ150) 検索行動判別部4は、以下の図4に示す動作によりカテゴリを判定し、ステップ180に移行する。   Step 150) The search behavior determination unit 4 determines a category by the operation shown in FIG. 4 below, and proceeds to Step 180.

図4は、本発明の一実施の形態における検索行動判定部の動作のフローチャートである。   FIG. 4 is a flowchart of the operation of the search behavior determination unit in one embodiment of the present invention.

検索行動判定部4は、行動履歴のウィンドウIDに基づいて閲覧状況管理テーブル9を参照して、同じウィンドウIDのエントリがあるかを判定し(ステップ151)、ない場合には(ステップ151、No)、当該ウィンドウIDに対応するエントリを閲覧状況管理テーブル9に追加する。このとき、ウィンドウID、URL、検索語を設定し、ブックマークフラグを"0"にセットし(ステップ152)、「カテゴリ1」と判定する(ステップ153)。   The search behavior determination unit 4 refers to the browsing status management table 9 based on the window ID of the behavior history and determines whether there is an entry with the same window ID (step 151). ), An entry corresponding to the window ID is added to the browsing status management table 9. At this time, the window ID, URL, and search term are set, the bookmark flag is set to “0” (step 152), and “category 1” is determined (step 153).

また、閲覧状況管理テーブル9に同じウィンドウIDのエントリがある場合は(ステップ151、Yes)、検索語が同じであるかを判定する(ステップ154)。異なる場合には(ステップ154、No)、閲覧状況管理テーブル9のURLと検索語を更新し(ステップ155)、「カテゴリ1」と判定する(ステップ156)。   If there is an entry with the same window ID in the browsing status management table 9 (step 151, Yes), it is determined whether the search terms are the same (step 154). If they are different (Step 154, No), the URL and the search word in the browsing status management table 9 are updated (Step 155) and determined as “Category 1” (Step 156).

また、検索語が同じ場合(ステップ154、Yes)は、閲覧状況管理テーブル9のURLを更新し(ステップ157)、「カテゴリ2」と判定する(ステップ158)。   If the search terms are the same (step 154, Yes), the URL of the browsing status management table 9 is updated (step 157) and determined as “category 2” (step 158).

ステップ160) ステップ140において、行動履歴のURLが検索サイトリスト記憶部8に存在しない場合には、以下の図5に示す動作によりカテゴリを判定し、ステップ180に移行する。   Step 160) If the URL of the action history does not exist in the search site list storage unit 8 in Step 140, the category is determined by the operation shown in FIG. 5 below, and the process proceeds to Step 180.

図5は、本発明の一実施の形態における閲覧行動制御部の動作のフローチャートである。   FIG. 5 is a flowchart of the operation of the browsing behavior control unit in one embodiment of the present invention.

閲覧行動判別部5は、閲覧行動履歴のウィンドウIDに基づいて閲覧状況管理テーブル9を参照して、同じウィンドウIDのエントリがあるかを判定し(ステップ161)、ある場合には(ステップ161、Yes)、閲覧状況管理テーブル9のブックマークフラグが"0"であるかを判定し(ステップ162)、"0"である場合は(ステップ163、Yes)、「カテゴリ3」と判定する(ステップ163)。一方、ブックマークフラグが"0"出ない場合は(ステップ162、No)、「カテゴリ4」と判定する(ステップ164)。   The browsing behavior determination unit 5 refers to the browsing status management table 9 based on the window ID of the browsing behavior history and determines whether there is an entry with the same window ID (step 161). Yes), it is determined whether the bookmark flag in the browsing status management table 9 is “0” (step 162). If it is “0” (step 163, Yes), it is determined as “category 3” (step 163). ). On the other hand, if the bookmark flag does not appear “0” (step 162, No), it is determined as “category 4” (step 164).

また、ステップ161において、同じウィンドウIDのエントリが閲覧状況管理テーブル9にない場合は(ステップ161、No)、閲覧状況管理テーブル9にエントリを追加して、ウィンドウID、URLを設定する(ステップ165)。閲覧行動履歴にリファラがあるかを判定し、ない場合は(ステップ166、No)、リファラをnullとし、ブックマークフラグを"1"とし(ステップ167)、「カテゴリ4」と判定する(ステップ168)。また、閲覧行動履歴にリファラがある場合は(ステップ166、Yes)、閲覧状況管理テーブル9からリファラがURLと一致するエントリを探し、ブックマークフラグを取得し、それと同じ値を新エントリにセットする(ステップ169)。取得したブックマークフラグが"0"であるか判定し、"0"である場合は(ステップ170、Yes)、「カテゴリ3」と判定する。また、ブックマークフラグが"0"でない場合は(ステップ170、No)、「カテゴリ4」と判定する(ステップ172)。   If there is no entry with the same window ID in the browsing status management table 9 in step 161 (step 161, No), the entry is added to the browsing status management table 9 and the window ID and URL are set (step 165). ). It is determined whether or not there is a referrer in the browsing activity history (step 166, No), the referrer is set to null, the bookmark flag is set to “1” (step 167), and “category 4” is determined (step 168). . If there is a referrer in the browsing behavior history (step 166, Yes), the browsing state management table 9 is searched for an entry whose referrer matches the URL, a bookmark flag is acquired, and the same value is set in the new entry ( Step 169). It is determined whether the acquired bookmark flag is “0”. If it is “0” (step 170, Yes), it is determined as “category 3”. If the bookmark flag is not “0” (step 170, No), it is determined as “category 4” (step 172).

ステップ180) 特徴ベクトル計算部6は、検索行動判別部4と閲覧行動判別部5から判定結果を取得し、4次元からなる特徴ベクトルに対して、各カテゴリ毎に特徴成分に1加算し、ステップ120に移行する。   Step 180) The feature vector calculation unit 6 acquires the determination results from the search behavior determination unit 4 and the browsing behavior determination unit 5, and adds 1 to the feature component for each category with respect to the four-dimensional feature vector. 120.

以下に、上記の処理を具体的に説明する。   The above processing will be specifically described below.

図6は、本発明の一実施の形態におけるWeb閲覧行動履歴記憶部の例であり、Web閲覧行動履歴として、CSV形式で記録した例を示している。1行が1つのWeb閲覧行動に対応し、日時、URL、ウィンドウID、リファラから構成されている。   FIG. 6 is an example of a web browsing action history storage unit according to an embodiment of the present invention, and shows an example in which the web browsing action history is recorded in the CSV format. One line corresponds to one Web browsing action, and is composed of date and time, URL, window ID, and referrer.

指定日時として特徴ベクトル生成制御部2に、
=2007/08/20 13:50
=2007/08/20 13:55
が与えられると、この間に入るWeb閲覧行動は、図6の(1),(2),…,(6)となる。従って、特徴ベクトル作成制御部2では、(1),(2),…,(6)の順で閲覧行動のカテゴリ判別を行う処理を行い、特徴ベクトルを生成していく。
As the designated date and time, the feature vector generation control unit 2
t 1 = 2007/08/20 13:50
t 2 = 2007/08/20 13:55
Is given, the Web browsing behavior that enters this period is (1), (2),..., (6) in FIG. Therefore, the feature vector creation control unit 2 performs a process of determining the browsing behavior category in the order of (1), (2),..., (6), and generates a feature vector.

図7は、本発明の一実施の形態における検索サイトリストの例を示す。検索サイト判別部3がポータルサイトgoo(登録商標)で検索を行うと、URLは、
http://search.goo.ne.jp/web.jsp?MT=%E7%A6%8F%e7%94%b0%E5%BA%7%E5%A4%4%AB&
STYPE=web&IE=UTF=8&frcm=gootop
のようになる。検索サイトリスト記憶部8の検索サイトリストの第1行は、このURLの前方部分に相当する。そして、"?"以下の引数部分から検索語(この場合は"福田康夫")を取り出す関数gooParserとして用意されていることを示している。
FIG. 7 shows an example of a search site list in one embodiment of the present invention. When the search site determination unit 3 performs a search on the portal site goo (registered trademark), the URL is
http://search.goo.ne.jp/web.jsp?MT=%E7%A6%8F%e7%94%b0%E5%BA%7%E5%A4%4%AB&
STYPE = web & IE = UTF = 8 & frcm = gootop
become that way. The first line of the search site list in the search site list storage unit 8 corresponds to the front part of this URL. And it shows that it is prepared as a function gooParser that retrieves the search term (in this case, “Yasuo Fukuda”) from the argument part below “?”.

図8は、本発明の一実施の形態における閲覧状況管理テーブル記憶部の例を示している。同図に示す閲覧状況管理テーブルの初期状態は空の状態であり、検索行動判別部4及び閲覧行動判別部5の動作に応じて、エントリが追加され、各エントリのウィンドウID、検索語、ブックマークフラグの値が設定または、更新されていく。   FIG. 8 shows an example of the browsing status management table storage unit in the embodiment of the present invention. The initial state of the browsing status management table shown in the figure is an empty state, and entries are added according to the operations of the search behavior determining unit 4 and the browsing behavior determining unit 5, and the window ID, search word, and bookmark of each entry are added. The flag value is set or updated.

上記の例において、まず、Web閲覧行動履歴記録部1において、図6に示すようなWeb閲覧行動履歴がWeb閲覧行動履歴記憶部7に記録される。次に、特徴ベクトル生成制御部2では、時刻t,tが上記のように与えられると、この時間範囲に含まれるWeb閲覧行動履歴(1)〜(6)をWeb閲覧行動履歴記憶部7から取り出し、(1),(2),…,(6)の順で検索サイト判別部3に渡される。検索行動判別部3は、取得した閲覧行動履歴に基づいて、図7に示すような検索サイトリストを参照して、検索行動判別部4または、閲覧行動判別部5のいずれに処理を移すかを判定する。検索行動判別部4または、閲覧行動判別部5では、図8に示すような閲覧状況管理テーブル9を参照して、閲覧行動履歴がカテゴリ1〜4のいずれのカテゴリであるかの判別を行う。 In the above example, first, in the web browsing behavior history recording unit 1, a web browsing behavior history as shown in FIG. 6 is recorded in the web browsing behavior history storage unit 7. Next, when the times t 1 and t 2 are given as described above, the feature vector generation control unit 2 stores the web browsing behavior histories (1) to (6) included in this time range as the web browsing behavior history storage unit. 7 and is passed to the search site determination unit 3 in the order of (1), (2),..., (6). The search behavior discriminating unit 3 refers to a search site list as shown in FIG. 7 based on the acquired browsing behavior history, and determines whether the search behavior discriminating unit 4 or the browsing behavior discriminating unit 5 moves the process to. judge. The search behavior determination unit 4 or the browsing behavior determination unit 5 refers to the browsing status management table 9 as shown in FIG. 8 and determines which category of the browsing behavior history is category 1-4.

最後に、特徴ベクトル計算部6は、閲覧行動判別部5から取得したWeb閲覧行動履歴(1)に対する判別結果、(2)に対する判別結果、…、を順に取得して、特徴ベクトルの該当する成分に対する加算を行い、特徴ベクトルを計算し、出力する。   Finally, the feature vector calculation unit 6 sequentially obtains the discrimination result for the web browsing behavior history (1) acquired from the browsing behavior discrimination unit 5, the discrimination result for (2),. Is added, and a feature vector is calculated and output.

上記の実施の形態における図2に示すWeb閲覧行動特徴抽出装置の構成要素の動作をプログラムとして構築し、Web閲覧行動特徴抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させること可能である。   The operation of the constituent elements of the Web browsing behavior feature extraction device shown in FIG. 2 in the above embodiment is constructed as a program and installed and executed on a computer used as the Web browsing behavior feature extraction device, or via a network. Can be distributed.

また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、又は、配布することが可能である。   In addition, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、ユーザがPC上で行ったWeb閲覧行動についての履歴管理やユーザの閲覧の嗜好性を把握する技術に適用可能である。   The present invention can be applied to techniques for managing history regarding Web browsing behavior performed by a user on a PC and grasping user's browsing preference.

本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態におけるWeb閲覧行動特徴抽出装置の構成図である。It is a block diagram of the Web browsing action feature extraction apparatus in one embodiment of this invention. 本発明の一実施の形態におけるWeb閲覧行動特徴抽出装置の動作のフローチャートである。It is a flowchart of operation | movement of the Web browsing action feature extraction apparatus in one embodiment of this invention. 本発明の一実施の形態における検索行動判別部の動作のフローチャートである。It is a flowchart of operation | movement of the search action discrimination | determination part in one embodiment of this invention. 本発明の一実施の形態における閲覧行動判別部の動作のフローチャートである。It is a flowchart of operation | movement of the browsing action discrimination | determination part in one embodiment of this invention. 本発明の一実施の形態におけるWeb閲覧行動履歴記憶部の例である。It is an example of the web browsing action history memory | storage part in one embodiment of this invention. 本発明の一実施の形態における検索サイトリストの例である。It is an example of the search site list | wrist in one embodiment of this invention. 本発明の一実施の形態における閲覧状況管理テーブルの例である。It is an example of the browsing condition management table in one embodiment of this invention.

符号の説明Explanation of symbols

1 Web閲覧行動履歴記録手段、Web閲覧行動履歴記録部
2 特徴ベクトル生成制御手段、特徴ベクトル生成制御部
3 検索サイト判別手段、検索サイト判別部
4 検索行動判別手段、検索行動判別部
5 閲覧行動判別手段、閲覧行動判別部
6 特徴ベクトル計算手段、特徴ベクトル計算部
7 Web閲覧行動履歴記憶手段、Web閲覧行動履歴記憶部
8 検索サイトリスト記憶手段、検索サイトリスト記憶部
9 閲覧状況記憶手段、閲覧状況管理テーブル記憶部
10 入力部
DESCRIPTION OF SYMBOLS 1 Web browsing action history recording means, Web browsing action history recording part 2 Feature vector generation control means, Feature vector generation control part 3 Search site discrimination means, Search site discrimination part 4 Search behavior discrimination means, Search behavior discrimination part 5 Browse behavior discrimination Means, browsing behavior determination unit 6 feature vector calculation unit, feature vector calculation unit 7 Web browsing behavior history storage unit, Web browsing behavior history storage unit 8 search site list storage unit, search site list storage unit 9 browsing status storage unit, browsing status Management table storage unit 10 input unit

Claims (2)

ユーザのWeb閲覧行動からその特徴を示す特徴ベクトルを抽出するWeb閲覧行動特徴抽出装置であって、
予め検索サイトリストが格納されている検索サイトリスト記憶手段と、
ユーザが行ったWeb閲覧の日時、URL、ウィンドウID、リファラからなるWeb閲覧行動履歴を取得してWeb閲覧行動履歴記憶手段に格納するWeb閲覧行動履歴記録手段と、
指定された時間範囲の前記Web閲覧行動履歴を前記Web閲覧行動履歴記憶手段から時間順に読み出す特徴ベクトル生成制御手段と、
前記検索サイトリスト記憶手段を参照して、現在着目しているWeb閲覧行動である注目Web閲覧行動が、検索サイトへのアクセスか否かを判定し、検索サイトへのアクセスである場合は検索語を取得し、検索サイトへのアクセスでない場合は、閲覧行動の状況を閲覧状況記憶手段に記録する検索サイト判別手段と、
前記検索サイト判別手段において、検索サイトへのアクセスであると判別された場合には、前記注目Web閲覧行動に対して取得した前記検索語と、前記閲覧状況記憶手段の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が新たな閲覧行動である「カテゴリ1」、または、既に行われた検索行動の他の候補の閲覧行動である「カテゴリ2」と判別する検索行動判別手段と、
前記検索サイト判別手段において、検索サイトへのアクセスでないと判別された場合には、前記注目Web閲覧行動のリファラの値と前記閲覧状況記憶手段の閲覧行動の状況から、該注目Web閲覧行動が、Web閲覧行動が、検索行動の結果として得られたWebページからリンクを辿ることによって行われた行動である「カテゴリ3」、または、それ以外の行動である「カテゴリ4」と判別する閲覧行動判別手段と、
前記検索行動判別手段、または、前記閲覧行動判別手段によって決定されたカテゴリiについて、特徴ベクトルの第i成分の値を1増加させることにより、Web閲覧行動特徴ベクトルを求める特徴ベクトル計算手段と、
を有することを特徴とするWeb閲覧行動特徴抽出装置。
A web browsing behavior feature extraction device that extracts a feature vector indicating a feature from a web browsing behavior of a user,
A search site list storage means for storing a search site list in advance;
Web browsing action history recording means for acquiring a Web browsing action history consisting of the date and time of the Web browsing performed by the user, URL, window ID, and referrer, and storing it in the Web browsing action history storage means;
Feature vector generation control means for reading out the web browsing behavior history in a designated time range from the web browsing behavior history storage means in time order;
With reference to the search site list storage means, it is determined whether or not the attention web browsing behavior that is the web browsing behavior currently focused on is access to the search site. If the search site is not accessed, the search site determination means for recording the browsing behavior status in the browsing status storage means,
If the search site determination means determines that the access is to a search site, the search word acquired for the attention web browsing behavior and the browsing behavior status of the browsing status storage means Search behavior discrimination means for discriminating that the web browsing behavior of interest is “category 1” in which the web browsing behavior is a new browsing behavior, or “category 2” that is another candidate browsing behavior that has already been performed; ,
When it is determined that the search site determination means is not an access to the search site, the attention web browsing behavior is determined from the value of the referrer of the attention web browsing behavior and the browsing behavior status of the browsing status storage means. Browsing behavior discriminating whether the web browsing behavior is “category 3” that is a behavior performed by following a link from a web page obtained as a result of the search behavior, or “category 4” that is other behavior. Means,
For the category i determined by the search behavior determination means or the browsing behavior determination means, a feature vector calculation means for obtaining a Web browsing behavior feature vector by increasing the value of the i-th component of the feature vector by 1,
A Web browsing behavior feature extraction apparatus characterized by comprising:
請求項1に記載のWeb閲覧行動特徴抽出装置を構成する各手段としてコンピュータを機能させるWeb閲覧行動特徴抽出プログラム。   A Web browsing behavior feature extraction program for causing a computer to function as each means constituting the Web browsing behavior feature extraction device according to claim 1.
JP2007299787A 2007-11-19 2007-11-19 Web browsing behavior feature extraction apparatus and program Active JP4906687B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007299787A JP4906687B2 (en) 2007-11-19 2007-11-19 Web browsing behavior feature extraction apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007299787A JP4906687B2 (en) 2007-11-19 2007-11-19 Web browsing behavior feature extraction apparatus and program

Publications (2)

Publication Number Publication Date
JP2009128937A true JP2009128937A (en) 2009-06-11
JP4906687B2 JP4906687B2 (en) 2012-03-28

Family

ID=40819845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007299787A Active JP4906687B2 (en) 2007-11-19 2007-11-19 Web browsing behavior feature extraction apparatus and program

Country Status (1)

Country Link
JP (1) JP4906687B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093803A (en) * 2010-10-22 2012-05-17 Nippon Telegr & Teleph Corp <Ntt> Browsing log analyzer and browsing log analyzing program
JP2021125128A (en) * 2020-02-07 2021-08-30 ヤフー株式会社 Information processing device, information management method, and information processing program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330852A (en) * 2002-05-10 2003-11-21 Canon Electronics Inc Information management server, information processor, information management system, and control method and program therefor
JP2004070576A (en) * 2002-08-05 2004-03-04 Canon Inc Information retrieval device, information retrieval method and storage medium
JP2004510230A (en) * 2000-09-20 2004-04-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Automated bookmarks in information systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510230A (en) * 2000-09-20 2004-04-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Automated bookmarks in information systems
JP2003330852A (en) * 2002-05-10 2003-11-21 Canon Electronics Inc Information management server, information processor, information management system, and control method and program therefor
JP2004070576A (en) * 2002-08-05 2004-03-04 Canon Inc Information retrieval device, information retrieval method and storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093803A (en) * 2010-10-22 2012-05-17 Nippon Telegr & Teleph Corp <Ntt> Browsing log analyzer and browsing log analyzing program
JP2021125128A (en) * 2020-02-07 2021-08-30 ヤフー株式会社 Information processing device, information management method, and information processing program
JP7177107B2 (en) 2020-02-07 2022-11-22 ヤフー株式会社 Information processing device, information processing method and information processing program

Also Published As

Publication number Publication date
JP4906687B2 (en) 2012-03-28

Similar Documents

Publication Publication Date Title
KR101377389B1 (en) Visual and multi-dimensional search
US9195662B2 (en) Online analysis and display of correlated information
TW201514845A (en) Title and body extraction from web page
JP7069802B2 (en) Systems and methods for user-oriented topic selection and browsing, how to display multiple content items, programs, and computing devices.
JP6237168B2 (en) Information processing apparatus and information processing program
WO2021129122A1 (en) Display method for book query page, electronic device and computer storage medium
US9208150B2 (en) Automatic association of informational entities
TWI457775B (en) Method for sorting and managing websites and electronic device of executing the same
US9223854B2 (en) Document relevance determining method and computer program
JP2008310514A (en) User operation history acquisition display device, user operation history acquisition display method, user operation history acquisition display program and recording medium recording that program
JP5345963B2 (en) Method for generating tag data to search for images
JP5271920B2 (en) Using structured data for online searching
JP5337317B2 (en) Digital content browsing apparatus and digital content browsing management system
JP5210098B2 (en) Digital content browsing management system
CN112182451A (en) Webpage content abstract generation method, equipment, storage medium and device
JP4906687B2 (en) Web browsing behavior feature extraction apparatus and program
JP2011243066A (en) Electronic document management device, display method, display program and record medium
JP2006309509A (en) Browsing screen reusing device, browsing screen reusing program, and storage medium
Hales et al. Investigating visualisation techniques for rapid triage of digital forensic evidence
JP2009199164A (en) Document management device, document management method and recording medium
CN112417252B (en) Crawler path determination method and device, storage medium and electronic equipment
WO2016124099A1 (en) Webpage display method and device
JP4607443B2 (en) Document display device and document display method
JP2009129036A (en) Information retrieval system, information retrieval method, and program
CN116028637A (en) Map construction method and device, and data retrieval method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4906687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350