JP2001297115A - Hypertext access pattern analysis device - Google Patents
Hypertext access pattern analysis deviceInfo
- Publication number
- JP2001297115A JP2001297115A JP2000113453A JP2000113453A JP2001297115A JP 2001297115 A JP2001297115 A JP 2001297115A JP 2000113453 A JP2000113453 A JP 2000113453A JP 2000113453 A JP2000113453 A JP 2000113453A JP 2001297115 A JP2001297115 A JP 2001297115A
- Authority
- JP
- Japan
- Prior art keywords
- hypertext
- access pattern
- access
- hypertexts
- support
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、例えばネットワー
ク上に構成されるハイパーテキストシステムにおいて、
ハイパーテキストシステム上でのユーザのアクセスパタ
ーンを効率的に発見することを目的としたハイパーテキ
ストアクセス(閲覧)パターン解析装置や、その解析装
置をコンピュータで実現することを目的としたハイパー
テキストアクセスパターン解析プログラムを記録した媒
体に関する。The present invention relates to a hypertext system configured on a network, for example,
A hypertext access (browsing) pattern analysis device for efficiently finding a user's access pattern on a hypertext system, and a hypertext access pattern analysis for realizing the analysis device on a computer It relates to a medium on which a program is recorded.
【0002】[0002]
【従来の技術】近年、World Wide Web(以下、Webと略し
て記す)において情報提供を行う需要が増大している。
企業においてもWebで情報提供を行うためのWebサイト
(ハイパーテキストシステムの一例に相当するもの)を持
ち、Webサイトで自社の製品の広告活動、或いは電子商
取引などの手段による物品、サービスの売買が盛んに行
われつつある。そのような中で、Webにアクセスしてき
たユーザ(顧客)のアクセス履歴から、多くのユーザに共
通するハイパーテキストの閲覧系列・集合をアクセスパ
ターンとして発見する技術は、Webサイトを効果的に運
用する上で欠かせないものとなっている。2. Description of the Related Art In recent years, the demand for providing information on the World Wide Web (hereinafter abbreviated as Web) has been increasing.
Web site for providing information on the Web in companies
(Equivalent to an example of a hypertext system), and websites are actively promoting the sale of goods and services by means of advertising activities of their products or electronic commerce. Under these circumstances, technology that discovers, as an access pattern, browsing sequences / sets of hypertexts common to many users from the access history of users (customers) who have accessed the Web effectively operates Web sites It is indispensable above.
【0003】Webサイトで提供される情報はコンテンツ
と呼ばれ、ハイパーテキスト(例えば、HTML)によって表
現される。個々のハイパーテキスト情報はリンクによっ
て結ばれる。Webサイトにアクセスしたユーザは、リン
クをたどる事によってWebサイト中のハイパーテキスト
にアクセスして様々な情報を入手する事ができる。Web
サーバはサーバにアクセスしてきたユーザの振る舞いを
記録することができる(記録された内容を以降ではアク
セス履歴と呼ぶ)。[0003] Information provided on a Web site is called content, and is represented by hypertext (for example, HTML). Individual hypertext information is linked by links. The user who accesses the Web site can access the hypertext in the Web site by following the link to obtain various information. Web
The server can record the behavior of the user who has accessed the server (the recorded content is hereinafter referred to as access history).
【0004】アクセス履歴にはアクセスしてきたコンピ
ュータ(ユーザがWebサーバにアクセスするために使用し
ているコンピュータ、又はユーザの利用情報を中継して
いるコンピュータ)のIPアドレス、アクセスしてきた時
刻、情報にアクセスするためにWebサーバに送った命令
などが記録されている。命令には、ユーザがアクセスし
たハイパーテキストのサーバー上での識別子(例えばUR
L)が含まれる。The access history includes the IP address of the accessing computer (the computer used by the user to access the Web server or the computer relaying the user's usage information), the access time, and the information. Instructions sent to the Web server for access are recorded. The instruction contains the identifier of the hypertext accessed by the user on the server (for example, UR
L) is included.
【0005】アクセス履歴を利用してユーザのアクセス
パターンを発見することでユーザの動向を知る従来技術
について述べる。例えば「“Efficient Data Mining fo
r Path Traversal Patterns”,IEEE Trans. on Knowled
ge and Data Engineering, 1998」(以下で、文献1と
言う)には、MF(Maximal Forward references)という系
列を取り出す技術が記載されている。図12を例に示す
と、或るユーザがA→B→C→D→E→F→Gという順にノー
ドを閲覧した場合には[ABCD][ABE][AFG]というMFが得ら
れる。アクセスのあったユーザすべてに対してMFを求
め、MFの部分列の出現回数をカウントし、頻度の高いMF
をユーザのアクセスパターンとして得る技術である。[0005] A conventional technique for finding a user's trend by finding a user's access pattern using an access history will be described. For example, “Efficient Data Mining fo
r Path Traversal Patterns ”, IEEE Trans. on Knowled
ge and Data Engineering, 1998 ”(hereinafter referred to as Reference 1) describes a technique for extracting a sequence called MF (Maximal Forward references). In the example shown in FIG. 12, when a certain user browses the nodes in the order of A → B → C → D → E → F → G, the MF [ABCD] [ABE] [AFG] is obtained. The MF is found for all users who have accessed, and the number of appearances of the MF subsequence is counted.
Is obtained as a user access pattern.
【0006】しかしながら、この技術では、MF系列を生
成する際に、サイトの入り口に近い部分が複数回数えら
れることになり、サイトの入り口からリンク遷移数の少
ないページ群へのMF系列の部分列の出現回数が大きくな
ってしまう傾向がある。このため、この技術では、トッ
プページからのリンク遷移数が少ない部分でのアクセス
パターンのみが強調されてしまい、多くのリンクを遷移
しなければならないハイパーテキスト群についてのアク
セスパターンを有効に発見することが困難であるといっ
た不具合があった。However, in this technique, when an MF sequence is generated, a portion close to the entrance of the site is counted a plurality of times, and a partial sequence of the MF sequence from the entrance of the site to a page group having a small number of link transitions is generated. Tend to increase the number of appearances. For this reason, in this technology, only the access pattern in the part where the number of link transitions from the top page is small is emphasized, and it is necessary to effectively find the access pattern for the hypertext group that has to transit many links. There was a problem that it was difficult.
【0007】また、例えば「“Mining Association Rul
e in Hypertext Databases” In Proc of KDD-98」(以
下で、文献2と言う)には、ログからリンクで結ばれた
ノード間のユーザの遷移数を取り出し、ユーザのアクセ
スしたノード系列の相関ルールをユーザのアクセスパタ
ーンとして得る技術が記載されている。[0007] For example, "Mining Association Rul
e in Hypertext Databases “In Proc of KDD-98” (hereinafter referred to as reference 2) extracts the number of user transitions between nodes linked by a link from a log and associates the node sequence accessed by the user with a correlation rule. Is described as a user access pattern.
【0008】しかしながら、この技術では、ノード間の
ユーザの遷移数のみを見ているため、同一のユーザが必
ずその系列をたどっているとは限らないといった不具合
があった。図13を例に示すと、この技術では、B->Aの
リンクをたどったユーザはA->Fのリンクをたどる傾向
があるという相関関係が得られるが、同じユーザがノー
ドB、A、Fのすべてを訪れていることを示すものではな
く、ユーザのアクセス動向を正確に反映しているとは言
えない。However, in this technique, since only the number of transitions of a user between nodes is observed, there is a problem that the same user does not always follow the sequence. Referring to FIG. 13 as an example, in this technique, a correlation is obtained in which a user following the link of B-> A tends to follow the link of A-> F. It does not indicate that you have visited all of F, and does not accurately reflect the user's access trends.
【0009】また、上記文献1や上記文献2に記載され
た技術では共に、サーバに配置されたコンテンツの内容
については考慮していないため、ユーザの動向を知る手
助けとならない無意味なアクセスパターンについても大
量に発見されてしまう。このため、発見されたアクセス
パターンを精査するのに多大な時間を要してしまうとい
った不具合があった。[0009] Further, in both the techniques described in the above-mentioned Documents 1 and 2, since the contents of the contents arranged in the server are not taken into consideration, meaningless access patterns that do not help the user to know the trend of the user are considered. Are also found in large quantities. For this reason, there is a problem that it takes a lot of time to scrutinize the found access pattern.
【0010】[0010]
【発明が解決しようとする課題】上記従来例で示したよ
うに、従来の技術では、ユーザのアクセスパターンを発
見するに際して不十分な点があったため、上記のような
不具合を解消することができる技術の開発が望まれてい
た。本発明は、このような従来の事情を鑑みてなされた
もので、例えばコンテンツの内容を考慮して、分析者の
サイト構成の意図とユーザの興味との関係を示すことに
より、アクセスパターンの精査を容易にすることができ
るハイパーテキストアクセスパターン解析装置や記憶媒
体を提供することを目的とする。As described in the above-mentioned prior art, the conventional technique has an insufficient point for finding a user's access pattern, so that the above-mentioned problems can be solved. Technology development was desired. The present invention has been made in view of such a conventional situation. For example, by examining the relationship between the intent of the site configuration of the analyst and the user's interest in consideration of the contents of the content, the access pattern is closely examined. It is an object of the present invention to provide a hypertext access pattern analysis device and a storage medium that can facilitate the above.
【0011】また、本発明は、例えばハイパーテキスト
システム内のアクセス数の多いリンク距離が浅いハイパ
ーテキスト集合と同様に、アクセス数の比較的少ないリ
ンク距離が深いハイパーテキストについても、同じ領域
のハイパーテキストを訪れているユーザの中で特徴的な
アクセスパターンを発見することができるハイパーテキ
ストアクセスパターン解析装置を提供することを目的と
する。また、本発明は、アクセスパターン生成の効率化
を図ることができるハイパーテキストアクセスパターン
解析装置を提供することを目的とする。The present invention is also applicable to a hypertext system in which the number of accesses in a hypertext system is short and the link distance is relatively short, as well as a hypertext in which the number of accesses is relatively short and the link distance is deep. It is an object of the present invention to provide a hypertext access pattern analysis device capable of discovering a characteristic access pattern among users who visit. Another object of the present invention is to provide a hypertext access pattern analysis device capable of improving the efficiency of access pattern generation.
【0012】[0012]
【課題を解決するための手段】上記目的を達成するた
め、本発明に係るハイパーテキストアクセスパターン解
析装置では、ハイパーテキスト分類手段がハイパーテキ
ストシステムにより提供される複数のハイパーテキスト
を各ハイパーテキストの内容に基づいて複数のクラスタ
に分類し、アクセス履歴検出手段がハイパーテキストに
対するユーザ毎のアクセス履歴を検出し、アクセスパタ
ーン生成手段が検出されたユーザ毎のアクセス履歴に基
づいて、各クラスタに関して、当該クラスタに含まれる
複数のハイパーテキストを組合せて成るハイパーテキス
ト集合の中で、ハイパーテキスト集合に含まれる全ての
ハイパーテキストに同一アクセス時にアクセスしたユー
ザの割合が所定値以上であるハイパーテキスト集合を種
とし、種となるハイパーテキスト集合に含まれるハイパ
ーテキストにリンクで繋がれたハイパーテキストを当該
ハイパーテキスト集合に追加して成るアクセスパターン
を生成し、アクセスパターン提示手段が生成されたアク
セスパターンを提示する。In order to achieve the above object, in the hypertext access pattern analyzing apparatus according to the present invention, the hypertext classifying means converts a plurality of hypertexts provided by the hypertext system into contents of each hypertext. The access history detecting means detects the access history of each user with respect to the hypertext, and the access pattern generating means classifies each cluster based on the detected access history of each user. In a hypertext set formed by combining a plurality of hypertexts included in a hypertext set in which the percentage of users who accessed all hypertexts included in the hypertext set at the same access is equal to or more than a predetermined value as a seed, Seed high Hypertext which is connected by links to hypertext contained in over text set generates an access pattern formed by adding to the hypertext set presents an access pattern by the access pattern presenting means is generated.
【0013】なお、本発明の更に具体的な態様の一例を
示すと、ハイパーテキスト分類手段はハイパーテキスト
システム中の各ハイパーテキストを各ハイパーテキスト
に記述された内容に基づいて複数のクラスタに分類し、
アクセス履歴検出手段はサーバで集められた各ハイパー
テキストに対するアクセス履歴を前処理して、各ユーザ
毎のハイパーテキストのアクセス系列を抽出し、アクセ
スパターン生成手段は各ユーザ毎のアクセス系列に基づ
いて、各クラスタ内で予め定められた値以上の割合のユ
ーザに共通する当該各ユーザが同一アクセス時にアクセ
スしたハイパーテキスト集合を種として、種となるハイ
パーテキスト集合に含まれるハイパーテキストに直接リ
ンクで繋がれているハイパーテキストを追加させていく
ことでアクセスパターンを生成し、生成されたアクセス
パターンをアクセスパターン保持手段により保持し、ア
クセスパターン提示手段は保持された全てのアクセスパ
ターンを、分析者(ユーザ)の興味を示す尺度に従って
順序付けして分析者に提示する。この場合に、例えば順
序付け手段が、分類されたそれぞれのクラスタ(各クラ
スタは例えばハイパーテキストの集合から成る)の任意
のページ(ハイパーテキスト)にアクセスしたユーザの
数に基づいて順序付けを行う。According to a further specific embodiment of the present invention, the hypertext classification means classifies each hypertext in the hypertext system into a plurality of clusters based on the contents described in each hypertext. ,
The access history detection means pre-processes the access history for each hypertext collected by the server to extract a hypertext access sequence for each user, and the access pattern generation means based on the access sequence for each user, A hypertext set included in a seed hypertext set is directly linked to a hypertext included in the seed hypertext set by using the hypertext set which is common to users having a ratio equal to or greater than a predetermined value in each cluster and accessed by the respective users at the same access. An access pattern is generated by adding a hypertext that is stored, and the generated access pattern is stored in an access pattern storing unit. The access pattern presenting unit stores all of the stored access patterns in an analyst (user). And ordered according to a measure of interest Presented to the. In this case, for example, the ordering unit performs the ordering based on the number of users who have accessed an arbitrary page (hypertext) of each of the classified clusters (each cluster is formed of, for example, a set of hypertext).
【0014】従って、各ハイパーテキストの内容に基づ
いて分類された各クラスタに関してアクセスパターンが
生成されて、当該アクセスパターンが分析者(ユーザ)
に提示されるため、例えばハイパーテキストのコンテン
ツの内容を考慮して、分析者のサイト構成の意図とユー
ザの興味との関係を示すことにより、アクセスパターン
の精査を容易にすることができる。Accordingly, an access pattern is generated for each cluster classified based on the content of each hypertext, and the access pattern is analyzed by an analyst (user).
For example, by considering the contents of the hypertext content and showing the relationship between the analyst's intention of the site configuration and the user's interest, it is possible to easily examine the access pattern.
【0015】なお、ハイパーテキストシステムとして
は、例えば複数のハイパーテキストをリンクで接続して
保持しているようなシステムであれば、種々なシステム
が用いられてもよい。また、ハイパーテキスト集合に含
まれる全てのハイパーテキストに同一アクセス時にアク
セスしたとは、例えばユーザがハイパーテキストへのア
クセスを中止することなく、ハイパーテキスト間のリン
クをたどって当該全てのハイパーテキストに時間的に連
続してアクセスしたということを示す。As the hypertext system, for example, various systems may be used as long as a plurality of hypertexts are connected and held by links. Also, accessing all the hypertexts included in the hypertext set at the same access means that, for example, the user follows links between the hypertexts and stops at all the hypertexts without stopping the access to the hypertexts. Indicates that access was made consecutively.
【0016】また、このようなアクセスを行ったユーザ
の割合としては、例えば後述する最小支持度や、支持度
や、これら両方などを用いることができる。また、上記
した所定値としては、例えば装置の使用状況等に応じ
て、種々な値が用いられてもよい。また、アクセスパタ
ーンを提示する方法としては、例えばディスプレイ画面
等に表示出力して提示する方法や、プリンタにより印刷
出力して提示する方法等を用いることができる。As the ratio of users who have made such access, for example, a minimum support, a support, or both of them, which will be described later, can be used. Also, various values may be used as the above-mentioned predetermined value, for example, according to the usage status of the device. Further, as a method of presenting the access pattern, for example, a method of displaying and displaying the access pattern on a display screen or the like, a method of presenting by printing and outputting with a printer, or the like can be used.
【0017】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、ハイパーテキストシステム
により提供されるハイパーテキストにアクセスしたユー
ザの数に対する対象とするハイパーテキスト集合に含ま
れる全てのハイパーテキストに同一アクセス時にアクセ
スしたユーザの数の割合を最小支持度とするとともに、
対象とするクラスタに含まれるハイパーテキストにアク
セスしたユーザの数に対する対象とするハイパーテキス
ト集合に含まれる全てのハイパーテキストに同一アクセ
ス時にアクセスしたユーザの数の割合を支持度とする。Further, in the hypertext access pattern analysis apparatus according to the present invention, all the hypertexts included in the target hypertext set with respect to the number of users who have accessed the hypertext provided by the hypertext system are accessed at the same time. The ratio of the number of users who accessed the site is the minimum support,
The ratio of the number of users accessing all hypertexts included in the target hypertext set at the same access to the number of users accessing the hypertexts included in the target cluster, as the support level.
【0018】ここで、ハイパーテキストシステムにより
提供されるハイパーテキストにアクセスしたユーザの数
(以下で、ユーザ数Aと言う)とは、例えばハイパーテ
キストシステムにより提供される少なくとも1つのハイ
パーテキストにアクセスしたユーザの数であって、同一
のユーザが2つ以上のハイパーテキストにアクセスした
場合には当該同一のユーザを1人のユーザとしてカウン
トする。また、対象とするハイパーテキスト集合に含ま
れる全てのハイパーテキストに同一アクセス時にアクセ
スしたユーザの数(以下で、ユーザ数Bと言う)とは、
例えばアクセスの順序については任意であってもよいが
当該全てのハイパーテキストに同一アクセス時にアクセ
スしたユーザの数のことである。Here, the number of users who have accessed the hypertext provided by the hypertext system (hereinafter referred to as the number of users A) refers to, for example, at least one hypertext provided by the hypertext system. When the same user accesses two or more hypertexts, the same user is counted as one user. The number of users who have accessed all hypertexts included in the target hypertext set at the same access (hereinafter, referred to as the number of users B) is as follows.
For example, the order of access may be arbitrary, but refers to the number of users who have accessed all the hypertexts at the same access.
【0019】また、対象とするクラスタに含まれるハイ
パーテキストにアクセスしたユーザの数(以下で、ユー
ザ数Cと言う)とは、例えば当該クラスタに含まれる少
なくとも1つのハイパーテキストにアクセスしたユーザ
の数であって、同一のユーザが2つ以上のハイパーテキ
ストにアクセスした場合には当該同一のユーザを1人の
ユーザとしてカウントする。なお、上記したユーザ数A
とユーザ数Bを用いると、最小支持度は例えば(ユーザ
数B/ユーザ数A)で表される。また、上記したユーザ
数Cとユーザ数Bを用いると、支持度は例えば(ユーザ
数B/ユーザ数C)で表される。The number of users accessing the hypertext included in the target cluster (hereinafter referred to as the number of users C) is, for example, the number of users accessing at least one hypertext included in the cluster. If the same user accesses two or more hypertexts, the same user is counted as one user. The number of users A described above
And the number of users B, the minimum support is represented by, for example, (number of users B / number of users A). When the number of users C and the number of users B described above are used, the support level is represented by, for example, (the number of users B / the number of users C).
【0020】そして、アクセスパターン生成手段は、対
象とするクラスタに含まれる複数のハイパーテキストを
組み合わせて成るハイパーテキスト集合の中で、最小支
持度が所定の最小支持度閾値以上であり且つ支持度が所
定の支持度閾値以上であり且つ含まれるハイパーテキス
トの数が所定数以上であるハイパーテキスト集合を種と
し、各種となるハイパーテキスト集合に関して、当該種
となるハイパーテキスト集合に含まれるハイパーテキス
トに直接的にリンクで繋がれたハイパーテキストを当該
ハイパーテキスト集合に追加して成るハイパーテキスト
集合及び同様にして当該ハイパーテキスト集合に更に1
以上のハイパーテキストを追加して成るハイパーテキス
ト集合の中で、支持度が当該種となるハイパーテキスト
集合の支持度と同じであるハイパーテキスト集合をアク
セスパターン候補とし、各アクセスパターン候補に関し
て、当該アクセスパターン候補に含まれるハイパーテキ
ストに直接的にリンクで繋がれたハイパーテキストを当
該アクセスパターン候補に追加して成るハイパーテキス
ト集合及び同様にして当該ハイパーテキスト集合に更に
1以上のハイパーテキストを追加して成るハイパーテキ
スト集合の中で、最小支持度が所定の最小支持度閾値以
上であり且つ支持度が所定の支持度閾値以上であるハイ
パーテキスト集合をアクセスパターンとする。Then, the access pattern generating means determines that the minimum support is equal to or more than a predetermined minimum support threshold and the support is within a hypertext set formed by combining a plurality of hypertexts included in the target cluster. A hypertext set that is equal to or greater than a predetermined support threshold and the number of included hypertexts is equal to or greater than a predetermined number is used as a seed, and with respect to various hypertext sets, the hypertext included in the seed hypertext set is directly used. A hypertext set obtained by adding a hypertext linked by a link to the hypertext set, and the hypertext set in the same manner as above.
Among the hypertext sets obtained by adding the above hypertexts, a hypertext set whose support level is the same as the support level of the hypertext set as the kind is regarded as an access pattern candidate, and the access pattern candidate is determined for each access pattern candidate. A hypertext set formed by adding hypertext directly linked to the hypertext included in the pattern candidate to the access pattern candidate, and similarly adding one or more hypertexts to the hypertext set. In the hypertext set, a hypertext set whose minimum support is equal to or more than a predetermined minimum support threshold and whose support is equal to or more than a predetermined support threshold is set as an access pattern.
【0021】なお、本発明の更に具体的な態様の一例を
示すと、アクセスパターン生成手段は、アクセスしたユ
ーザの数が順序付け手段により“ユーザ数1”であると
判定されたクラスタとアクセス履歴とを入力とし、当該
クラスタに含まれるハイパーテキストの組合わせの中
で、組合わせ中の全てのハイパーテキストを閲覧したユ
ーザ数のアクセス履歴全体のユーザ数に対する割合を最
小支持度とするとともに、“ユーザ数1”に対する割合
を支持度とする。そして、最小支持度と支持度との双方
がそれぞれ予め定めれられた最小支持度閾値と支持度閾
値を越え且つ組合わせに含まれるハイパーテキスト数が
予め与えられた数以上となる組合わせを種として生成
し、生成されたそれぞれの種について、種に含まれるハ
イパーテキストに直接リンクで繋がれたハイパーテキス
トを追加した場合に種に含まれるハイパーテキストと追
加されたハイパーテキストとに同一アクセス時にアクセ
スしているユーザの数を“ユーザ数2”として算出す
る。As an example of a more specific embodiment of the present invention, the access pattern generation means includes a cluster whose access number is determined to be "the number of users" by the ordering means and an access history. Is input, and among the combinations of hypertexts included in the cluster, the ratio of the number of users who browsed all the hypertexts in the combination to the number of users in the entire access history is set as the minimum support, and the “user The ratio with respect to Expression 1 "is defined as the support. Then, a combination in which both the minimum support and the support exceed the predetermined minimum support threshold and the support threshold, respectively, and the number of hypertexts included in the combination is equal to or more than a predetermined number is seeded. When the hypertext linked by a direct link to the hypertext included in the species is added for each generated species, the hypertext included in the species and the added hypertext are accessed at the same access The number of active users is calculated as “the number of users 2”.
【0022】この時、“ユーザ数2”の“ユーザ数1”
に対する割合である支持度が変化しないハイパーテキス
トを追加したものをアクセスパターン候補とし、得られ
た新たなアクセスパターン候補についても同様の操作
を、支持度を変化させない追加可能なハイパーテキスト
が存在しなくなるまで繰り返して行う。このようにして
得られたアクセスパターン候補について、アクセスパタ
ーン候補に含まれるハイパーテキストに直接リンクで繋
がれたハイパーテキストを追加した場合にアクセスパタ
ーン候補に含まれるハイパーテキストと追加されたハイ
パーテキストとに同一アクセス時にアクセスしているユ
ーザの数を“ユーザ数3”として算出する。At this time, "number of users 1" of "number of users 2"
The addition of a hypertext that does not change the support rate, which is the ratio of the access pattern candidate, is used as an access pattern candidate, and the same operation is performed for the obtained new access pattern candidate.There is no additional hypertext that does not change the support rate. Repeat until With regard to the access pattern candidates obtained in this way, when a hypertext directly linked by a link to the hypertext included in the access pattern candidate is added, the hypertext included in the access pattern candidate and the added hypertext are added. The number of users accessing at the same access is calculated as “the number of users 3”.
【0023】この時、“ユーザ数1”に対する“ユーザ
数3”の割合である支持度と、アクセス履歴全体のユー
ザ数に対する“ユーザ数3”の割合である最小支持度と
がそれぞれ予め与えられた支持度閾値と最小支持度閾値
を越えたハイパーテキストを追加したものを新たなアク
セスパターン候補とし、この操作を追加可能なハイパー
テキストが存在しなくなるまで繰り返して行う。そし
て、以上の過程によって得られたアクセスパターン候補
をアクセスパターンとして生成する。At this time, a support which is a ratio of "the number of users 3" to "the number of users 1" and a minimum support which is a ratio of "the number of users 3" to the number of users of the entire access history are given in advance. A hypertext exceeding the support threshold and the minimum support threshold is added as a new access pattern candidate, and this operation is repeated until there is no more hypertext that can be added. Then, an access pattern candidate obtained by the above process is generated as an access pattern.
【0024】従って、上記のような最小支持度ばかりで
なく、上記のような支持度も考慮されてアクセスパター
ンが生成されるため、例えばハイパーテキストシステム
内のアクセス数の多いリンク距離が浅いハイパーテキス
ト集合と同様に、アクセス数の比較的少ないリンク距離
が深いハイパーテキストについても、同じ領域のハイパ
ーテキストを訪れているユーザの中で特徴的なアクセス
パターンを発見することができる。なお、上記した所定
の最小支持度閾値や、所定の支持度閾値や、所定数とし
ては、例えば装置の使用状況等に応じて、種々な値が用
いられてもよい。Accordingly, since the access pattern is generated in consideration of not only the minimum support as described above but also the support as described above, for example, the hypertext system in which the number of accesses is large and the link distance is short is short. Similarly to a set, for a hypertext with a relatively small number of accesses and a deep link distance, a characteristic access pattern can be found among users who are visiting the hypertext in the same area. Note that various values may be used as the above-described predetermined minimum support threshold, the predetermined support threshold, and the predetermined number in accordance with, for example, the usage status of the apparatus.
【0025】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、更に、アクセスパターン生
成手段は、各種となるハイパーテキスト集合に関するア
クセスパターン候補生成処理及びアクセスパターン生成
処理を、種となるハイパーテキスト集合に含まれるハイ
パーテキストにアクセスしたユーザの数が小さい順に実
行し、当該アクセスパターン候補生成処理及び当該アク
セスパターン生成処理の過程において、前記追加して成
るハイパーテキスト集合の最小支持度或いは支持度の少
なくとも一方が前記所定の閾値(つまり、最小支持度閾
値或いは支持度閾値)未満であった場合には、当該ハイ
パーテキスト集合を構成するハイパーテキストの組合せ
パターンを特定する閾値未満情報を記憶し、当該アクセ
スパターン候補生成処理及び当該アクセスパターン生成
処理の過程において、前記追加して成るハイパーテキス
ト集合が記憶された閾値未満情報により特定される組合
せパターンの全てのハイパーテキストを包含することに
応じて、当該ハイパーテキスト集合を、アクセスパター
ン候補生成処理の過程においてはアクセスパターン候補
から除外し、アクセスパターン生成処理の過程において
はアクセスパターンから除外する。Further, in the hypertext access pattern analysis device according to the present invention, the access pattern generation means may execute an access pattern candidate generation process and an access pattern generation process relating to various hypertext sets as a seed hypertext set. Are executed in ascending order of the number of users who have accessed the hypertext included in the access pattern candidate generation process and the access pattern generation process. If one of them is less than the predetermined threshold value (that is, the minimum support threshold value or the support threshold value), information on the under-threshold information specifying the combination pattern of the hypertexts constituting the hypertext set is stored. Pattern candidate In the process of the processing and the access pattern generation processing, the hypertext set is added in response to the additional hypertext set including all the hypertexts of the combination pattern specified by the stored information less than the threshold. In the course of the access pattern candidate generation processing, it is excluded from the access pattern candidates, and in the course of the access pattern generation processing, it is excluded from the access patterns.
【0026】なお、本発明の更に具体的な態様の一例を
示すと、アクセスパターン生成手段は、アクセスしたユ
ーザ数の少ない順に順序付けされた種について、ユーザ
数の少ない種から順にアクセスパターンを生成するよう
にし、この場合に、種からアクセスパターンを生成する
過程において、最小支持度が最小支持度閾値未満であっ
た或いは支持度が支持度閾値未満であったハイパーテキ
スト集合を生成過程保持手段で記録する。そして、それ
ぞれの種からアクセスパターン候補やアクセスパターン
を生成する際に、以前の処理過程において生成過程保持
手段で保持されたハイパーテキスト集合を部分パターン
として有するハイパーテキスト集合については最小支持
度或いは支持度が閾値に満たないとしてアクセスパター
ン候補やアクセスパターンから除外する。As an example of a more specific aspect of the present invention, the access pattern generating means generates an access pattern in the order of the number of accessed users in descending order of the number of users. In this case, in the process of generating an access pattern from a seed, a hypertext set whose minimum support is less than the minimum support threshold or whose support is less than the support threshold is recorded by the generation process holding means. I do. Then, when generating an access pattern candidate or an access pattern from each species, a minimum support or support level is set for a hypertext set having, as a partial pattern, the hypertext set held by the generation process holding means in the previous process. Is less than the threshold value and is excluded from the access pattern candidates and access patterns.
【0027】従って、アクセスしたユーザの数が少ない
順に各種となるハイパーテキスト集合に関するアクセス
パターン候補生成処理やアクセスパターン生成処理が実
行されて、既に最小支持度や支持度が閾値未満であると
判定されたパターンを含むハイパーテキスト集合につい
ては、当該判定を行うことなく、アクセスパターン候補
やアクセスパターンから除外することが行われるため、
アクセスパターン生成処理の効率化を図ることができ
る。Therefore, access pattern candidate generation processing and access pattern generation processing relating to various hypertext sets in the descending order of the number of accessed users are executed, and it is determined that the minimum support and the support are already less than the threshold. For the hypertext set including the pattern, the pattern is excluded from the access pattern candidates and the access pattern without performing the determination.
The efficiency of the access pattern generation processing can be improved.
【0028】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、ハイパーテキストシステム
により提供されるハイパーテキストにアクセスしたユー
ザの数に対する対象とするハイパーテキスト集合に含ま
れる全てのハイパーテキストに同一アクセス時にアクセ
スしたユーザの数の割合を最小支持度とするとともに、
対象とするクラスタに含まれるハイパーテキストにアク
セスしたユーザの数に対する対象とするハイパーテキス
ト集合に含まれる全てのハイパーテキストに同一アクセ
ス時にアクセスしたユーザの数の割合を支持度とし、ハ
イパーテキストシステムにより提供されるハイパーテキ
ストにアクセスしたユーザの数に対する対象とするハイ
パーテキスト集合に含まれる全てのハイパーテキストに
同一アクセス時に同一順序でアクセスしたユーザの数の
割合を同一順序最小支持度とするとともに、対象とする
クラスタに含まれるハイパーテキストにアクセスしたユ
ーザの数に対する対象とするハイパーテキスト集合に含
まれる全てのハイパーテキストに同一アクセス時に同一
順序でアクセスしたユーザの数の割合を同一順序支持度
とする。Further, in the hypertext access pattern analyzing apparatus according to the present invention, all the hypertexts included in the target hypertext set with respect to the number of users accessing the hypertext provided by the hypertext system are accessed at the same time. The ratio of the number of users who accessed the site is the minimum support,
The ratio of the number of users who accessed all hypertexts included in the target hypertext set at the same access to the number of users accessing hypertexts included in the target cluster as the support level is provided by the hypertext system. The ratio of the number of users who accessed in the same order to all hypertexts included in the target hypertext set with respect to the number of users who accessed the hypertext to be performed in the same order as the minimum order of the same order, The ratio of the number of users accessing the hypertext included in the target hypertext set to the number of users accessing the hypertext included in the target cluster in the same order at the same access to the number of users accessing the hypertext included in the target cluster is defined as the same order support.
【0029】ここで、対象とするハイパーテキスト集合
に含まれる全てのハイパーテキストに同一アクセス時に
同一順序でアクセスしたユーザの数(以下で、ユーザ数
Dと言う)とは、例えばアクセスの順序についても同一
であって当該全てのハイパーテキストに同一アクセス時
にアクセスしたユーザの数のことである。なお、上記し
たユーザ数Aとユーザ数Dを用いると、同一順序最小支
持度は例えば(ユーザ数D/ユーザ数A)で表される。
また、上記したユーザ数Cとユーザ数Dを用いると、同
一順序支持度は例えば(ユーザ数D/ユーザ数C)で表
される。Here, the number of users who access all the hypertexts included in the target hypertext set in the same order at the same access (hereinafter referred to as the number of users D) means, for example, the access order. This is the number of users who are the same and have accessed all the hypertexts at the same time. When the number of users A and the number of users D described above are used, the same order minimum support is expressed by, for example, (number of users D / number of users A).
When the number of users C and the number of users D are used, the same order support is represented by, for example, (number of users D / number of users C).
【0030】そして、アクセスパターン生成手段は、ま
ず、対象とするクラスタに含まれる複数のハイパーテキ
ストを組み合わせて成るハイパーテキスト集合の中で、
最小支持度が所定の最小支持度閾値以上であり且つ支持
度が所定の支持度閾値以上であるハイパーテキスト集合
を選択し、選択したハイパーテキスト集合の中で、同一
順序最小指示度が所定の同一順序最小支持度閾値以上で
あり且つ同一順序支持度が所定の同一順序支持度閾値以
上であり且つ含まれるハイパーテキストの数が所定数以
上であるハイパーテキスト集合を種とする。Then, the access pattern generating means firstly sets, in a hypertext set formed by combining a plurality of hypertexts included in the target cluster,
A hypertext set whose minimum support is equal to or greater than a predetermined minimum support threshold and whose support is equal to or greater than a predetermined support threshold is selected. A hypertext set whose order support is equal to or more than the minimum order support threshold, the same order support is equal to or larger than the predetermined same order support threshold, and the number of included hypertexts is equal to or larger than a predetermined number is used as a seed.
【0031】次に、ハイパーテキスト生成手段は、各種
となるハイパーテキスト集合に関して、当該種となるハ
イパーテキスト集合に含まれるハイパーテキストに直接
的にリンクで繋がれたハイパーテキストを当該ハイパー
テキスト集合に追加して成るハイパーテキスト集合及び
同様にして当該ハイパーテキスト集合に更に1以上のハ
イパーテキストを追加して成るハイパーテキスト集合の
中で、同一順序支持度が当該種となるハイパーテキスト
集合の同一順序支持度と同じであるハイパーテキスト集
合をアクセスパターン候補とする。Next, the hypertext generating means adds, to the hypertext set, hypertexts that are directly linked to hypertexts included in the hypertext set to be various types. And the same order support of the hypertext set having the same order support in the hypertext set obtained by adding one or more hypertexts to the hypertext set in the same manner. The hypertext set which is the same as that described above is set as an access pattern candidate.
【0032】そして、アクセスパターン生成手段は、各
アクセスパターン候補に関して、当該アクセスパターン
候補に含まれるハイパーテキストに直接的にリンクで繋
がれたハイパーテキストを当該アクセスパターン候補に
追加して成るハイパーテキスト集合及び同様にして当該
ハイパーテキスト集合に更に1以上のハイパーテキスト
を追加して成るハイパーテキスト集合の中で、最小支持
度が所定の最小支持度閾値以上であり且つ支持度が所定
の支持度閾値以上であるハイパーテキスト集合を選択
し、選択したハイパーテキスト集合の中で、同一順序最
小指示度が所定の同一順序最小支持度閾値以上であり且
つ同一順序支持度が所定の同一順序支持度閾値以上であ
るハイパーテキスト集合をアクセスパターンとする。Then, the access pattern generating means adds, to each access pattern candidate, a hypertext set obtained by adding a hypertext directly linked to the hypertext included in the access pattern candidate to the access pattern candidate. And similarly, in a hypertext set obtained by further adding one or more hypertexts to the hypertext set, the minimum support is equal to or greater than a predetermined minimum support threshold and the support is equal to or greater than a predetermined support threshold. Is selected, and in the selected hypertext set, the same order minimum indicating degree is equal to or greater than a predetermined same order minimum supporting threshold and the same order supporting degree is equal to or greater than a predetermined same order supporting degree threshold. Let a certain hypertext set be an access pattern.
【0033】従って、例えば単に各ユーザがアクセスし
たか否かに基づくアクセスパターンではなく、各ユーザ
のアクセス順序が一致するアクセスパターンが生成され
て提示されるため、ユーザのアクセス動向を正確に反映
したアクセスパターンを分析者に提示することができ
る。なお、上記した所定の最小支持度閾値や、所定の支
持度閾値や、所定の同一順序最小支持度閾値や、所定の
同一順序支持度閾値や、所定数としては、例えば装置の
使用状況等に応じて、種々な値が用いられてもよい。Therefore, for example, an access pattern that matches the access order of each user is generated and presented instead of an access pattern based merely on whether or not each user has accessed, so that the access trend of the user is accurately reflected. The access pattern can be presented to the analyst. The predetermined minimum support threshold, the predetermined support threshold, the predetermined same-order minimum support threshold, the predetermined same-order support threshold, and the predetermined number are, for example, depending on the usage status of the device. Various values may be used accordingly.
【0034】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、ハイパーテキスト分類手段
は複数のハイパーテキストを階層関係のある複数のクラ
スタに分類し、アクセスパターン提示手段はアクセスパ
ターンの種となるハイパーテキスト集合の属するクラス
タの階層が深い順であって当該アクセスパターンに含ま
れるハイパーテキストにアクセスしたユーザの数が多い
順に、自己の属する種以外の種を包含するアクセスパタ
ーン及び当該自己の属する種以外の種から生成されたア
クセスパターンを提示する。In the hypertext access pattern analysis device according to the present invention, the hypertext classifying means classifies the plurality of hypertexts into a plurality of clusters having a hierarchical relationship, and the access pattern presenting means sets the hypertext as a seed of the access pattern. An access pattern that includes a species other than the species to which the user belongs, and an access pattern that includes species other than the species to which the user belongs. Presents the access patterns generated from the seeds.
【0035】ここで、アクセスパターンに含まれるハイ
パーテキストにアクセスしたユーザの数とは、例えば当
該アクセスパターンに含まれる少なくとも1つのハイパ
ーテキストにアクセスしたユーザの数であって、同一の
ユーザが2つ以上のハイパーテキストにアクセスした場
合には当該同一のユーザを1人のユーザとしてカウント
する。Here, the number of users who have accessed the hypertext included in the access pattern is, for example, the number of users who have accessed at least one hypertext included in the access pattern. When the above hypertext is accessed, the same user is counted as one user.
【0036】なお、本発明の更に具体的な態様の一例を
示すと、ハイパーテキスト分類手段はハイパーテキスト
を階層関係のあるクラスタに分類し、アクセスパターン
保持手段が生成されたアクセスパターンとその元となっ
た種とのペアを保持する。そして、保持されたペアとな
る種の属するクラスタの階層が深く、アクセスパターン
を共有するユーザの数が多いものから順に、他の種を一
部として含むアクセスパターンを探し、アクセスパター
ン提示手段は、発見されたアクセスパターンと、当該ア
クセスパターンに含まれる当該他の種から生成されたア
クセスパターンとを、分析者に、クラスタの階層関係と
アクセスパターンが含むハイパーテキストの数とアクセ
スパターンを共有するユーザの数に基づいて順位付けし
て提示する。As an example of a more specific embodiment of the present invention, the hypertext classifying means classifies the hypertext into clusters having a hierarchical relationship, and the access pattern holding means stores the generated access pattern and its source. Keep the pair with the seed that became. Then, a search is made for access patterns that include other species as a part, in order from a cluster having a deeper cluster to which the held paired species belongs and a large number of users sharing the access pattern. A user who shares the discovered access pattern and the access pattern generated from the other species included in the access pattern with the analyst, sharing the hierarchical relationship of the cluster, the number of hypertexts included in the access pattern, and the access pattern. It is ranked and presented based on the number of.
【0037】従って、種となるハイパーテキスト集合の
属するクラスタの階層が深い順であって含まれるハイパ
ーテキストにアクセスしたユーザの数が多い順に、自己
の属する種以外の種を包含するアクセスパターン及び当
該自己の属する種以外の種から生成されたアクセスパタ
ーンが提示されるため、分析者にとって興味深いと考え
られるアクセスパターンを提示することができる。Accordingly, an access pattern including a species other than the species to which the user belongs and the access pattern and the corresponding Since an access pattern generated from a species other than the species to which the subject belongs is presented, an access pattern considered to be interesting for the analyst can be presented.
【0038】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、受付手段がアクセスパター
ンの指定をユーザから受け付け、ハイパーテキスト提示
手段が指定されたアクセスパターンに含まれるハイパー
テキストと、当該アクセスパターンの種となるハイパー
テキスト集合の属するクラスタに含まれるハイパーテキ
ストの中で当該種となるハイパーテキスト集合に含まれ
るハイパーテキストと直接的にリンクで繋がれたハイパ
ーテキストと、当該アクセスパターンの種となるハイパ
ーテキスト集合の属するクラスタに含まれるハイパーテ
キストの中で当該種となるハイパーテキスト集合に含ま
れるハイパーテキストから当該アクセスパターンに含ま
れる任意の1つのハイパーテキストを経由して到達する
ことが可能なハイパーテキストとを提示対象とし、当該
指定されたアクセスパターンに含まれるハイパーテキス
トと他のハイパーテキスト(つまり、当該アクセスパタ
ーンに含まれないハイパーテキスト)との提示態様を異
ならせて、ユーザのアクセス数が最大のハイパーテキス
トを根として当該提示対象となるハイパーテキストを木
構造で提示する。Further, in the hypertext access pattern analysis device according to the present invention, the accepting means accepts the designation of the access pattern from the user, and the hypertext presenting means acquires the hypertext included in the designated access pattern and the hypertext included in the designated access pattern. Among the hypertexts included in the cluster to which the seed hypertext set belongs, the hypertext directly connected to the hypertext included in the seed hypertext set by a link, and the hypertext as the seed of the access pattern. A hypertext that can be reached from the hypertext included in the hypertext set as the seed among the hypertexts included in the cluster to which the text set belongs via any one hypertext included in the access pattern. Text and the hypertext included in the specified access pattern and another hypertext (that is, the hypertext not included in the access pattern) are provided in a different manner, so that the number of accesses of the user is reduced. The hypertext to be presented is presented in a tree structure with the largest hypertext as the root.
【0039】なお、本発明の更に具体的な態様の一例を
示すと、ユーザが任意のアクセスパターンを指定すると
受付手段が当該指定を受け付け、指定されたアクセスパ
ターン中のハイパーテキストを表示用ハイパーテキスト
集合として保持し、種の属するクラスタ内のハイパーテ
キストのうち、アクセスパターンの元となった種に含ま
れるハイパーテキストから直接リンクで繋がれたハイパ
ーテキストを表示用ハイパーテキスト集合として保持
し、種の属するクラスタ内のハイパーテキストのうち、
アクセスパターンの元となった種に含まれるハイパーテ
キストからアクセスパターン内の任意の一つのハイパー
テキストを経由して到達可能なハイパーテキストを表示
用ハイパーテキスト集合として保持する。そして、アク
セスパターン提示手段は、表示用ハイパーテキスト集合
として保持されたハイパーテキストを、ユーザのアクセ
ス数が最大のハイパーテキストを根として木構造表示
し、これに際して、指定されたアクセスパターンに含ま
れるハイパーテキストと含まれないハイパーテキストと
を識別可能な形でユーザに提示する。As an example of a more specific embodiment of the present invention, when the user designates an arbitrary access pattern, the accepting means accepts the designation and displays the hypertext in the designated access pattern for displaying the hypertext. It is stored as a set, and among the hypertexts in the cluster to which the species belongs, the hypertext directly linked by a link from the hypertext included in the species that is the source of the access pattern is stored as a display hypertext set, and the Of the hypertext in the cluster to which it belongs,
The hypertext that can be reached from the hypertext included in the seed that is the source of the access pattern via any one hypertext in the access pattern is stored as a display hypertext set. Then, the access pattern presenting means displays the hypertext held as the display hypertext set in a tree structure with the hypertext having the largest number of accesses by the user as a root, and at this time, the hypertext included in the designated access pattern is displayed. Text and hypertext not included are presented to the user in an identifiable manner.
【0040】従って、ユーザからの指定に従って、指定
されたアクセスパターンに含まれるハイパーテキストと
他のハイパーテキストとの提示態様を異ならせて提示対
象となるハイパーテキストを提示することや、ユーザの
アクセス数が最大のハイパーテキストを根として提示対
象となるハイパーテキストを木構造で提示することが行
われるため、分析者にとって提示内容を見易く把握し易
くすることができる。Therefore, according to the designation from the user, the presentation mode of the hypertext included in the designated access pattern is made different from that of another hypertext to present the hypertext to be presented. Since the hypertext to be presented is presented in a tree structure with the largest hypertext as the root, it is possible for the analyst to easily see and grasp the presented content.
【0041】ここで、指定されたアクセスパターンに含
まれるハイパーテキストと他のハイパーテキストとの提
示態様を異ならせる方法としては、種々な方法が用いら
れてもよく、要は、指定されたアクセスパターンに含ま
れるハイパーテキストと他のハイパーテキストとが識別
可能なように提示されればよい。Here, various methods may be used as a method for making the presentation mode of the hypertext included in the designated access pattern different from that of the other hypertexts. What is necessary is to be presented so that the hypertext included in the.
【0042】また、以上に示したような本発明に係る各
種の処理は、例えば記憶媒体に記憶されたプログラムを
コンピュータにより読み取って実行することにより実現
することも可能である。一例として、本発明に係る記憶
媒体は、コンピュータに実行させるプログラムを当該コ
ンピュータの入力手段が読取可能に記憶しており、当該
プログラムは、ハイパーテキストシステムにより提供さ
れる複数のハイパーテキストを各ハイパーテキストの内
容に基づいて複数のクラスタに分類する処理と、ハイパ
ーテキストに対するユーザ毎のアクセス履歴を検出する
処理と、検出されたユーザ毎のアクセス履歴に基づい
て、各クラスタに関して、当該クラスタに含まれる複数
のハイパーテキストを組合せて成るハイパーテキスト集
合の中で、ハイパーテキスト集合に含まれる全てのハイ
パーテキストに同一アクセス時にアクセスしたユーザの
割合が所定値以上であるハイパーテキスト集合を種と
し、種となるハイパーテキスト集合に含まれるハイパー
テキストにリンクで繋がれたハイパーテキストを当該ハ
イパーテキスト集合に追加して成るアクセスパターンを
生成する処理と、生成されたアクセスパターンを提示す
る処理とを当該コンピュータに実行させる。The various processes according to the present invention as described above can also be realized by, for example, reading and executing a program stored in a storage medium by a computer. As an example, the storage medium according to the present invention stores a program to be executed by a computer in a manner readable by input means of the computer, and the program stores a plurality of hypertexts provided by a hypertext system in each hypertext system. A process of classifying into a plurality of clusters based on the content of the hypertext, a process of detecting an access history of each user with respect to the hypertext, and a process of detecting a plurality of clusters included in the cluster based on the detected access history of each user. Of the hypertext set that combines all the hypertexts included in the hypertext set as a seed, and a hypertext set in which the percentage of users accessing the hypertext at the same access is equal to or more than a predetermined value is used as a seed. Included in text set And generating an access pattern comprising a hypertext connected by links to Lee hypertext in addition to the hypertext set, it causes the process of presenting the generated access pattern executed on the computer.
【0043】[0043]
【発明の実施の形態】本発明に係る一実施例を図面を参
照して説明する。図1には、本実施例に係るハイパーテ
キストアクセスパターン解析装置を備えたシステムの一
例を示してあり、このシステムには、コンテンツ提供部
11やアクセス履歴記録部12を有したWebサーバ1
と、アクセス履歴検出手段を構成するアクセス履歴前処
理部2と、ハイパーテキスト分類手段を構成するハイパ
ーテキスト分類部3と、順序付け手段を構成する順序付
け部4と、アクセスパターン生成手段を構成するアクセ
スパターン生成部5と、アクセスパターン保持手段を構
成するアクセスパターン保持部6と、アクセスパターン
提示手段を構成するアクセスパターン提示部7と、ユー
ザからの指示等をキーボードやマウス等により受け付け
る受付手段を構成する受付部(図示せず)とが備えられ
ている。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment according to the present invention will be described with reference to the drawings. FIG. 1 shows an example of a system including a hypertext access pattern analysis device according to the present embodiment. The system includes a Web server 1 having a content providing unit 11 and an access history recording unit 12.
An access history preprocessing unit 2 forming an access history detecting unit; a hypertext classifying unit 3 forming a hypertext classifying unit; an ordering unit 4 forming an ordering unit; and an access pattern forming an access pattern generating unit. The generating unit 5, the access pattern holding unit 6 that forms the access pattern holding unit, the access pattern presenting unit 7 that forms the access pattern presenting unit, and the receiving unit that receives instructions and the like from the user by using a keyboard, a mouse, or the like. A reception unit (not shown) is provided.
【0044】Webサーバ1は、ハイパーテキストシステ
ムの一例に相当するものであり、ネットワーク上で情報
を発信する機能を有している。Webサーバ1には、ユー
ザに提供したい情報(コンテンツ)がハイパーテキストで
貯えられている。Webサーバ1は、ユーザからのアクセ
スに従ってコンテンツ提供部11によりコンテンツを提
供し、また、アクセス履歴記録部12により、ユーザか
らのアクセスがある度毎に、ユーザを識別するための識
別子(IPアドレス)・時刻・ユーザがアクセスしたハイパ
ーテキストのアドレス(URL)を記録する。The Web server 1 is equivalent to an example of a hypertext system, and has a function of transmitting information on a network. The web server 1 stores information (contents) to be provided to the user as hypertext. The Web server 1 provides the content by the content providing unit 11 according to the access from the user, and the identifier (IP address) for identifying the user every time the user accesses by the access history recording unit 12.・ Time ・ Record the hypertext address (URL) accessed by the user.
【0045】ここで、サーバ側で記録されるIPアドレス
は、実際にユーザが利用しているクライアントからのア
クセスを代行するプロキシサーバーと呼ばれるコンピュ
ータのIPアドレスである事もある。この場合には、複数
のユーザが同一のIPアドレスを用いる事になる。そこ
で、本実施例では、サーバにアクセスしたコンピュータ
のIPアドレスとアクセス間隔とによりユーザの識別を行
う。すなわち、同じIPアドレスを用いたアクセスであっ
ても、予め設定された所定の時間間隔よりもアクセスし
た時間間隔が大きかった場合には、異なるユーザからの
アクセスとして識別する。Here, the IP address recorded on the server side may be the IP address of a computer called a proxy server which performs access from a client actually used by a user. In this case, a plurality of users use the same IP address. Therefore, in this embodiment, the user is identified based on the IP address of the computer that has accessed the server and the access interval. That is, even if access is performed using the same IP address, if the access time interval is longer than a predetermined time interval set in advance, the access is identified as access from a different user.
【0046】なお、本発明において用いられるアクセス
履歴としては、必ずしも上記のようなものに限られず、
例えば特開平10−224349号公報に記載された発
明のようにプロキシで記録されたアクセス履歴をあわせ
て用いる事によりユーザを識別したものを用いることも
でき、また、例えば特開平10−207838号公報に
記載された発明のようにJavaアプレット等のクライアン
ト側にアクセス通知の機構をもつ仕組みによって記録さ
れたアクセス履歴を用いることもでき、要は、例えばユ
ーザがアクセスした情報の場所やアクセスした順序がわ
かるようなものであればよい。The access history used in the present invention is not necessarily limited to the one described above.
For example, as disclosed in Japanese Patent Application Laid-Open No. H10-224349, a system in which a user is identified by using an access history recorded by a proxy together can be used. It is also possible to use an access history recorded by a mechanism having an access notification mechanism on the client side, such as a Java applet, as in the invention described in (1). In short, for example, the location of information accessed by the user and the Anything that can be understood may be used.
【0047】アクセス履歴前処理部2は、上記した識別
子と当該識別子を有するユーザがアクセスしたハイパー
テキストを時系列順に取り出し、各ユーザが訪れたハイ
パーテキスト集合を以降において当該各ユーザ毎の新た
なアクセス履歴として用いる機能を有している。The access history preprocessing unit 2 extracts the identifiers and the hypertexts accessed by the users having the identifiers in chronological order, and thereafter retrieves a set of hypertexts visited by each user for a new access for each user. It has a function to use as a history.
【0048】次に、ハイパーテキスト分類部3は、Web
サーバ1に蓄えられたコンテンツをクラスタに分類する
機能を有している。ハイパーテキスト分類部3の実現方
法としては、一例として、予め図2に示すようなシソー
ラスを与え、それぞれの語を分類子として、各ハイパー
テキストに予め分類をRDF(Resource Description Frame
work)などの枠組みを用いて記述しておく方法を用いる
ことができる。この場合には、同じ分類に属するハイパ
ーテキストを一つのクラスタとする方法や、シソーラス
の根からの深さが同じ分類に属するものを一つのクラス
タとする方法等を用いることができる。Next, the hypertext classification unit 3
It has a function of classifying the content stored in the server 1 into clusters. As an example of a method of realizing the hypertext classification unit 3, a thesaurus as shown in FIG. 2 is given in advance, and each word is used as a classifier, and the classification is preliminarily assigned to each hypertext using an RDF (Resource Description Frame).
work) or other framework can be used. In this case, a method of using hypertexts belonging to the same classification as one cluster, a method of belonging to the classification having the same depth from the root of the thesaurus as one cluster, or the like can be used.
【0049】ここで、具体例として、図3に示すサイト
構成(○が一つのハイパーテキストを表す)と上記図2に
示したシソーラスがあったとする。この場合、例えばユ
ーザが図3中のハイパーテキストB、G、Kを“商品”に
分類し、ハイパーテキストF、I、Lを“価格”に分類
し、ハイパーテキストC、D、E、H、Jを“機能”に分類
したとすると、分類子毎にクラスタを構成するときに
は、クラスタとして{B,G,K}、{F,I,L}、{C,D,E,H,J}と
いう3つの集合が生成される。また、分類子毎にクラス
タを構成するのではなく、シソーラスの階層で区切って
クラスタを構成するときには、クラスタとして{B,G,
K}、{C,D,E,H,J,F,I,L}という2つの初期集合が形成
される。なお、クラスタ{B,G,K}とはハイパーテキス
トB、G、Kから成るクラスタを表し、他のクラスタにつ
いても同様である。Here, as a specific example, it is assumed that there is a site configuration shown in FIG. 3 (O represents one hypertext) and the thesaurus shown in FIG. In this case, for example, the user classifies the hypertexts B, G, and K in FIG. 3 into “products”, classifies the hypertexts F, I, and L into “price”, and hypertexts C, D, E, H, and Assuming that J is classified into “functions”, when constructing a cluster for each classifier, {B, G, K}, {F, I, L}, {C, D, E, H, J} Are generated. Also, when clusters are formed not by classifiers but by the thesaurus hierarchy, 階層 B, G,
Two initial sets are formed, K} and {C, D, E, H, J, F, I, L}. Note that the cluster {B, G, K} represents a cluster composed of hypertexts B, G, and K, and the same applies to other clusters.
【0050】以降では、シソーラスの階層で区切ってク
ラスタを構成する場合(後者として示したもの)を例とし
て説明を進める。なお、ハイパーテキスト分類部3によ
りハイパーテキストを分類する方法としては、必ずしも
本実施例に示したものに限られず、例えばハイパーテキ
ストで記述された内容・コンテンツに基づいて、Webサ
イトの構築者の意図を反映するようなものであればよ
い。例えば、ハイパーテキストに記述されたテキストか
ら単語の出現頻度を抽出し、ハイパーテキスト間の単語
出現頻度の類似性を公知のVector Space Modelで評価
し、単語類似度に基づいて公知の階層的クラスタリング
手法を適用することにより得られたクラスタを用いるこ
とも可能である。なお、上記したVector Space Modelは
例えば「G.Salton, “Developments in automatic text
retrieval”,Science,253,1991」で開示されており、
上記した階層的クラスタリング手法は例えば「Ellen M.
Voohres, “IMPLEMENTING AGGLOMERATIVEHERARCHIC CL
USTERING ALGORITHMS FOR USE IN DOCUMENT RETRIEVA
L”,Information Processing & Management, Vol.22,N
o.6,pp.465-476,1986」で開示されている。Hereinafter, the description will be given by taking as an example a case where a cluster is constituted by being divided by the thesaurus hierarchy (shown as the latter). The method of classifying the hypertext by the hypertext classification unit 3 is not necessarily limited to the method described in the present embodiment. For example, based on the content / content described in the hypertext, It should just be something which reflects. For example, the frequency of occurrence of words is extracted from the text described in the hypertext, the similarity of the frequency of occurrence of words between the hypertexts is evaluated using a known Vector Space Model, and a known hierarchical clustering method based on the word similarity is used. It is also possible to use a cluster obtained by applying. The above-mentioned Vector Space Model is described in, for example, “G. Sallton,“ Developments in automatic text
retrieval ”, Science, 253, 1991”
The above-described hierarchical clustering method is described in, for example, `` Ellen M.
Voohres, “IMPLEMENTING AGGLOMERATIVEHERARCHIC CL
USTERING ALGORITHMS FOR USE IN DOCUMENT RETRIEVA
L ”, Information Processing & Management, Vol. 22, N
o. 6, pp. 465-476, 1986 ".
【0051】次に、順序付け部4は、クラスタを当該ク
ラスタに属するハイパーテキストを訪れたユーザ数によ
って順序付けする機能を有している。ユーザ数を数え上
げる際には、複数のハイパーテキストを訪れているユー
ザについては1回のみカウントする。本実施例では、ユ
ーザ数に関して、クラスタ{B,G,K}を訪れたユーザの
数がクラスタ{C,D,E,H,J,F,I,L}を訪れたユーザの数
より多い(User({B,G,K}) > User({C,D,E,H,J,F,I,
L})という関係が成り立っているとする。Next, the ordering section 4 has a function of ordering the clusters according to the number of users who have visited the hypertext belonging to the cluster. When counting the number of users, a user visiting a plurality of hypertexts is counted only once. In this embodiment, regarding the number of users, the number of users who visited the clusters {B, G, K} is larger than the number of users who visited the clusters {C, D, E, H, J, F, I, L} (User ({B, G, K})> User ({C, D, E, H, J, F, I,
Suppose that the relationship L}) holds.
【0052】次に、アクセスパターン生成部5は、ユー
ザ数が少ないクラスタから順にアクセスパターンを生成
する機能を有している。本実施例では、このようにユー
ザ数が少ない順に生成することで、詳細を後述するよう
にアクセスパターン生成過程における処理の効率化を行
っている。Next, the access pattern generation unit 5 has a function of generating an access pattern in order from a cluster having a small number of users. In the present embodiment, the efficiency of the processing in the access pattern generation process is improved as described in detail later by generating the data in the order of the small number of users.
【0053】図4には、アクセスパターン生成部5の構
成例を示してあり、本実施例のアクセスパターン生成部
5には、クラスタ内の同時アクセスパターンの発見部2
1と、種をアクセスパターンに成長させるための構成部
である支持度を変化させないアクセスパターンの発見部
22及び支持度条件を満たすアクセスパターンの発見部
23と、生成過程保持手段を構成する生成過程保持部2
4とが備えられている。FIG. 4 shows an example of the configuration of the access pattern generation unit 5. The access pattern generation unit 5 of this embodiment includes a simultaneous access pattern discovery unit 2 in a cluster.
1, an access pattern finding unit 22 that does not change the support, which is a component for growing a seed into an access pattern, an access pattern finding unit 23 that satisfies the support condition, and a generation process that constitutes a generation process holding unit Holder 2
4 are provided.
【0054】まず、クラスタ内の同時アクセスパターン
の発見部21は、対象となるクラスタ内のハイパーテキ
ストについて、ユーザが同時に訪れる傾向が高いハイパ
ーテキストの組合わせ(同時アクセスパターン)を発見
する機能を有している。クラスタ内のハイパーテキスト
は、Webサイトの構築者が類似した情報或いは関連のあ
る情報であるとみなしたハイパーテキストの集合であ
り、それらのハイパーテキスト間の関係を発見すること
は、Webサイトの構築者(分析者)にとって興味深いもの
となると考えられる。そこで、アクセスパターン生成部
5では,クラスタ内の同時アクセスパターンを種として
得た後に、当該種を訪れたユーザがどのようにWebサイ
ト内を巡回したのかを分析し、多くのユーザに共通する
アクセスパターンを得る。First, the simultaneous access pattern finding unit 21 in a cluster has a function of finding a combination (simultaneous access pattern) of hypertexts that the user tends to visit at the same time for the hypertexts in the target cluster. are doing. A hypertext in a cluster is a collection of hypertexts that a website creator considers to be similar or related information, and discovering the relationship between those hypertexts is It will be interesting for the analyst. Therefore, the access pattern generation unit 5 obtains a simultaneous access pattern in the cluster as a seed, analyzes how users who visited the seed have visited the Web site, and obtains an access common to many users. Get the pattern.
【0055】また、様々なアクセスを行っているユーザ
に関するアクセスパターンとして興味深いのは多くのユ
ーザに共通するアクセスパターンである。そこで、パタ
ーンの興味深さの尺度として、アクセスをしているユー
ザ全体に対する所定のパターンを共有しているユーザの
割合(以降 支持度と言う)を用いる。本発明では、個々
のクラスタを基準にアクセスパターンを生成しているの
で、クラスタ(初期集合)内に属するハイパーテキスト
にアクセスしたユーザ全体に対するアクセスパターンを
共有するユーザの割合を支持度として用いる。An interesting access pattern for users making various accesses is an access pattern common to many users. Therefore, as a measure of the depth of interest of the pattern, the ratio of users who share the predetermined pattern to all users who access (hereinafter referred to as support) is used. In the present invention, since an access pattern is generated based on individual clusters, the ratio of users who share the access pattern to all users who have accessed the hypertext belonging to the cluster (initial set) is used as support.
【0056】しかし、この支持度のみでは、クラスタに
属するハイパーテキストにアクセスしたユーザの数が極
端に少ない場合には、サイト全体から見ればごく少数の
ユーザにしか共有されていないパターンが発見されてし
まうことになる。そこで、サイト全体に属するユーザ数
(つまり、Webサーバ1により提供されるハイパーテキ
ストにアクセスしたユーザ全体の数)に対するパターン
を共有するユーザ数の割合を最小支持度として併せて用
いる。このように二つの支持度を用いることで、アクセ
ス数の多い領域ばかりでなく、少ない領域のそれぞれに
おいても適切にパターンを発見することが可能となる。However, if the number of users who have accessed the hypertext belonging to the cluster is extremely small using only this support level, a pattern that is shared by only a small number of users when viewed from the entire site is discovered. Will be lost. Therefore, the ratio of the number of users sharing the pattern to the number of users belonging to the entire site (that is, the total number of users accessing the hypertext provided by the Web server 1) is also used as the minimum support. By using two degrees of support in this way, it is possible to appropriately find a pattern not only in a region with a large number of accesses but also in a region with a small number of accesses.
【0057】上記したクラスタ内の同時アクセスパター
ンの発見部21は、クラスタに含まれる2以上のハイパ
ーテキストの様々な組合わせ(つまり、クラスタに含ま
れる一部のハイパーテキストの組み合わせ、或いは、ク
ラスタに含まれる全部のハイパーテキストの組合せ)に
おいて、最小支持度と支持度がそれぞれ予め与えられた
最小支持度閾値と支持度閾値より高い組合わせを探索す
る。探索された組合わせのうち、例えば他の組合わせに
含まれず、且つ、探索された組合わせに含まれるハイパ
ーテキストの数が予め与えられた数以上の組合わせを種
とし、二つの支持度の閾値を満たさなかった組合わせに
ついては生成過程保持部24で保持する。このとき、最
小支持度と支持度は次の式で算出される。The above-described simultaneous access pattern finding unit 21 in the cluster performs various combinations of two or more hypertexts included in the cluster (that is, a combination of some hypertexts included in the cluster or a combination of the hypertexts included in the cluster). In all the included hypertext combinations), a search is made for a combination in which the minimum support and the support are higher than a predetermined minimum support threshold and a support threshold, respectively. Among the searched combinations, for example, a combination that is not included in other combinations and has the number of hypertexts included in the searched combination that is equal to or greater than a given number is used as a seed, and two support levels are set. Combinations that do not satisfy the threshold are held in the generation process holding unit 24. At this time, the minimum support and the support are calculated by the following equations.
【0058】[0058]
【数1】 (Equation 1)
【0059】[0059]
【数2】 (Equation 2)
【0060】例えば、上記した初期集合(クラスタ)の
うち、ユーザ数の少ない{C,D,E,H,J,F,I,L}について、
パターンPt(F,I,L)、パターンPt(C,D,F)がアクセスパタ
ーン候補の種として生成される場合には、生成過程保持
部24には他のパターンの集合{Pt(D,E),Pt(C,H),…}
が保持されることになる。なお、パターンPt(F,I,L)は
ハイパーテキストF、I、Lから成るアクセスパターンを
表し、他のパターンについても同様である。For example, of the above initial set (cluster), for {C, D, E, H, J, F, I, L} with a small number of users,
When the pattern Pt (F, I, L) and the pattern Pt (C, D, F) are generated as access pattern candidate seeds, the generation process holding unit 24 stores another pattern set {Pt (D, E), Pt (C, H),…}
Will be held. Note that the pattern Pt (F, I, L) represents an access pattern composed of hypertexts F, I, and L, and the same applies to other patterns.
【0061】また、初期集合(クラスタ)内の同時アク
セスパターンの発見処理を高速に実現するための手段と
して、例えば特開平8−287106号公報に記載され
た公知の手法を用いることもできる。なお、参考とし
て、この公知の手法では、大規模データベースを高速に
マイニングすることを目的として、データベースに記憶
された消費者取引の品目セットの中でユーザにより定義
された最小支持値(最小回数)でデータベースに現れる
品目セットを大品目セットとして識別し、当該大品目セ
ットがデータベース中に現れる回数と品目セットの特定
のサブセットがデータベース中に現れる回数とを比較す
ることで、品目セット間の相関法則を発見することが行
われている。As a means for realizing a process of finding a simultaneous access pattern in an initial set (cluster) at a high speed, a known method described in, for example, JP-A-8-287106 can be used. For reference, in this known method, a minimum support value (minimum number of times) defined by a user in an item set of a consumer transaction stored in a database for the purpose of rapidly mining a large-scale database. Identifies the set of items that appear in the database as a large item set, and compares the number of times that large item set appears in the database with the number of times that a particular subset of the item set appears in the database. It has been made to discover.
【0062】ここで、アクセス順序を考慮する場合を例
として、同時アクセスパターンの発見処理を説明する。
なお、アクセス順序を考慮する場合には、最初から順序
を考慮したパターンでユーザ数をカウントしたのでは計
算コストが大きくなってしまうため、順序を考慮しない
でユーザ数をカウントした後に、閾値を越えたものにつ
いて順序を考慮することとして計算コストを低減する。Here, the process of finding a simultaneous access pattern will be described by taking as an example a case where the access order is considered.
When considering the access order, counting the number of users in a pattern that considers the order from the beginning would increase the computational cost. The calculation cost is reduced by taking the order into consideration.
【0063】具体的には、最初に、一つ一つの組み合わ
せを生成する段階で、まずアクセス順序を考慮せずに最
小支持度と支持度を算出する。次に、最小支持度と支持
度がそれぞれの閾値以上である場合にのみ、アクセス順
序まで一致するユーザ数について最小支持度(同一順序
最小支持度)及び支持度(同一順序支持度)を算出す
る。そして、同一順序最小支持度と同一順序支持度との
双方がそれぞれの閾値以上であれば、更にハイパーテキ
ストを追加して組合わせの要素数を増やして、種となる
アクセスパターンを生成する。以降、全ての処理ステッ
プにおいてアクセス順序を考慮する場合には、同様の手
法を採用する。More specifically, first, at the stage of generating each combination, the minimum support and the support are calculated without considering the access order. Next, only when the minimum support and the support are equal to or more than the respective thresholds, the minimum support (the same order minimum support) and the support (the same order support) for the number of users who match up to the access order are calculated. . Then, if both the same-order minimum support and the same-order support are equal to or larger than the respective thresholds, a hypertext is further added to increase the number of elements in the combination, and a seed access pattern is generated. Hereinafter, when the access order is considered in all the processing steps, the same method is adopted.
【0064】次に、生成された種を元として、更にハイ
パーテキストを追加したアクセスパターンを生成する。
この過程の処理は、支持度を変化させないアクセスパタ
ーンの発見部22と、支持度条件を満たすアクセスパタ
ーンの発見部23との2つの処理部によって行われる。
本実施例では、種となるアクセスパターンに支持度と最
小支持度の尺度にしたがってハイパーテキストを追加す
ることでアクセスパターンを生成している。このため、
種となるアクセスパターンを共有するユーザの全てが閲
覧しているハイパーテキストは、最終的に生成されるア
クセスパターンに必ず含まれることになる。そこで,最
初にそのようなハイパーテキストを含むアクセスパター
ンを生成することで、全体でのアクセスパターン候補の
探索範囲を狭めることが可能となる。Next, an access pattern to which a hypertext is further added is generated based on the generated seed.
The process of this process is performed by two processing units: an access pattern finding unit 22 that does not change the support level and an access pattern finding unit 23 that satisfies the support level condition.
In this embodiment, an access pattern is generated by adding a hypertext to a seed access pattern according to the scale of support and minimum support. For this reason,
The hypertext viewed by all the users sharing the seed access pattern is always included in the finally generated access pattern. Therefore, by first generating an access pattern including such a hypertext, it becomes possible to narrow the search range of access pattern candidates as a whole.
【0065】ここで、上記した2つの処理部22、23
により行われる処理の詳細を具体的な例を用いて説明す
る。例えば、或るクラスタL0に関するアクセスパターン
の種としてL0={P00,P01,…,P0k}が与えられ、当該ク
ラスタL0以前にアクセスパターンが生成された過程で生
成過程保持部24に保持されているアクセスパターンの
集合をLCとする。ここで、それぞれのPはクラスタから
得られた種を表す。また、種Pの最初の(1番目の)添
え字やクラスタLの添え字は、アクセスパターン中に含
まれる種以外に追加されたハイパーテキストの数を表
す。例えばL2は、種となるアクセスパターンにハイパー
テキストを2つ追加して得られたアクセスパターン候補
の集合を表す。また、種Pの最後の(2番目の)添え字
は、或るクラスタに関して生成された種の番号を表す。Here, the two processing units 22 and 23 described above
Will be described using a specific example. For example, L 0 = {P 00 , P 01 ,..., P 0k } is given as a seed of an access pattern related to a certain cluster L 0 , and a generation process holding unit is generated in a process where an access pattern was generated before the cluster L 0. A set of access patterns held in 24 is LC. Here, each P represents a seed obtained from the cluster. The first (first) suffix of the seed P and the suffix of the cluster L indicate the number of hypertexts added in addition to the seed included in the access pattern. For example L 2 represents a set of the obtained access pattern candidate by adding two hypertext access pattern as a seed. The last (second) subscript of the seed P indicates the seed number generated for a certain cluster.
【0066】図5は、支持度を変化させないアクセスパ
ターンの発見部22により行われる処理のフローチャー
トである。すなわち、この発見部22では、i=0から順
番に(ステップS1)、まず、与えられたアクセスパタ
ーン候補集合Li中のそれぞれのアクセスパターンについ
て、アクセスパターン中のハイパーテキスト集合から到
達可能であって、元となったクラスタには含まれないハ
イパーテキストを追加して、アクセスパターン集合Li+1
を生成する(ステップS2)。FIG. 5 is a flowchart of a process performed by the access pattern finding unit 22 that does not change the support. That is, in the finding unit 22, in order from i = 0 (step S1), first, each access pattern in the given access pattern candidate set L i can be reached from the hypertext set in the access pattern. Then, a hypertext not included in the original cluster is added, and the access pattern set L i + 1
Is generated (step S2).
【0067】ここで、到達可能なハイパーテキストと
は、アクセスパターン中のハイパーテキストと直接リン
クで結ばれたハイパーテキストのことを意味し、リンク
の向きは考慮しない。例えば、本実施例では、初期集合
{C,D,E,H,J,F,I,L}から生成される種の一つであるPt(F,
I,L)からは、L1の要素して、パターンPt(F,I,L,G)、パ
ターンPt(F,I,L,B)、パターンPt(F,I,L,K)が生成され
る。Here, the reachable hypertext means a hypertext directly connected to the hypertext in the access pattern by a link, and does not consider the direction of the link. For example, in this embodiment, the initial set
Pt (F, one of the species generated from {C, D, E, H, J, F, I, L}
From (I, L), the elements of L 1 include pattern Pt (F, I, L, G), pattern Pt (F, I, L, B), and pattern Pt (F, I, L, K). Generated.
【0068】次に、生成過程保持部24には、過去のア
クセスパターン生成過程で最小支持度や支持度の閾値を
満たさなかったアクセスパターンの集合LCが保持されて
いる。本実施例では、アクセスパターン生成過程の探索
における枝狩りを、生成過程保持部24で保持されたア
クセスパターンを用いることで実現している。Next, the generation process holding unit 24 holds a set LC of access patterns that did not satisfy the minimum support or the threshold of the support in the past access pattern generation process. In the present embodiment, branch hunting in the search of the access pattern generation process is realized by using the access pattern stored in the generation process storage unit 24.
【0069】つまり、アクセスパターンの生成では,ユ
ーザ数が少ないクラスタから順にアクセスパターンを生
成しているため、j番目のクラスタに関するアクセスパ
ターン生成に用いられた当該クラスタのユーザ数をDjと
したとき、Dk <Dl(但し、k<l)が成り立つ。また、新
たに生成されたアクセスパターンが或るアクセスパター
ンを部分列に含む場合、元のk番目のアクセスパターン
候補Aを共有しているユーザの数をUser(A)とし、新たに
生成されたl番目のアクセスパターン候補Bを共有してい
るユーザの数をUser(B)とすると、User(A)≧User(B)が
成り立つ。従って、アクセスパターン候補Aの支持度Sup
port(A)とアクセスパターン候補Bの支持度Support(B)
は、次式に示すような関係を有することになる。That is, in the generation of the access pattern, since the access pattern is generated in order from the cluster having the smallest number of users, when the number of users of the cluster used for generating the access pattern for the j-th cluster is D j , D k <D l (where k <l). Further, when the newly generated access pattern includes a certain access pattern in the subsequence, the number of users sharing the original k-th access pattern candidate A is User (A), and the newly generated access pattern is newly generated. Assuming that the number of users sharing the l-th access pattern candidate B is User (B), User (A) ≧ User (B) holds. Therefore, the support degree Sup of the access pattern candidate A
Support (B) for port (A) and access pattern candidate B
Has the relationship shown in the following equation.
【0070】[0070]
【数3】 (Equation 3)
【0071】すなわち、アクセスパターン候補の中で、
生成過程保持部24に保持された集合LCに含まれるアク
セスパターンを部分パターンにもつアクセスパターン
は、支持度閾値を満たさないアクセスパターン候補とし
てLi+1から取り除くことができる(ステップS3)。That is, among the access pattern candidates,
An access pattern having an access pattern included in the set LC held in the generation process holding unit 24 as a partial pattern can be removed from Li + 1 as an access pattern candidate that does not satisfy the support threshold (step S3).
【0072】次いで、個々のアクセスパターン候補につ
いて支持度を算出し、支持度が変化していればLi+1から
取り除き、更に支持度や最初支持度が閾値以下であれば
生成過程保持部24で保持する。また、支持度が変化し
ていなければ元となったアクセスパターン候補をLiから
除く(ステップS4)。そして、以上の過程の処理をL
i+1が空になるまで繰り返して行い(ステップS5、ス
テップS7)、最終的に残ったL0 、L1 、…、Ln(nは
0以上の整数)を生成されたアクセスパターン候補とし
て出力する(ステップS6)。Next, the support is calculated for each access pattern candidate. If the support is changed, it is removed from Li + 1. If the support or the initial support is less than the threshold, the generation process holding unit 24 Hold with. Further, except for the support of access pattern candidate is the source unless changed from L i (step S4). And the processing of the above process is L
The process is repeatedly performed until i + 1 becomes empty (steps S5 and S7), and finally remaining L 0 , L 1 ,..., L n (n is an integer of 0 or more) are set as the generated access pattern candidates. Output (Step S6).
【0073】次に、図6は、上記のようにして生成され
たアクセスパターン候補を元に、支持度条件を満たすア
クセスパターンの発見部23により最終的なアクセスパ
ターンを発見する処理のフローチャートである。すなわ
ち、この発見部23では、最初に、上記のようにして生
成されたアクセスパターン候補集合のうち、アクセスパ
ターンに含まれるハイパーテキストの数が最小である集
合Liを選択し(ステップS11)、当該Li中の各アクセ
スパターン候補のそれぞれについて、アクセスパターン
中のハイパーテキスト集合から到達可能なハイパーテキ
ストを追加して、アクセスパターン集合Li+1を生成する
(ステップS12)。なお、この際に、Liの元となった
初期集合(クラスタ)に含まれるハイパーテキストや、
Lk(k>i)に含まれるハイパーテキストについては追加
しない。Next, FIG. 6 is a flowchart of a process for finding a final access pattern by the access pattern finding unit 23 satisfying the support condition based on the access pattern candidates generated as described above. . That is, in the discovery unit 23, first, among the access pattern candidate set generated as described above, selects a set L i number of hypertext included in the access pattern is the smallest (step S11), and for each of the access pattern candidate in the L i, add hypertext reachable from hypertext set in access patterns, generating an access pattern set L i + 1 (step S12). It should be noted that, in this case, and hypertext included in the initial set (cluster) that is the source of L i,
The hypertext included in L k (k> i) is not added.
【0074】次に、Li+1に含まれるアクセスパターンの
うち、生成過程保持部24に保持されている過去に支持
度に関する閾値を満たさなかったアクセスパターンを部
分パターンとして含むものについては当該Li+1から除く
(ステップS13)。次いで、Li+1の各アクセスパター
ン候補について、支持度と最小支持度を算出し、双方の
閾値を越えていないものについては当該Li+1から除くと
ともに、生成過程保持部24に保持し、双方の閾値を越
えているものについては、その元となったアクセスパタ
ーン候補をLiから除く(ステップS14)。そして、L
i+1 が空であり且つ空でないLk(k>i+1)が存在しなく
なるまで(ステップS15、ステップS16、ステップ
S18、ステップS19)、以上の過程の処理を繰り返
して行い、最終的に支持度及び最小支持度の条件を満た
すアクセスパターン集合を生成されたアクセスパターン
として出力する(ステップS17)。Next, among the access patterns included in L i + 1 , those that include, as a partial pattern, an access pattern held in the generation process holding unit 24 and that did not satisfy the threshold value for the support degree in the past are considered as L patterns. It is removed from i + 1 (step S13). Next, for each access pattern candidate of Li + 1 , the support level and the minimum support level are calculated, and those that do not exceed both thresholds are excluded from the Li + 1 and stored in the generation process storage unit 24. , for which exceeds both thresholds, except access pattern candidate became its original from L i (step S14). And L
i + 1 until empty and and not empty L k (k> i + 1) does not exist (step S15, step S16, step S18, step S19), performed by repeating the above processing processes, the final An access pattern set that satisfies the conditions of support and minimum support is output as a generated access pattern (step S17).
【0075】ここで、本実施例の場合に、例えば種の一
つであるPt(C,D,F)からアクセスパターンが生成される
過程において、探索されるアクセスパターン候補の関係
の一例を図7に示してある。同図において、各アルファ
ベットは上記図3に示した各ハイパーテキストに対応す
る。また、2重の四角で囲まれたアクセスパターンは支
持度を変化させていないアクセスパターンを意味し、破
線の四角で囲まれたアクセスパターンは支持度が変化し
たアクセスパターンを意味し、×印のついたアクセスパ
ターンは支持度の条件(最小支持度閾値や支持度閾値の
条件)を満たさないアクセスパターンを意味している。Here, in the case of the present embodiment, an example of the relationship between access pattern candidates searched in the process of generating an access pattern from Pt (C, D, F) which is one of the species, for example, is shown. It is shown in FIG. In the figure, each alphabet corresponds to each hypertext shown in FIG. Further, an access pattern surrounded by a double square means an access pattern whose support degree is not changed, an access pattern surrounded by a dashed square means an access pattern whose support degree is changed, The used access pattern means an access pattern that does not satisfy the support condition (the minimum support threshold or the support threshold).
【0076】また、破線の四角で囲まれ、更に×印がつ
いているアクセスパターンは、ユーザ数をカウントした
ところ最小支持度や支持度の条件を満たさないことが判
明したパターンを意味し、×印だけのアクセスパターン
は、支持度を計算することなく、過去の支持度の条件を
満たさなかったアクセスパターン集合を元に支持度の条
件を満たさないと判定されたパターンを意味している。An access pattern surrounded by a dashed-line square and further marked with an X mark means a pattern which is found to not satisfy the conditions of minimum support or support when the number of users is counted. The access pattern of only means a pattern determined not to satisfy the condition of the support based on an access pattern set that did not satisfy the condition of the past support without calculating the support.
【0077】同図の例では、支持度を変化させないアク
セスパターンの発見部22により、Pt(B,C,D,F)が生成
される。Pt(B,C,D,F)が支持度を変化させないとする
と、更にPt(B,C,D,F)からPt(A,B,C,D,F)とPt(B,G,C,D,F
)が生成される。Pt(A,B,C,D,F)、Pt(B,G,C,D,F)につい
て、Pt(B,G,C,D,F)が最小支持度閾値或いは支持度閾値
の条件を満たさないとすると当該Pt(B,G,C,D,F)は生成
過程保持部24に移され、Pt(A,B,C,D,F)がアクセスパ
ターン候補として出力される。In the example shown in the figure, Pt (B, C, D, F) is generated by the access pattern finding unit 22 which does not change the support. If Pt (B, C, D, F) does not change the support, then Pt (B, C, D, F) and Pt (A, B, C, D, F) and Pt (B, G, C, D, F
) Is generated. For Pt (A, B, C, D, F) and Pt (B, G, C, D, F), Pt (B, G, C, D, F) is the minimum support threshold or support threshold condition Is not satisfied, the Pt (B, G, C, D, F) is transferred to the generation process holding unit 24, and Pt (A, B, C, D, F) is output as an access pattern candidate.
【0078】次に、支持度条件を満たすアクセスパター
ンの発見部23により、更にアクセスパターン候補を探
索する。すなわち、Pt(A,B,C,D,F)からは、Pt(A,B,G,C,
D,F)とPt(A,B,K,C,D,F)がアクセスパターン候補として
生成される。Pt(A,B,G,C,D,F)は、生成過程保持部24
に保持されているPt(B,G,C,D,F)を部分パターンとして
含むので支持度を計算することなく除かれる。Pt(A,B,
K,C,D,F)については、最小支持度と支持度が計算され、
支持度の条件を満たさないとすると除かれる。同図の例
において、Pt(C,D,F,E)やPt(B,C,D,E,F)が生成されてい
ないのは、種の元となったクラスタに含まれるハイパー
テキスト(ここでは、E)は、後の生成過程では追加し
ないためである。また、種であるPt(F,I,L)やPt(C,D,F)
からアクセスパターンが生成された後には,次にユーザ
数の少ないクラスタ{B,G,K}を元に、アクセスパターン
が生成される。Next, an access pattern candidate that satisfies the support condition is further searched for access pattern candidates. That is, from Pt (A, B, C, D, F), Pt (A, B, G, C,
D, F) and Pt (A, B, K, C, D, F) are generated as access pattern candidates. Pt (A, B, G, C, D, F) is generated by the generation process holding unit 24
Since the Pt (B, G, C, D, F) held in is included as a partial pattern, it is removed without calculating the support. Pt (A, B,
K, C, D, F), the minimum support and support are calculated,
It is excluded if the support condition is not met. In the example shown in the figure, Pt (C, D, F, E) and Pt (B, C, D, E, F) are not generated because the hypertext ( Here, E) is not added in a later generation process. In addition, the species Pt (F, I, L) and Pt (C, D, F)
After the access pattern is generated from, the access pattern is generated based on the cluster {B, G, K} with the next smallest number of users.
【0079】アクセスパターン保持部6は、アクセスパ
ターン生成部5により生成されたアクセスパターンにつ
いて、その元となった種と当該アクセスパターンとを組
にして保持する機能を有している。アクセスパターン提
示部7は、アクセスパターン保持部6に保持されたアク
セスパターンを分析者(ユーザ)に対して提示する機能
を有しており、本実施例では、以下で、2通りの提示の
態様例を示す。The access pattern holding unit 6 has a function of holding the access pattern generated by the access pattern generation unit 5 as a set of the seed from which the access pattern is generated and the access pattern. The access pattern presenting unit 7 has a function of presenting the access pattern held in the access pattern holding unit 6 to an analyst (user). In the present embodiment, the following two modes of presentation are provided. Here is an example.
【0080】まず、アクセスパターン提示部7により行
われる提示処理の一態様例を示す。図8は、この態様例
における提示処理のフローチャートである。この態様例
では、アクセスパターン提示部7は、アクセスパターン
と種との組の集合Cが空になるまで(ステップS2
1)、次のような処理を行う。すなわち、まず、クラス
タの階層関係において最も下位のクラスタから生成され
た種を元にしたアクセスパターンであって、共有するユ
ーザ数が最大のアクセスパターンと種との組Paを選択す
る(ステップS22)。First, an example of a presentation process performed by the access pattern presentation unit 7 will be described. FIG. 8 is a flowchart of the presentation process in this example of the mode. In this example, the access pattern presenting unit 7 determines that the set C of the set of the access pattern and the seed becomes empty (step S2).
1) The following processing is performed. That is, first, a set Pa of the access pattern and the seed that is the access pattern based on the seed generated from the lowest cluster in the hierarchical relationship of the cluster and that shares the largest number of users is selected (step S22). .
【0081】次に、選択した組Paのアクセスパターンが
集合C中の他の上位の階層クラスタの種を含むパターン
であるか否かを判定し(ステップS23)、当該パター
ンであることが判定された場合には、当該パターンと種
との組Pbに係るアクセスパターン(発見されたアクセス
パターン)及びアクセスユーザの数と、前記選択した組
Paのアクセスパターン(元のアクセスパターン)及びア
クセスユーザの数とを分析者に提示する(ステップS2
4)。なお、このような提示が行われた後や、上記した
判定において選択した組Paのアクセスパターンが集合C
中の他の上位の階層クラスタの種を含むパターンではな
いことが判定された場合には、集合Cから前記選択した
組Paを除いて(ステップS25)、以上と同様な処理を
繰り返して行う。Next, it is determined whether or not the access pattern of the selected set Pa is a pattern including the seed of another higher-level hierarchical cluster in the set C (step S23), and it is determined that the pattern is the pattern. In this case, the access pattern (discovered access pattern) and the number of access users pertaining to the set Pb of the pattern and the seed, and the selected set
The access pattern of Pa (original access pattern) and the number of accessing users are presented to the analyst (step S2).
4). It should be noted that after such a presentation is made or the access pattern of the set Pa selected in the above determination is set C
If it is determined that the pattern does not include the seed of the other higher-level hierarchical cluster, the selected set Pa is excluded from the set C (step S25), and the same processing is repeated.
【0082】このようなアクセスパターンの提示の仕方
では、より詳細な情報が記述されたハイパーテキスト
(下位のクラスタに含まれるハイパーテキスト)をユーザ
が閲覧することで、アクセスパターンが変化したものと
考えることができる。例えば、上記図3に示した構成に
おいて、Pt(B,G)からアクセスパターンPt(A,B,G)が発見
され、Pt(F,I,L)、Pt(C,D,F)からアクセスパターンPt
(A,B,G,K,F,I,L)、Pt(A,B,C,D,F)が発見されたする。こ
の場合、ハイパーテキストB、G、Kはそれぞれ異なる商
品の情報が記載されたページであり、ハイパーテキスト
C、D、Fはそれぞれ商品Bの詳細な情報が記載されたペー
ジであり、ハイパーテキストF、I、Lはそれぞれ商品の
仕様・価格に関する情報が記載されたページであるとす
る。In the method of presenting such an access pattern, a hypertext in which more detailed information is described
When the user browses (the hypertext included in the lower cluster), it can be considered that the access pattern has changed. For example, in the configuration shown in FIG. 3, the access pattern Pt (A, B, G) is found from Pt (B, G), and the access pattern Pt (F, I, L) and Pt (C, D, F) are Access pattern Pt
(A, B, G, K, F, I, L) and Pt (A, B, C, D, F) are found. In this case, the hypertexts B, G, and K are pages on which information of different products is described, respectively.
C, D, and F are pages on which detailed information of the product B is described, respectively, and hypertexts F, I, and L are pages on which information on the specification and price of the product is described.
【0083】すると、商品自体については、ハイパーテ
キストB、Gの間に高い相関があるが、より商品を詳しく
見たユーザについては、商品間の相関はなく商品Bのみ
を見ていると言える。一方、3つの商品全ての仕様・価
格についてユーザの閲覧行動の相関が高いことがわか
る。このことは、ユーザが商品B、Gの双方について興味
を持ちながらも、商品Bに関する興味の詳細情報を見た
ことで、ユーザに商品Gの詳細情報を見る必要がないと
感じさせる何かがあると考えられる。また,ハイパーテ
キストB、G、Kのページのみでは相関が小さいものが、
仕様・価格を見たユーザに限定することで相関が高くな
るということからは、一つの可能性として、一部のユー
ザ層が誤った商品比較をしているのではないかと考えら
れる。いずれにしても、これらのユーザのアクセスパタ
ーンはサイトが含む問題について示唆を与えている可能
性が高く、サイト分析を手助けするものと考えられる。Then, although there is a high correlation between the hypertexts B and G for the product itself, it can be said that a user who has watched the product in more detail has no correlation between the products and sees only the product B. On the other hand, it can be seen that there is a high correlation between the user's browsing behavior for the specifications and prices of all three products. This means that if the user is interested in both products B and G, but sees the details of interest in product B, something that makes the user feel that they do not need to see the details of product G is It is believed that there is. In addition, only the hypertext B, G, and K pages have a small correlation,
The fact that the correlation is increased by limiting the users to those who saw the specifications and prices suggests that, as one possibility, some of the user groups may be comparing products incorrectly. In any case, the access patterns of these users are likely to give suggestions about the problems involved in the site, and are considered to assist in site analysis.
【0084】また、このような態様例を利用した他の具
体例として、例えば商品の販売を行っているサイトで
は、シソーラス階層において商品を購入しようとした時
に表示されるハイパーテキストの階層と、実際に商品の
購入に至った階層とを別々に設けて、それぞれハイパー
テキストを分類することで、ユーザの購買意欲と実際の
購買活動との関係を発見してユーザに提示することが可
能である。As another specific example using such an embodiment, for example, in a site that sells a product, the hierarchy of the hypertext displayed when the user tries to purchase the product in the thesaurus hierarchy, By separately providing a hierarchy that leads to the purchase of a product and classifying the hypertexts, it is possible to discover the relationship between the user's willingness to purchase and the actual purchasing activity and present it to the user.
【0085】次に、アクセスパターン提示部7により行
われる提示処理の他の態様例を示す。図9は、この態様
例における提示処理のフローチャートである。この態様
例では、アクセスパターン提示部7は、分析者(ユー
ザ)から受付部を介して受け付けたアクセスパターンの
指定に基づいて、提示処理を行う。すなわち、まず、ユ
ーザにより選択されたアクセスパターンについて,当該
アクセスパターン中のハイパーテキストを表示用ハイパ
ーテキスト集合Dに加える(ステップS31)。Next, another example of the presentation process performed by the access pattern presentation unit 7 will be described. FIG. 9 is a flowchart of the presentation process in this example of the mode. In this embodiment, the access pattern presentation unit 7 performs a presentation process based on the specification of the access pattern received from the analyst (user) via the reception unit. That is, first, for the access pattern selected by the user, the hypertext in the access pattern is added to the display hypertext set D (step S31).
【0086】次に、選択されたアクセスパターンの種が
含まれるクラスタ中のハイパーテキストの集合Lを抽出
し(ステップS32)、当該集合L中のハイパーテキス
トであって、当該種を構成するハイパーテキストから直
接リンクで繋がれたハイパーテキストを表示用ハイパー
テキスト集合Dに加える(ステップS33)。次いで、
集合L中のハイパーテキストであって、当該種を構成す
るハイパーテキストからアクセスパターン中の任意の1
つのハイパーテキストを経由して到達可能なハイパーテ
キストを表示用ハイパーテキスト集合Dに加える(ステ
ップS34)。Next, a set L of hypertexts in the cluster including the selected access pattern type is extracted (step S32), and the hypertexts in the set L, which are hypertexts constituting the type, are extracted. Is added to the display hypertext set D (step S33). Then
Any one of the hypertexts in the set L from the hypertexts constituting the seed
The hypertext reachable via one hypertext is added to the display hypertext set D (step S34).
【0087】このようにして、例えばアクセスパターン
中のハイパーテキストからリンクで繋がれたハイパーテ
キストであって種の元となったクラスタに含まれるハイ
パーテキストを、アクセスユーザ数が最大のページを根
として木構造に展開して表示する(ステップS35)。
また、この表示処理に際して、例えば分析者により指定
されたアクセスパターンに含まれるハイパーテキストを
木構造上でマーキングすることにより、当該ハイパーテ
キストと、当該アクセスパターンに含まれないハイパー
テキストとを区別可能な形で表示する(ステップS3
6)。In this way, for example, the hypertext in the access pattern, which is a hypertext linked by a link from the hypertext included in the cluster that is the source of the seed, is defined using the page with the largest number of accessing users as the root. It is expanded and displayed in a tree structure (step S35).
In this display processing, for example, by marking hypertext included in the access pattern specified by the analyst on the tree structure, the hypertext can be distinguished from the hypertext not included in the access pattern. (Step S3)
6).
【0088】ここで、上記図3に示したサイト構成にお
いて、アクセスパターンPt(A,B,C,D,F)を指定して表示
させた例を図10に示し、アクセスパターンPt(A,B,G,
K,F,I,L)を指定して表示させた例を図11に示す。図1
0に示した木構造の例では、Pt(A,B,C,D,F)に対して,
種であるPt(C,D,F)の元となったクラスタ内のハイパー
テキストEがハイパーテキストCに直接リンクで繋がれて
いるので表示すべきハイパーテキストに追加されてい
る。図11に示した木構造の例では、Pt(A,B,G,K,F,I,
L)に対して、クラスタ中の3つのハイパーテキストC、
H、Jがアクセスパターン中のハイパーテキストB、G、K
にそれぞれ直接リンクで繋がれていることから表示すべ
きハイパーテキストに追加されている。Here, FIG. 10 shows an example in which the access pattern Pt (A, B, C, D, F) is designated and displayed in the site configuration shown in FIG. 3, and the access pattern Pt (A, B, G,
FIG. 11 shows an example in which display is performed by designating (K, F, I, L). FIG.
In the example of the tree structure shown in FIG. 0, for Pt (A, B, C, D, F),
Since the hypertext E in the cluster from which the seed Pt (C, D, F) is based is directly linked to the hypertext C by a link, it is added to the hypertext to be displayed. In the example of the tree structure shown in FIG. 11, Pt (A, B, G, K, F, I,
L), the three hypertexts C in the cluster,
H, J are hypertexts B, G, K in the access pattern
Have been added to the hypertext to be displayed because they are directly linked to each other.
【0089】また、上記図10や上記図11に示した例
では、分析者により指定されたアクセスパターンに含ま
れるハイパーテキストについては色のついた丸で表示し
ており、 含まれないハイパーテキストについては白丸
で表示している。なお、個々のハイパーテキストの表示
形態としては、必ずしも本実施例で示したようなものに
限られず、例えばハイパーテキスト中の一部の情報を表
示するような仕方が用いられてもよい。In the examples shown in FIGS. 10 and 11, hypertexts included in the access pattern specified by the analyst are indicated by colored circles. Is indicated by a white circle. Note that the display form of each hypertext is not necessarily limited to the one shown in the present embodiment, and for example, a method of displaying a part of information in the hypertext may be used.
【0090】また、ハイパーテキストを区別して提示す
る方法としては、例えば分析者により指定されたアクセ
スパターンに含まれるリンクを他と区別して(例えば指
定されたアクセスパターンに含まれるリンクを表す線を
太くするなどして)表示する方法を用いることもでき
る。このような提示処理により、ユーザの考える分類
と、サイトの構築者の分類とのずれを発見することが可
能となり、サイトのリンク構造を考える上での手助けと
なる。As a method of presenting a hypertext in a distinguished manner, for example, a link included in an access pattern specified by an analyst is distinguished from others (for example, a line representing a link included in a specified access pattern is thickened). (Or the like). With such a presentation process, it is possible to find a difference between the classification considered by the user and the classification of the site builder, which helps in considering the link structure of the site.
【0091】以上のように、本実施例に係るハイパーテ
キストアクセスパターン解析装置では、例えばコンテン
ツの内容を考慮して、分析者のサイト構成の意図とユー
ザの興味との関係を示すことにより、アクセスパターン
の精査を容易にすることができ、また、例えばハイパー
テキストシステム内のアクセス数の多いリンク距離が浅
いハイパーテキスト集合と同様に、アクセス数の比較的
少ないリンク距離が深いハイパーテキストについても、
同じ領域のハイパーテキストを訪れているユーザの中で
特徴的なアクセスパターンを発見することができ、ま
た、例えばアクセスパターン生成の効率化を図ることが
できる。As described above, in the hypertext access pattern analysis apparatus according to the present embodiment, the relationship between the intention of the site configuration of the analyst and the interest of the user is shown by considering the contents of the content, for example. Pattern scrutiny can be facilitated, and for example, hypertext systems with a relatively small number of accesses, such as hypertexts with a relatively small number of accesses, as well as a set of hypertexts with a large number of accesses in a hypertext system.
Characteristic access patterns can be found among users visiting the hypertext in the same area, and, for example, access pattern generation can be made more efficient.
【0092】なお、本実施例では、本発明の好適な実施
形態を示したが、本発明に係るハイパーテキストアクセ
スパターン解析装置の構成としては、必ずしも本実施例
で示したものに限られず、種々な構成が用いられてもよ
い。例えば、本実施例では、好ましい態様として、本発
明に係るハイパーテキストアクセスパターン解析装置に
より行われる各種の処理としては、例えばプロセッサや
メモリ等を備えたハードウエア資源においてプロセッサ
がROMに格納された制御プログラムを実行することに
より制御される構成としたが、例えば当該処理を実行す
るための各機能手段を独立したハードウエア回路として
構成することも可能である。Although the preferred embodiment of the present invention has been described in the present embodiment, the configuration of the hypertext access pattern analyzing apparatus according to the present invention is not necessarily limited to that shown in the present embodiment. Any configuration may be used. For example, in the present embodiment, as a preferable mode, various processes performed by the hypertext access pattern analysis apparatus according to the present invention include, for example, a control in which a processor is stored in a ROM in a hardware resource including a processor and a memory. Although the configuration is controlled by executing the program, for example, each functional unit for executing the processing may be configured as an independent hardware circuit.
【0093】また、本発明は上記のような制御プログラ
ムを格納したフロッピー(登録商標)ディスクやCD−
ROM等のコンピュータにより読み取り可能な記憶媒体
として把握することもでき、当該制御プログラムを記憶
媒体からコンピュータに入力してプロセッサに実行させ
ることにより、本発明に係る処理を遂行させることがで
きる。The present invention also relates to a floppy (registered trademark) disk or CD-ROM storing the above-described control program.
It can be understood as a computer-readable storage medium such as a ROM, and the processing according to the present invention can be performed by inputting the control program from the storage medium to the computer and causing the processor to execute the control program.
【0094】[0094]
【発明の効果】以上説明したように、本発明に係るハイ
パーテキストアクセスパターン解析装置や記憶媒体によ
ると、各ハイパーテキストの内容に基づいて分類された
各クラスタに関してアクセスパターンを生成して、当該
アクセスパターンを分析者に提示するようにしたため、
例えばアクセスパターンと分類との対比によって、分析
者がサイト構成の意図とユーザの興味との関係を発見す
ることを可能とすることができる。As described above, according to the hypertext access pattern analysis apparatus and storage medium of the present invention, an access pattern is generated for each cluster classified based on the contents of each hypertext, and the access pattern is generated. By presenting patterns to analysts,
For example, by comparing the access pattern with the classification, it is possible for the analyst to discover the relationship between the intention of the site configuration and the interest of the user.
【0095】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、上記したような最小支持度
(或いは同一順序最小支持度)ばかりでなく、上記した
ような支持度(或いは同一順序支持度)も考慮してアク
セスパターンを生成するようにしたため、例えば分類さ
れたクラスタ内のハイパーテキストをアクセスしている
ユーザ数に応じたアクセスパターンの生成を行うことが
でき、ハイパーテキストシステム内でユーザのアクセス
が大きく偏った場合においても、それぞれの領域におい
て特徴的なパターンを発見することを可能とすることが
できる。In the hypertext access pattern analysis device according to the present invention, not only the minimum support (or the same order minimum support) as described above, but also the support (or the same order support) as described above. Since the access pattern is generated taking into account, for example, an access pattern can be generated according to the number of users accessing the hypertext in the classified cluster, and the access of the user in the hypertext system can be performed. Even in the case of a large deviation, it is possible to find a characteristic pattern in each region.
【0096】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、アクセスしたユーザの数が
少ない順に各種となるハイパーテキスト集合に関するア
クセスパターン候補生成処理やアクセスパターン生成処
理を実行して、既に最小支持度や支持度が閾値未満であ
ると判定されたパターンを含むハイパーテキスト集合に
ついては、当該判定を行うことなく、アクセスパターン
候補やアクセスパターンから除外するようにしたため、
アクセスパターンの生成処理の効率化を図ることができ
る。The hypertext access pattern analysis apparatus according to the present invention executes access pattern candidate generation processing and access pattern generation processing relating to various hypertext sets in ascending order of the number of users who have accessed, and has already performed minimum support. For a hypertext set including a pattern whose degree or support is determined to be less than the threshold, without performing the determination, because it is excluded from access pattern candidates and access patterns,
The efficiency of the access pattern generation process can be improved.
【0097】また、本発明に係るハイパーテキストアク
セスパターン解析装置では、例えば種となるハイパーテ
キスト集合の属するクラスタの階層が深い順であって含
まれるハイパーテキストにアクセスしたユーザの数が多
い順に、自己の属する種以外の種を包含するアクセスパ
ターン及び当該自己の属する種以外の種から生成された
アクセスパターンを分析者に提示することや、例えば指
定されたアクセスパターンに含まれるハイパーテキスト
と他のハイパーテキストとの提示態様を異ならせて、ユ
ーザのアクセス数が最大のハイパーテキストを根として
提示対象となる所定のハイパーテキストを木構造で分析
者に提示することを行うようにしたため、分析者にとっ
て有効な情報を見易い形で提示することができる。Further, in the hypertext access pattern analysis apparatus according to the present invention, for example, the order of the number of users who have accessed the hypertext included in the hierarchy of the cluster to which the seed hypertext set belongs is deeper, and The access pattern including the species other than the species to which the user belongs and the access pattern generated from the species other than the species to which the subject belongs are presented to the analyst. For example, the hypertext included in the designated access pattern and another hypertext are included. It is effective for the analyst because the presentation mode with the text is made different and the predetermined hypertext to be presented is presented to the analyst in a tree structure with the hypertext with the largest number of accesses of the user as the root. Information can be presented in an easy-to-view form.
【図1】本発明の一実施例に係るハイパーテキストアク
セスパターン解析装置を備えたシステムの一例を示す図
である。FIG. 1 is a diagram showing an example of a system including a hypertext access pattern analysis device according to an embodiment of the present invention.
【図2】シソーラスのデータの一例を示す図である。FIG. 2 is a diagram showing an example of data of a thesaurus.
【図3】サイト構成の一例を示す図である。FIG. 3 is a diagram showing an example of a site configuration.
【図4】アクセスパターン生成部の構成例を示す図であ
る。FIG. 4 is a diagram illustrating a configuration example of an access pattern generation unit.
【図5】支持度の変化しないアクセスパターン候補を発
見する処理の手順の一例を示す図である。FIG. 5 is a diagram illustrating an example of a procedure of a process of finding an access pattern candidate whose support level does not change.
【図6】支持度条件を満たすアクセスパターンを発見す
る処理の手順の一例を示す図である。FIG. 6 is a diagram illustrating an example of a procedure of a process of finding an access pattern satisfying a support condition.
【図7】アクセスパターンの生成例を説明するための図
である。FIG. 7 is a diagram illustrating an example of generating an access pattern.
【図8】アクセスパターンの提示処理の手順の一例を示
す図である。FIG. 8 is a diagram illustrating an example of a procedure of an access pattern presentation process.
【図9】アクセスパターンの提示処理の手順の一例を示
す図である。FIG. 9 is a diagram illustrating an example of a procedure of an access pattern presentation process.
【図10】アクセスパターンの提示例を示す図である。FIG. 10 is a diagram showing a presentation example of an access pattern.
【図11】アクセスパターンの提示例を示す図である。FIG. 11 is a diagram showing a presentation example of an access pattern.
【図12】アクセスパターンの一例を示す図である。FIG. 12 is a diagram illustrating an example of an access pattern.
【図13】アクセスパターンの一例を示す図である。FIG. 13 is a diagram illustrating an example of an access pattern.
1・・Webサーバ、 2・・アクセス履歴前処理部、
3・・ハイパーテキスト分類部、 4・・順序付け部、
5・・アクセスパターン生成部、 6・・アクセスパタ
ーン保持部、7・・アクセスパターン提示部、 11・
・コンテンツ提供部、12・・アクセス履歴記録部、2
1・・クラスタ内の同時アクセスパターンの発見部、2
2・・支持度を変化させないアクセスパターンの発見
部、23・・支持度条件を満たすアクセスパターンの発
見部、24・・生成過程保持部、1. Web server 2. Access history preprocessing unit
3 ・ ・ Hypertext classification section 、 4 ・ ・ Order section 、
5 ··· Access pattern generation unit, 6 ··· Access pattern holding unit, 7 ··· Access pattern presentation unit, 11 ·
・ Content providing unit, 12 ・ ・ Access history recording unit, 2
1. Discovery part of simultaneous access pattern in cluster, 2
2 ······································································································· 23
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山根 洋平 神奈川県足柄上郡中井町境430 グリーン テクなかい 富士ゼロックス株式会社内 Fターム(参考) 5B075 ND02 ND36 NR12 PQ02 PR03 5B082 AA11 BA09 CA13 ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Yohei Yamane 430 Sakai-Nakai-cho, Ashigara-gun, Kanagawa Green Tech Naka Fuji Xerox Co., Ltd. F-term (reference) 5B075 ND02 ND36 NR12 PQ02 PR03 5B082 AA11 BA09 CA13
Claims (7)
れる複数のハイパーテキストを各ハイパーテキストの内
容に基づいて複数のクラスタに分類するハイパーテキス
ト分類手段と、 ハイパーテキストに対するユーザ毎のアクセス履歴を検
出するアクセス履歴検出手段と、 検出されたユーザ毎のアクセス履歴に基づいて、各クラ
スタに関して、当該クラスタに含まれる複数のハイパー
テキストを組合せて成るハイパーテキスト集合の中で、
ハイパーテキスト集合に含まれる全てのハイパーテキス
トに同一アクセス時にアクセスしたユーザの割合が所定
値以上であるハイパーテキスト集合を種とし、種となる
ハイパーテキスト集合に含まれるハイパーテキストにリ
ンクで繋がれたハイパーテキストを当該ハイパーテキス
ト集合に追加して成るアクセスパターンを生成するアク
セスパターン生成手段と、 生成されたアクセスパターンを提示するアクセスパター
ン提示手段と、 を備えたことを特徴とするハイパーテキストアクセスパ
ターン解析装置。1. Hypertext classification means for classifying a plurality of hypertexts provided by a hypertext system into a plurality of clusters based on the content of each hypertext, and an access history detecting an access history of each user to the hypertext. Detecting means, based on the detected access history for each user, for each cluster, in a hypertext set formed by combining a plurality of hypertexts included in the cluster,
A hypertext set in which the percentage of users who accessed all hypertexts included in the hypertext set at the same access is equal to or greater than a predetermined value as a seed, and a hypertext linked by a link to the hypertext included in the seed hypertext set A hypertext access pattern analysis device, comprising: an access pattern generation unit configured to generate an access pattern formed by adding text to the hypertext set; and an access pattern presentation unit configured to present the generated access pattern. .
セスパターン解析装置において、 ハイパーテキストシステムにより提供されるハイパーテ
キストにアクセスしたユーザの数に対する対象とするハ
イパーテキスト集合に含まれる全てのハイパーテキスト
に同一アクセス時にアクセスしたユーザの数の割合を最
小支持度とするとともに、対象とするクラスタに含まれ
るハイパーテキストにアクセスしたユーザの数に対する
対象とするハイパーテキスト集合に含まれる全てのハイ
パーテキストに同一アクセス時にアクセスしたユーザの
数の割合を支持度として、 アクセスパターン生成手段は、対象とするクラスタに含
まれる複数のハイパーテキストを組み合わせて成るハイ
パーテキスト集合の中で、最小支持度が所定の最小支持
度閾値以上であり且つ支持度が所定の支持度閾値以上で
あり且つ含まれるハイパーテキストの数が所定数以上で
あるハイパーテキスト集合を種とし、各種となるハイパ
ーテキスト集合に関して、当該種となるハイパーテキス
ト集合に含まれるハイパーテキストに直接的にリンクで
繋がれたハイパーテキストを当該ハイパーテキスト集合
に追加して成るハイパーテキスト集合及び同様にして当
該ハイパーテキスト集合に更に1以上のハイパーテキス
トを追加して成るハイパーテキスト集合の中で、支持度
が当該種となるハイパーテキスト集合の支持度と同じで
あるハイパーテキスト集合をアクセスパターン候補と
し、各アクセスパターン候補に関して、当該アクセスパ
ターン候補に含まれるハイパーテキストに直接的にリン
クで繋がれたハイパーテキストを当該アクセスパターン
候補に追加して成るハイパーテキスト集合及び同様にし
て当該ハイパーテキスト集合に更に1以上のハイパーテ
キストを追加して成るハイパーテキスト集合の中で、最
小支持度が所定の最小支持度閾値以上であり且つ支持度
が所定の支持度閾値以上であるハイパーテキスト集合を
アクセスパターンとすることを特徴とするハイパーテキ
ストアクセスパターン解析装置。2. The hypertext access pattern analysis apparatus according to claim 1, wherein the number of users accessing the hypertext provided by the hypertext system is the same as all the hypertexts included in the target hypertext set. The ratio of the number of users who accessed at the time of access is set as the minimum support, and all the hypertexts included in the target hypertext set with respect to the number of users accessing the hypertext included in the target cluster at the same access Using the ratio of the number of users who have accessed the support as the support, the access pattern generating means sets the minimum support to a predetermined minimum support threshold in a hypertext set formed by combining a plurality of hypertexts included in the target cluster. Above A hypertext set whose support level is equal to or higher than a predetermined support level threshold and the number of included hypertexts is equal to or higher than a predetermined number is used as a seed, and various hypertext sets are included in the seed hypertext set. Hypertext set obtained by adding hypertext directly linked to the hypertext to the hypertext set, and a hypertext set obtained by similarly adding one or more hypertexts to the hypertext set Among the hypertext sets whose support is the same as the support of the hypertext set that is the seed, as access pattern candidates, and for each access pattern candidate, a direct link to the hypertext included in the access pattern candidate is made. Hypertext connected by In a hypertext set added to the access pattern candidate and a hypertext set in which one or more hypertexts are similarly added to the hypertext set, the minimum support is equal to or greater than a predetermined minimum support threshold. A hypertext access pattern analysis apparatus, wherein a hypertext set whose support level is equal to or higher than a predetermined support level threshold is set as an access pattern.
セスパターン解析装置において、 アクセスパターン生成手段は、各種となるハイパーテキ
スト集合に関するアクセスパターン候補生成処理及びア
クセスパターン生成処理を、種となるハイパーテキスト
集合に含まれるハイパーテキストにアクセスしたユーザ
の数が小さい順に実行し、当該アクセスパターン候補生
成処理及び当該アクセスパターン生成処理の過程におい
て、前記追加して成るハイパーテキスト集合の最小支持
度或いは支持度の少なくとも一方が前記所定の閾値未満
であった場合には、当該ハイパーテキスト集合を構成す
るハイパーテキストの組合せパターンを特定する閾値未
満情報を記憶し、当該アクセスパターン候補生成処理及
び当該アクセスパターン生成処理の過程において、前記
追加して成るハイパーテキスト集合が記憶された閾値未
満情報により特定される組合せパターンの全てのハイパ
ーテキストを包含することに応じて、当該ハイパーテキ
スト集合をアクセスパターン候補或いはアクセスパター
ンから除外することを特徴とするハイパーテキストアク
セスパターン解析装置。3. The hypertext access pattern analysis device according to claim 2, wherein the access pattern generation means performs an access pattern candidate generation process and an access pattern generation process regarding various hypertext sets as a seed hypertext set. Are executed in ascending order of the number of users who have accessed the hypertext included in the access pattern candidate generation process and the access pattern generation process. In the process of the access pattern candidate generation process and the access pattern generation process, at least the minimum support or the support of the added hypertext set If one of them is less than the predetermined threshold, information on the under-threshold specifying the combination pattern of the hypertexts constituting the hypertext set is stored, and the access pattern candidate generation processing and the access pattern generation processing are performed. The hypertext set is excluded from the access pattern candidates or access patterns in response to the additional hypertext set including all the hypertexts of the combination pattern specified by the stored information less than the threshold value. A hypertext access pattern analysis apparatus.
セスパターン解析装置において、 ハイパーテキストシステムにより提供されるハイパーテ
キストにアクセスしたユーザの数に対する対象とするハ
イパーテキスト集合に含まれる全てのハイパーテキスト
に同一アクセス時にアクセスしたユーザの数の割合を最
小支持度とするとともに、対象とするクラスタに含まれ
るハイパーテキストにアクセスしたユーザの数に対する
対象とするハイパーテキスト集合に含まれる全てのハイ
パーテキストに同一アクセス時にアクセスしたユーザの
数の割合を支持度とし、 ハイパーテキストシステムにより提供されるハイパーテ
キストにアクセスしたユーザの数に対する対象とするハ
イパーテキスト集合に含まれる全てのハイパーテキスト
に同一アクセス時に同一順序でアクセスしたユーザの数
の割合を同一順序最小支持度とするとともに、対象とす
るクラスタに含まれるハイパーテキストにアクセスした
ユーザの数に対する対象とするハイパーテキスト集合に
含まれる全てのハイパーテキストに同一アクセス時に同
一順序でアクセスしたユーザの数の割合を同一順序支持
度として、 アクセスパターン生成手段は、対象とするクラスタに含
まれる複数のハイパーテキストを組み合わせて成るハイ
パーテキスト集合の中で、最小支持度が所定の最小支持
度閾値以上であり且つ支持度が所定の支持度閾値以上で
あるハイパーテキスト集合を選択し、選択したハイパー
テキスト集合の中で、同一順序最小指示度が所定の同一
順序最小支持度閾値以上であり且つ同一順序支持度が所
定の同一順序支持度閾値以上であり且つ含まれるハイパ
ーテキストの数が所定数以上であるハイパーテキスト集
合を種とし、各種となるハイパーテキスト集合に関し
て、当該種となるハイパーテキスト集合に含まれるハイ
パーテキストに直接的にリンクで繋がれたハイパーテキ
ストを当該ハイパーテキスト集合に追加して成るハイパ
ーテキスト集合及び同様にして当該ハイパーテキスト集
合に更に1以上のハイパーテキストを追加して成るハイ
パーテキスト集合の中で、同一順序支持度が当該種とな
るハイパーテキスト集合の同一順序支持度と同じである
ハイパーテキスト集合をアクセスパターン候補とし、各
アクセスパターン候補に関して、当該アクセスパターン
候補に含まれるハイパーテキストに直接的にリンクで繋
がれたハイパーテキストを当該アクセスパターン候補に
追加して成るハイパーテキスト集合及び同様にして当該
ハイパーテキスト集合に更に1以上のハイパーテキスト
を追加して成るハイパーテキスト集合の中で、最小支持
度が所定の最小支持度閾値以上であり且つ支持度が所定
の支持度閾値以上であるハイパーテキスト集合を選択
し、選択したハイパーテキスト集合の中で、同一順序最
小指示度が所定の同一順序最小支持度閾値以上であり且
つ同一順序支持度が所定の同一順序支持度閾値以上であ
るハイパーテキスト集合をアクセスパターンとすること
を特徴とするハイパーテキストアクセスパターン解析装
置。4. The hypertext access pattern analysis apparatus according to claim 1, wherein the number of users accessing the hypertext provided by the hypertext system is the same as all the hypertexts included in the target hypertext set. The ratio of the number of users who accessed at the time of access is set as the minimum support, and all the hypertexts included in the target hypertext set with respect to the number of users accessing the hypertext included in the target cluster at the same access Using the percentage of the number of users who accessed the document as support, the same access to all the hypertexts included in the target hypertext set relative to the number of users who accessed the hypertext provided by the hypertext system The ratio of the number of users who accessed in the same order is the same order minimum support, and all the hypertexts included in the target hypertext set for the number of users who accessed the hypertexts included in the target cluster The access pattern generation means sets the ratio of the number of users who accessed in the same order at the same access to the same order as the same order support level, and sets the minimum among the hypertext sets formed by combining a plurality of hypertexts included in the target cluster. A hypertext set whose support is equal to or greater than a predetermined minimum support threshold and whose support is equal to or greater than a predetermined support threshold is selected. The same-order support is equal to or more than the minimum support threshold and the same-order support is a predetermined same-order support The hypertext set that is the above and the number of included hypertexts is a predetermined number or more is used as a seed, and various hypertext sets are directly linked to the hypertext included in the seed hypertext set by a link. In the hypertext set obtained by adding the obtained hypertext to the hypertext set and the hypertext set obtained by further adding one or more hypertexts to the hypertext set in the same manner, the same order support is the same. A hypertext set having the same order of support as the seed hypertext set is regarded as an access pattern candidate, and for each access pattern candidate, a hypertext directly connected to the hypertext included in the access pattern candidate by a link. The access In the hypertext set added to the hypertext candidate and the hypertext set obtained by further adding one or more hypertexts to the hypertext set, when the minimum support is equal to or more than a predetermined minimum support threshold, A hypertext set whose support level is equal to or higher than a predetermined support level threshold is selected, and in the selected hypertext set, the same order minimum instruction is equal to or higher than a predetermined same order minimum support level threshold and the same order support is set. A hypertext access pattern analysis device, wherein a hypertext set whose degree is equal to or greater than a predetermined same order support degree threshold is used as an access pattern.
記載のハイパーテキストアクセスパターン解析装置にお
いて、 ハイパーテキスト分類手段は、複数のハイパーテキスト
を階層関係のある複数のクラスタに分類し、 アクセスパターン提示手段は、アクセスパターンの種と
なるハイパーテキスト集合の属するクラスタの階層が深
い順であって当該アクセスパターンに含まれるハイパー
テキストにアクセスしたユーザの数が多い順に、自己の
属する種以外の種を包含するアクセスパターン及び当該
自己の属する種以外の種から生成されたアクセスパター
ンを提示することを特徴とするハイパーテキストアクセ
スパターン解析装置。5. The hypertext access pattern analysis device according to claim 1, wherein the hypertext classification unit classifies the plurality of hypertexts into a plurality of clusters having a hierarchical relationship, The access pattern presenting means is arranged so that the number of users who have accessed the hypertext included in the access pattern in the descending order of the hierarchy of the cluster to which the hypertext set serving as the seed of the access pattern belongs and the number of the users other than the species to which the own belongs belongs. A hypertext access pattern analysis apparatus for presenting an access pattern including a species and an access pattern generated from a species other than the species to which the subject belongs.
記載のハイパーテキストアクセスパターン解析装置にお
いて、 アクセスパターンの指定をユーザから受け付ける受付手
段を備え、 ハイパーテキスト提示手段は、指定されたアクセスパタ
ーンに含まれるハイパーテキストと、当該アクセスパタ
ーンの種となるハイパーテキスト集合の属するクラスタ
に含まれるハイパーテキストの中で当該種となるハイパ
ーテキスト集合に含まれるハイパーテキストと直接的に
リンクで繋がれたハイパーテキストと、当該アクセスパ
ターンの種となるハイパーテキスト集合の属するクラス
タに含まれるハイパーテキストの中で当該種となるハイ
パーテキスト集合に含まれるハイパーテキストから当該
アクセスパターンに含まれる任意の1つのハイパーテキ
ストを経由して到達することが可能なハイパーテキスト
とを提示対象とし、当該指定されたアクセスパターンに
含まれるハイパーテキストと他のハイパーテキストとの
提示態様を異ならせて、ユーザのアクセス数が最大のハ
イパーテキストを根として当該提示対象となるハイパー
テキストを木構造で提示することを特徴とするハイパー
テキストアクセスパターン解析装置。6. The hypertext access pattern analysis device according to claim 1, further comprising: a receiving unit that receives designation of an access pattern from a user, wherein the hypertext presenting unit receives the designated access pattern. The hypertext included in the access pattern is directly linked to the hypertext included in the hypertext set as the seed among the hypertexts included in the cluster to which the hypertext set as the seed of the access pattern belongs. And any one hypertext included in the access pattern from the hypertext included in the hypertext set as the seed among the hypertexts included in the cluster to which the hypertext set as the seed of the access pattern belongs Texture The target of presentation is hypertext that can be reached via the designated access pattern, and the presentation mode of the hypertext included in the specified access pattern is different from that of other hypertexts, so that the number of user accesses is maximized. A hypertext access pattern analysis device characterized by presenting a hypertext to be presented in a tree structure with the hypertext as a root.
当該コンピュータの入力手段が読取可能に記憶した記憶
媒体において、 当該プログラムは、ハイパーテキストシステムにより提
供される複数のハイパーテキストを各ハイパーテキスト
の内容に基づいて複数のクラスタに分類する処理と、 ハイパーテキストに対するユーザ毎のアクセス履歴を検
出する処理と、検出されたユーザ毎のアクセス履歴に基
づいて、各クラスタに関して、当該クラスタに含まれる
複数のハイパーテキストを組合せて成るハイパーテキス
ト集合の中で、ハイパーテキスト集合に含まれる全ての
ハイパーテキストに同一アクセス時にアクセスしたユー
ザの割合が所定値以上であるハイパーテキスト集合を種
とし、種となるハイパーテキスト集合に含まれるハイパ
ーテキストにリンクで繋がれたハイパーテキストを当該
ハイパーテキスト集合に追加して成るアクセスパターン
を生成する処理と、 生成されたアクセスパターンを提示する処理とを当該コ
ンピュータに実行させることを特徴とする記憶媒体。7. A storage medium in which a program to be executed by a computer is stored readable by input means of the computer, the program stores a plurality of hypertexts provided by a hypertext system based on the contents of each hypertext. A process of classifying into a plurality of clusters, a process of detecting an access history of each hypertext user, and a plurality of hypertexts included in the cluster for each cluster based on the detected access history of each user Of the hypertext set consisting of all the hypertexts included in the hypertext set as a seed, and a hypertext set in which the ratio of users accessing the hypertext at the same access is equal to or greater than a predetermined value is included in the seed hypertext set. Hyperte A storage medium for causing a computer to execute a process of generating an access pattern formed by adding hypertext linked to a strike to a hypertext set to the hypertext set, and a process of presenting the generated access pattern. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000113453A JP2001297115A (en) | 2000-04-14 | 2000-04-14 | Hypertext access pattern analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000113453A JP2001297115A (en) | 2000-04-14 | 2000-04-14 | Hypertext access pattern analysis device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001297115A true JP2001297115A (en) | 2001-10-26 |
Family
ID=18625414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000113453A Pending JP2001297115A (en) | 2000-04-14 | 2000-04-14 | Hypertext access pattern analysis device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001297115A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297642A (en) * | 2001-03-30 | 2002-10-11 | Fujitsu Ltd | Alteration support device and computer program |
JP2017068482A (en) * | 2015-09-29 | 2017-04-06 | 株式会社エヌ・ティ・ティ・データ | Information processing apparatus, information processing method, and program |
-
2000
- 2000-04-14 JP JP2000113453A patent/JP2001297115A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297642A (en) * | 2001-03-30 | 2002-10-11 | Fujitsu Ltd | Alteration support device and computer program |
JP2017068482A (en) * | 2015-09-29 | 2017-04-06 | 株式会社エヌ・ティ・ティ・データ | Information processing apparatus, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chi | Improving web usability through visualization | |
Schouten et al. | Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data | |
US8843490B2 (en) | Method and system for automatically extracting data from web sites | |
CN114238573B (en) | Text countercheck sample-based information pushing method and device | |
Lu et al. | BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services | |
RU2387004C2 (en) | Method and system for calculating unit significance value in display page | |
US8494897B1 (en) | Inferring profiles of network users and the resources they access | |
Cooley | Web usage mining: discovery and application of interesting patterns from web data | |
Eirinaki et al. | Web mining for web personalization | |
US7917514B2 (en) | Visual and multi-dimensional search | |
Yi et al. | Web page cleaning for web mining through feature weighting | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
Crescenzi et al. | Clustering web pages based on their structure | |
CA2617954C (en) | Method and system for extracting web data | |
WO2012118087A1 (en) | Recommender system, recommendation method, and program | |
Baumgarten et al. | User-driven navigation pattern discovery from internet data | |
EP2038775A1 (en) | Visual and multi-dimensional search | |
Chakraborty et al. | Ferosa: A faceted recommendation system for scientific articles | |
JP2019125007A (en) | Information analyzer, information analysis method and information analysis program | |
CN109615437A (en) | Sale obtains objective method for tracking and managing | |
Wang et al. | Link prediction in heterogeneous collaboration networks | |
JP2004240887A (en) | Retrieval information display system, retrieval keyword information display method and retrieval keyword information display program | |
JP4431744B2 (en) | Web page information fusion display device, web page information fusion display method, web page information fusion display program, and computer-readable recording medium recording the program | |
CA2614774A1 (en) | Method and system for automatically extracting data from web sites | |
JP2001297115A (en) | Hypertext access pattern analysis device |