JP2010123000A - Web page group extraction method, device and program - Google Patents

Web page group extraction method, device and program Download PDF

Info

Publication number
JP2010123000A
JP2010123000A JP2008297242A JP2008297242A JP2010123000A JP 2010123000 A JP2010123000 A JP 2010123000A JP 2008297242 A JP2008297242 A JP 2008297242A JP 2008297242 A JP2008297242 A JP 2008297242A JP 2010123000 A JP2010123000 A JP 2010123000A
Authority
JP
Japan
Prior art keywords
url
web page
character string
feature vector
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008297242A
Other languages
Japanese (ja)
Inventor
Yukako Kitagawa
結香子 北川
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008297242A priority Critical patent/JP2010123000A/en
Publication of JP2010123000A publication Critical patent/JP2010123000A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To extract Web pages each having similar content in page units as a group by using only URL information from a large number of URLs. <P>SOLUTION: A URL is extracted from an input access log, the URL is regarded as a character string and is divided as a partial character string in each portion, a feature vector is generated based on the appearing partial character string, similarity between the feature vectors is obtained, clustering is performed based on the similarity between the feature vectors, and the URL included in a generated cluster is extracted as the Web page group and is output. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、Webページグループ抽出方法及び装置及びプログラムに係り、特に、アクセスログ等に含まれる大量のURLが与えられた際に、URLに異なりはみられるものの、同様の内容を持つWebページを一つのグループとして抽出するためのWebページグループ抽出方法及び装置及びプログラムに関する。   The present invention relates to a Web page group extraction method, apparatus, and program, and in particular, when a large number of URLs included in an access log or the like are given, although different URLs are seen, Web pages having similar contents are displayed. The present invention relates to a Web page group extraction method, apparatus, and program for extracting as one group.

アクセスログの解析の際には、URLに基づきどのページにどのようなアクセスが行われているかを分析する。このとき、異なるURLであるが、同じWebページへの、あるいは同じ種類のWebページへのアクセスとして処理をすべきURLが存在する。   At the time of analyzing the access log, it is analyzed what access is being made to which page based on the URL. At this time, although there are different URLs, there are URLs that should be processed as access to the same Web page or the same type of Web page.

異なるURLであるが、同じWebページとして扱うべきものには、負荷分散などを目的としたミラーページなど同じ内容を持つWebページがあげられる。このようなページは、Web閲覧者にとっては同じWebページであり、異なるURLであっても同じURLへのアクセスとして処理しなければ解析の精度は低下する。   Examples of different URLs that should be handled as the same Web page include Web pages having the same content such as mirror pages for the purpose of load distribution. Such a page is the same Web page for Web viewers, and even if it is a different URL, the accuracy of analysis is reduced unless it is processed as an access to the same URL.

また、同じ種類のWebページとしては、同種類の多数の項目についてそれぞれにWebページが存在する場合などがあげられる。   In addition, examples of the same type of Web page include a case where a Web page exists for each of many items of the same type.

例えば、EC(Electronic Commerce)サイトにおいて数多くの商品に対し、個別に商品詳細情報のWebページが準備されていることがある。このようなページは、ログ解析の目的によっては、個別のWebページへのアクセスとするよりも、ある一つの種類のWebページヘのアクセスとして処理することで解析の精度が向上する。   For example, a Web page of detailed product information may be prepared individually for many products on an EC (Electronic Commerce) site. Depending on the purpose of log analysis, the accuracy of analysis is improved by processing such a page as an access to a certain type of Web page rather than an access to an individual Web page.

以上のようなことから、異なるURLであるが、同じWebページ、あるいは同じ種類の情報を持つWebページからなるグループを抽出し、一つのWebページのアクセスとして解析対象とする必要がある。   Because of the above, it is necessary to extract a group consisting of Web pages with the same Web page or the same type of information with different URLs, and make it an analysis target as an access to one Web page.

アクセスログに含まれるURLに対し、手作業で同じWebページ、あるいは同じ種類のWebページからなるグループを抽出することは困難である。   It is difficult to manually extract the same Web page or a group of Web pages of the same type from the URL included in the access log.

これに対し、同様の内容を持つWebサイトの抽出方法としてはミラーサイト群の発見方法等がある。この方法は、大量Webページ集合からWebサイトのトップページとなるページを推定し、Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定し、このサイト集合に対し、サイズが一定値以上のサイトを処理対象として絞り込み、サイトが持つリンク文字列、アンカー文字列、内部/外部リンク情報のファイルを作成する。この中から同じ特徴を持つサイトペアをミラーサイトとして選択し、ミラーサイト候補ペアの類似度からミラーサイトペアを検出する(例えば、特許文献1参照)。
特開2004−264926号公報
On the other hand, a method for extracting a Web site having the same contents includes a method for finding a mirror site group. In this method, a page to be a top page of a website is estimated from a large number of web page sets, a site set is determined from a top page estimated for the web page set and pages linked to the top page, and the size of the site set is determined. Sites with a certain value or more are narrowed down as processing targets, and files of link character strings, anchor character strings, and internal / external link information possessed by the sites are created. A site pair having the same characteristics is selected as a mirror site from these, and the mirror site pair is detected from the similarity of the mirror site candidate pairs (see, for example, Patent Document 1).
JP 2004-264926 A

しかしながら、前述した同一Webサイトの抽出方法には、次のような問題がある。   However, the same Web site extraction method described above has the following problems.

(1)同一Webサイトの抽出方法は、アクセスログに含まれるURLと、URLが指し示すWebページに含まれるリンク構造などを利用して、同一サイトを発見するものである。このため、アクセスログを解析する際には、必ずしも含まれるURLにアクセスされた時点でのWebページが取得できるとは限らず、Webページに含まれる情報を利用することができない場合も多い。このような場合には重複するWebページ抽出ができないという問題がある。   (1) The same Web site extraction method uses the URL included in the access log and the link structure included in the Web page indicated by the URL to find the same site. For this reason, when analyzing an access log, it is not always possible to acquire a Web page at the time of accessing an included URL, and there are many cases where information included in the Web page cannot be used. In such a case, there is a problem that overlapping Web pages cannot be extracted.

(2)また、上記の抽出方法は、サイトを単位として同一サイトの発見を目指すものである。このため、同じ内容を持つWebページには必ずしもサイト全体のミラーサイトに含まれるものとは限らず、あるサイトにおいてアクセスが集中する特定のページだけに重複ページが準備されていることも多い。このような場合には、必ずしもサイト全体が重複しているとは限らず、重複するWebページが抽出できないという問題がある。   (2) The above extraction method aims to find the same site in units of sites. For this reason, Web pages having the same contents are not necessarily included in the mirror site of the entire site, and duplicate pages are often prepared only for specific pages where access is concentrated on a certain site. In such a case, the entire site is not necessarily duplicated, and there is a problem that duplicate web pages cannot be extracted.

(3)また、上記の抽出方法は、完全に同一のWebページを抽出するものであり、同じ種類の情報へのアクセスだと考えられるWebページは抽出できない。   (3) In addition, the above extraction method extracts the completely same Web page, and Web pages that are considered to be access to the same type of information cannot be extracted.

上記のように、従来の方法は、アクセスログ解析の際には、Webページが取得されていなくてはならず、サイト単位での抽出方法であるという問題がある。   As described above, the conventional method has a problem that a Web page must be acquired in the access log analysis, and is an extraction method in units of sites.

本発明は、上記の点に鑑みなされたもので、大量のURLからURL情報のみを用いて、ページ単位に同様の内容を持つWebページをグループとして抽出することが可能なWebページグループ抽出方法及び装置及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and a Web page group extraction method capable of extracting, as a group, Web pages having similar contents in units of pages using only URL information from a large number of URLs. An object is to provide an apparatus and a program.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出する方法であって、
アクセスログ入力手段が、入力されたアクセスログからURLを抽出しURL記憶手段に格納するURL抽出ステップ(ステップ1)と、
文字列分割手段が、URL記憶手段からURLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割ステップ(ステップ2)と、
特徴ベクトル算出手段が、出現する部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出ステップ(ステップ3)と、
類似度算出手段が、特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出ステップ(ステップ4)と、
クラスタリング手段が、類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリングステップ(ステップ5)と、を行う。
The present invention (Claim 1) is a method for extracting the same Web page or the same type of Web page as a group from the access log, which are different URLs.
A URL extraction step (step 1) in which the access log input means extracts a URL from the input access log and stores it in the URL storage means;
A character string dividing step (Step 2) in which the character string dividing means reads the URL from the URL storage means, regards the URL as a character string, and divides the URL as a partial character string for each part;
A feature vector calculation means for generating a feature vector based on the appearing partial character string and storing it in the feature vector storage means (step 3);
A similarity calculation unit reads out a feature vector from the feature vector storage unit, obtains a similarity between the feature vectors, and stores it in the similarity storage unit (step 4);
The clustering means reads out the similarity between the feature vectors from the similarity storage means, performs clustering, extracts the URL included in the generated cluster as a Web page group, and outputs it to the URL classification storage means (step 5) ) And do.

また、本発明(請求項2)は、文字列分割ステップ(ステップ2)において、
URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割し、
特徴ベクトル算出ステップ(ステップ3)において、
部分文字列の出現頻度によって特徴ベクトルを求める。
Further, the present invention (Claim 2) is a character string dividing step (Step 2).
Divided into host part, domain part, directory part, query part as partial character string of URL,
In the feature vector calculation step (step 3),
A feature vector is obtained based on the appearance frequency of the partial character string.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項3)は、アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出するWebページグループ抽出装置であって、
入力されたアクセスログからURLを抽出しURL記憶手段3に格納するURL抽出手段2と、
URL記憶手段3からURLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割手段41と、
出現する部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段5に格納する特徴ベクトル算出手段42と、
特徴ベクトル記憶手段5から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段6に格納する類似度算出手段43と、
類似度記憶手段6から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段7に出力するクラスタリング手段と44、を有する。
The present invention (Claim 3) is a Web page group extracting apparatus that extracts the same Web page or the same type of Web page as a group from the access log, which are different URLs.
URL extraction means 2 for extracting a URL from the input access log and storing it in the URL storage means 3;
A character string dividing unit 41 that reads a URL from the URL storage unit 3, regards the URL as a character string, and divides the URL as a partial character string for each part;
A feature vector calculation means 42 for generating a feature vector based on the appearing partial character string and storing it in the feature vector storage means 5;
A similarity calculation unit 43 that reads out a feature vector from the feature vector storage unit 5, calculates a similarity between the feature vectors, and stores it in the similarity storage unit 6;
Clustering means 44 that reads out the similarity between feature vectors from the similarity storage means 6 and performs clustering, extracts URLs included in the generated cluster as a Web page group, and outputs them to the URL classification storage means 7; .

また、本発明(請求項4)は、文字列分割手段41においては、
URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割する手段を含み、
特徴ベクトル算出手段42は、
部分文字列の出現頻度によって特徴ベクトルを求める手段を含む。
Further, according to the present invention (claim 4), in the character string dividing means 41,
Including means for dividing the URL part character string into a host part, a domain part, a directory part, and a query part,
The feature vector calculation means 42
Means for obtaining a feature vector based on the appearance frequency of the partial character string is included.

また、本発明(請求項5)は、請求項3または4のいずれかに記載のWebページグループ抽出装置を構成する各手段としてコンピュータを機能させるためのWebページグループ抽出プログラムである。   The present invention (Claim 5) is a Web page group extraction program for causing a computer to function as each means constituting the Web page group extraction apparatus according to any one of Claims 3 and 4.

上記のように本発明によれば、大量のURLからURL情報のみを用い、異なるURLを持つが同じWebページ、あるいは/及び、同じ種類のWebページをグループとして抽出できる。Webページのグループを抽出することで、それらのWebページへのアクセスを同一Webページへのアクセスとして扱うことができ、アクセスログ解析の精度向上が期待できる。   As described above, according to the present invention, only URL information is used from a large number of URLs, and the same Web page or / and the same type of Web page having different URLs can be extracted as a group. By extracting a group of Web pages, access to those Web pages can be handled as access to the same Web page, and an improvement in access log analysis accuracy can be expected.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図3は、本発明の一実施の形態におけるURL分類装置の構成を示す。   FIG. 3 shows the configuration of the URL classification device in one embodiment of the present invention.

同図に示すURL分類装置は、アクセスログ入力部2、URL記憶部3、URL分類部4、特徴ベクトル記憶部5、類似度記憶部6、URL分類記憶部7から構成される。   The URL classification apparatus shown in FIG. 1 includes an access log input unit 2, a URL storage unit 3, a URL classification unit 4, a feature vector storage unit 5, a similarity storage unit 6, and a URL classification storage unit 7.

アクセスログ入力部2は、収集されたアクセスログ1が入力されると、当該アクセスログからURLを抽出し、URL記憶部3に格納する。   When the collected access log 1 is input, the access log input unit 2 extracts a URL from the access log and stores it in the URL storage unit 3.

URL分類部4は、文字列分割部41、特徴ベクトル算出部42、類似度算出部43、クラスタリング部44から構成される。文字列分割部41は、RL記憶部3からURLを読み出して、当該URLに含まれる文字列を各部位ごとに分割し、特徴ベクトル算出部42は部分文字列を計数し、URL特徴ベクトルを求め、類似度算出部43はURL特徴ベクトル間の類似度を算出し、クラスタリング部44はクラスタリングを行い、その結果をURL分類記憶部7に格納する。   The URL classifying unit 4 includes a character string dividing unit 41, a feature vector calculating unit 42, a similarity calculating unit 43, and a clustering unit 44. The character string dividing unit 41 reads the URL from the RL storage unit 3 and divides the character string included in the URL for each part, and the feature vector calculating unit 42 counts the partial character strings to obtain the URL feature vector. The similarity calculation unit 43 calculates the similarity between URL feature vectors, the clustering unit 44 performs clustering, and stores the result in the URL classification storage unit 7.

以下に上記の構成における動作を説明する。   The operation in the above configuration will be described below.

図4は、本発明の一実施の形態におけるURL分類部の動作のフローチャートである。   FIG. 4 is a flowchart of the operation of the URL classification unit according to the embodiment of the present invention.

ステップ101)まず、文字列分割部41において、URL記憶部3からアクセスログを読み出して、図5に示すようなアクセスログに含まれる各URLについて、含まれる文字列を各部位毎に分割し、さらにディレクトリ部については1階層毎に、クエリ部については1パラメータ毎に分割して抽出する。   Step 101) First, the character string dividing unit 41 reads out the access log from the URL storage unit 3, and for each URL included in the access log as shown in FIG. Further, the directory part is extracted for each layer, and the query part is extracted for each parameter.

以下に分割例を示す。   Examples of division are shown below.

URL例:
http://www.xxx.yuu/path1/path2/path3?param1=value1&param2=value2
分割例:
host部 [www]
domain部 [xxx.yyy]
directory部 [path1,path2,path3]
query部 [param1=value1,param2=value2]
ステップ102)特徴ベクトル算出部42は、URLに含まれる部分文字列を計数し、それに基づいてURL特徴ベクトルを求め、特徴ベクトル記憶部5に格納する。この際、異なる部位に含まれる部分文字列は異なる部分文字列として扱う。
URL example:
http: //www.xxx.yuu/path1/path2/path3? param1 = value1 & param2 = value2
Example of division:
host part [www]
domain part [xxx.yyy]
directory part [path1, path2, path3]
query part [param1 = value1, param2 = value2]
Step 102) The feature vector calculation unit 42 counts the partial character strings included in the URL, obtains a URL feature vector based on the partial character string, and stores it in the feature vector storage unit 5. At this time, partial character strings included in different parts are treated as different partial character strings.

なお、ベクトルの成分数は、対象全URLのhost部に生起する全ての部分文字列の種類数p、同じくdomain部、path部、query部毎に生起する全ての部分文字列の種類数q、r、sを足し合わせて(p+r+s=N)N個である。   Note that the number of vector components is the number p of all partial character strings occurring in the host part of all target URLs, and the number q of all partial character strings occurring in each domain part, path part, and query part. The sum of r and s is (p + r + s = N) N.

図6に示す13個のURL例が与えられたとき、算出されるURL特徴ベクトルの一部を図7に示す。   FIG. 7 shows a part of the URL feature vector calculated when the 13 URL examples shown in FIG. 6 are given.

図6のURL例では、部分文字列の種類数は、
host部:4、domain部:5、directory部:11、query部:5
であり、次元数25の特徴ベクトルにより表される。
In the URL example of FIG. 6, the number of types of partial character strings is
host part: 4, domain part: 5, directory part: 11, query part: 5
And is represented by a feature vector of 25 dimensions.

なお、図7〜図9における番号は図6の同じ行番号のURLを示すものとする。   The numbers in FIGS. 7 to 9 indicate URLs having the same row numbers in FIG.

ステップ103) 次に、類似度算出部43は、特徴ベクトル記憶部5からURL特徴ベクトルを読み出して、当該URL特徴ベクトル間の類似度を算出し、類似度記憶部6に格納する。   Step 103) Next, the similarity calculation unit 43 reads the URL feature vector from the feature vector storage unit 5, calculates the similarity between the URL feature vectors, and stores it in the similarity storage unit 6.

類似度算出部43における、2つのURL特徴ベクトルの類似度sim(a,b)の算出方法にはいくつかの手法が考えられる。例えば、2つのURL特徴ベクトル間の内積を利用することができる。図8に図6のURLリストの各々の2つのURL類似度を示す。類似度記憶部6には、図8に示すURL特徴ベクトル間距離が格納されることになる。   There are several methods for calculating the similarity sim (a, b) between two URL feature vectors in the similarity calculation unit 43. For example, an inner product between two URL feature vectors can be used. FIG. 8 shows two URL similarities in each of the URL lists of FIG. The similarity storage unit 6 stores the distance between URL feature vectors shown in FIG.

ステップ104) クラスタリング部44は、類似度記憶部6から類似度(URL特徴ベクトル間距離)を読み出して、類似するURL特徴ベクトルを同じクラスタにまとめる。クラスタにまとめる手法としては、いくつかの手法が考えられるが、例えば、最短距離法を利用することができる(参考文献:岸田和明、"文書クラスタリングの技法:文献レビュー", Library and Information Science, no.49, pp.33-75 (2003))。なお、ベクトルの類似度が高いものほど近くに位置するベクトルと考えられる。   Step 104) The clustering unit 44 reads the similarity (distance between URL feature vectors) from the similarity storage unit 6 and collects similar URL feature vectors into the same cluster. Several methods are conceivable as methods for grouping into clusters. For example, the shortest distance method can be used (reference: Kazuaki Kishida, “Document clustering technique: literature review”, Library and Information Science, no.49, pp.33-75 (2003)). A vector having a higher degree of similarity is considered to be a vector located closer.

以下に最短距離法によるクラスタリング手法を示す。   The clustering method using the shortest distance method is shown below.

1) 全URL特徴ベクトルを個別に初期クラスタとし、処理を開始する。   1) All URL feature vectors are individually set as initial clusters, and processing is started.

2) まとめられたクラスタと他のクラスタとの距離を、2つのクラスタに属する対象のうち、最も近い対象間の距離をクラスタ間類似度として再計算する。   2) Recalculate the distance between the combined cluster and other clusters, using the distance between the closest objects among the objects belonging to the two clusters as the intercluster similarity.

上記の1)、2)のステップを予め設定した閾値以下の距離を持つクラスタがなくなるまで繰り返す。   The above steps 1) and 2) are repeated until there is no cluster having a distance equal to or smaller than a preset threshold value.

図9に図6のURLリストのクラスタリング結果の樹形図を示す。同じクラスタに含まれるURL特徴ベクトルを持つURLグループを、同じ内容を持つwebページとして抽出し、URL分類記憶部7に格納する。   FIG. 9 shows a tree diagram of the clustering result of the URL list of FIG. URL groups having URL feature vectors included in the same cluster are extracted as web pages having the same contents and stored in the URL classification storage unit 7.

図9において、線に示されている位置に閾値が設定されているとすると、
URL番号1と2;
URL番号9,10と11;
URL番号3,4と5;
URL番号6,7と8;
URL番号12;
URL番号13;
の7つのクラスタが得られる。これは、期待するURLグループと同じである。
In FIG. 9, if a threshold is set at the position indicated by the line,
URL numbers 1 and 2;
URL numbers 9, 10 and 11;
URL numbers 3, 4 and 5;
URL numbers 6, 7 and 8;
URL number 12;
URL number 13;
7 clusters are obtained. This is the same as the expected URL group.

上記のような処理を行うことにより、アクセスログに含まれる大量のURLからURL情報のみ(URLの内容には関与せず)を用い、異なるURLを持つが、同じWebページ、あるいは/及び、同じ種類のWebページをグループとして抽出できる。   By performing the processing as described above, only URL information is used from a large number of URLs included in the access log (not related to the contents of the URL) and has different URLs, but the same Web page or / and the same Web pages of types can be extracted as a group.

なお、上記の図3に示す装置の構成要素の動作をプログラムとして構築し、Webページグループ抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   It is possible to construct the operation of the components of the apparatus shown in FIG. 3 as a program, install it on a computer used as a Web page group extraction apparatus, and execute it, or distribute it via a network. .

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、Webページの検索する技術に適用可能である。   The present invention can be applied to a technique for searching a Web page.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態におけるWebページグループ抽出装置の構成図である。It is a block diagram of the Web page group extraction apparatus in one embodiment of this invention. 本発明の一実施の形態におけるURL分類部の詳細な処理を示すフローチャートである。It is a flowchart which shows the detailed process of the URL classification | category part in one embodiment of this invention. 本発明の一実施の形態におけるURL文字列の例である。It is an example of the URL character string in one embodiment of this invention. 本発明の一実施の形態におけるURLリストの具体例である。It is a specific example of a URL list in an embodiment of the present invention. 本発明の一実施の形態におけるURL特徴ベクトルの具体例である。It is a specific example of the URL feature vector in one embodiment of the present invention. 本発明の一実施の形態におけるURL特徴ベクトル間距離の具体例である。It is a specific example of the distance between URL feature vectors in an embodiment of the present invention. 本発明の一実施の形態におけるクラスタリング結果の例である。It is an example of the clustering result in one embodiment of this invention.

符号の説明Explanation of symbols

1 アクセスログ
2 URL抽出手段、アクセスログ入力部
3 URL記憶手段、URL記憶部
4 URL分類部
5 特徴ベクトル記憶手段
6 類似度記憶手段
7 URL分類記憶手段
41 文字列分割手段、文字列分割部
42 特徴ベクトル算出手段、特徴ベクトル算出部
43 類似度算出手段、類似度算出部
44 クラスタリング手段、クラスタリング部
DESCRIPTION OF SYMBOLS 1 Access log 2 URL extraction means, Access log input part 3 URL memory | storage means, URL memory | storage part 4 URL classification | category part 5 Feature vector memory | storage means 6 Similarity storage means 7 URL classification | category storage means 41 Character string division | segmentation means, Character string division | segmentation part 42 Feature vector calculation means, feature vector calculation section 43 similarity calculation means, similarity calculation section 44 clustering means, clustering section

Claims (5)

アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出する方法であって、
アクセスログ入力手段が、入力された前記アクセスログからURLを抽出しURL記憶手段に格納するURL抽出ステップと、
文字列分割手段が、前記URL記憶手段から前記URLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割ステップと、
特徴ベクトル算出手段が、出現する前記部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出ステップと、
類似度算出手段が、前記特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出ステップと、
クラスタリング手段が、前記類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリングステップと、
を行うことを特徴とするWebページグループ抽出方法。
A method for extracting the same Web page or the same type of Web page as a group from an access log with different URLs,
A URL extraction step in which the access log input means extracts a URL from the inputted access log and stores it in the URL storage means;
A character string dividing unit that reads the URL from the URL storage unit, regards the URL as a character string, and divides the URL as a partial character string for each part; and
A feature vector calculating means for generating a feature vector based on the appearing partial character string and storing it in the feature vector storage means;
A similarity calculation unit reads out a feature vector from the feature vector storage unit, obtains a similarity between the feature vectors, and stores the similarity in the similarity storage unit;
A clustering unit that reads out the similarity between feature vectors from the similarity storage unit, performs clustering, extracts a URL included in the generated cluster as a Web page group, and outputs the URL to the URL classification storage unit;
A Web page group extraction method characterized by:
文字列分割ステップにおいて、
前記URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割し、
前記特徴ベクトル算出ステップにおいて、
前記部分文字列の出現頻度によって前記特徴ベクトルを求める
請求項1記載のWebページグループ抽出方法。
In the string splitting step,
Divided into the host part, domain part, directory part, query part as a partial character string of the URL,
In the feature vector calculation step,
The Web page group extraction method according to claim 1, wherein the feature vector is obtained based on the appearance frequency of the partial character string.
アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出するWebページグループ抽出装置であって、
入力された前記アクセスログからURLを抽出しURL記憶手段に格納するURL抽出手段と、
前記URL記憶手段から前記URLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割手段と、
出現する前記部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出手段と、
前記特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出手段と、
前記類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリング手段と、
を有することを特徴とするWebページグループ抽出装置。
A Web page group extraction device that extracts the same Web page or the same type of Web page as a group from an access log with different URLs,
URL extraction means for extracting a URL from the input access log and storing it in the URL storage means;
Character string dividing means for reading the URL from the URL storage means, regarding the URL as a character string, and dividing the URL as a partial character string for each part;
A feature vector calculating means for generating a feature vector based on the appearing partial character string and storing it in a feature vector storage means;
A similarity calculation unit that reads out a feature vector from the feature vector storage unit, obtains a similarity between the feature vectors, and stores the similarity in the similarity storage unit;
Clustering means for reading out similarity between feature vectors from the similarity storage means, performing clustering, extracting URLs included in the generated cluster as Web page groups, and outputting them to URL classification storage means;
A Web page group extracting apparatus characterized by comprising:
文字列分割手段は、
前記URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割する手段を含み、
前記特徴ベクトル算出手段は、
前記部分文字列の出現頻度によって前記特徴ベクトルを求める手段を含む
請求項3記載のWebページグループ抽出装置。
The character string dividing means is
Means for dividing the URL partial character string into a host part, a domain part, a directory part, and a query part;
The feature vector calculation means includes:
The Web page group extraction device according to claim 3, further comprising means for obtaining the feature vector based on the appearance frequency of the partial character string.
請求項3または4のいずれかに記載のWebページグループ抽出装置を構成する各手段としてコンピュータを機能させるためのWebページグループ抽出プログラム。   A Web page group extraction program for causing a computer to function as each means constituting the Web page group extraction device according to claim 3.
JP2008297242A 2008-11-20 2008-11-20 Web page group extraction method, device and program Pending JP2010123000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297242A JP2010123000A (en) 2008-11-20 2008-11-20 Web page group extraction method, device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297242A JP2010123000A (en) 2008-11-20 2008-11-20 Web page group extraction method, device and program

Publications (1)

Publication Number Publication Date
JP2010123000A true JP2010123000A (en) 2010-06-03

Family

ID=42324274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297242A Pending JP2010123000A (en) 2008-11-20 2008-11-20 Web page group extraction method, device and program

Country Status (1)

Country Link
JP (1) JP2010123000A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253991A (en) * 2011-05-25 2011-11-23 北京星网锐捷网络技术有限公司 Uniform resource locator (URL) storage method, web filtering method, device and system
CN102629282A (en) * 2012-05-03 2012-08-08 湖南神州祥网科技有限公司 Website classification method, device and system
JP2014119838A (en) * 2012-12-13 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> Device for providing user action visualization information, method, program, and access log analysis device
JP2015022732A (en) * 2013-07-23 2015-02-02 富士通株式会社 Classification pattern creation method, classification pattern creation device, and classification pattern creation program
JP2015162075A (en) * 2014-02-27 2015-09-07 理想科学工業株式会社 Print job generation device
WO2015196740A1 (en) * 2014-06-25 2015-12-30 华南理工大学 Information forecast and acquisition method based on webpage link parameter analysis
KR101717063B1 (en) * 2015-12-30 2017-03-17 네이버 주식회사 Web crawling apparatus and method
WO2017117912A1 (en) * 2016-01-04 2017-07-13 百度在线网络技术(北京)有限公司 Data acquisition method, apparatus and device, and computer storage medium
CN110825941A (en) * 2019-10-17 2020-02-21 北京天融信网络安全技术有限公司 Content management system identification method, device and storage medium
WO2020122339A1 (en) * 2018-12-11 2020-06-18 삼성전자주식회사 Electronic device and control method therefor

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172708A (en) * 1998-12-08 2000-06-23 Fuji Xerox Co Ltd Device and method for analyzing hypertext and storage medium recording hypertext analysis program
JP2004341942A (en) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program, and storage medium storing content classification program
JP2005148846A (en) * 2003-11-11 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Content classifying system and method, computer program, and recording medium
JP2006331089A (en) * 2005-05-26 2006-12-07 Toshiba Corp Method and device for generating time series data from webpage
JP2007323334A (en) * 2006-05-31 2007-12-13 Waakuatto:Kk Web page extraction system, advertisement distribution system using the same, and advertising distribution program
JP2008009711A (en) * 2006-06-29 2008-01-17 Hitachi Ltd Computer system, program, and search engine search method
JP2008204425A (en) * 2007-01-26 2008-09-04 Yahoo Japan Corp Processing omission decision program for similarity analysis of url

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172708A (en) * 1998-12-08 2000-06-23 Fuji Xerox Co Ltd Device and method for analyzing hypertext and storage medium recording hypertext analysis program
JP2004341942A (en) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program, and storage medium storing content classification program
JP2005148846A (en) * 2003-11-11 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Content classifying system and method, computer program, and recording medium
JP2006331089A (en) * 2005-05-26 2006-12-07 Toshiba Corp Method and device for generating time series data from webpage
JP2007323334A (en) * 2006-05-31 2007-12-13 Waakuatto:Kk Web page extraction system, advertisement distribution system using the same, and advertising distribution program
JP2008009711A (en) * 2006-06-29 2008-01-17 Hitachi Ltd Computer system, program, and search engine search method
JP2008204425A (en) * 2007-01-26 2008-09-04 Yahoo Japan Corp Processing omission decision program for similarity analysis of url

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253991A (en) * 2011-05-25 2011-11-23 北京星网锐捷网络技术有限公司 Uniform resource locator (URL) storage method, web filtering method, device and system
CN102253991B (en) * 2011-05-25 2014-07-30 北京星网锐捷网络技术有限公司 Uniform resource locator (URL) storage method, web filtering method, device and system
CN102629282A (en) * 2012-05-03 2012-08-08 湖南神州祥网科技有限公司 Website classification method, device and system
JP2014119838A (en) * 2012-12-13 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> Device for providing user action visualization information, method, program, and access log analysis device
JP2015022732A (en) * 2013-07-23 2015-02-02 富士通株式会社 Classification pattern creation method, classification pattern creation device, and classification pattern creation program
JP2015162075A (en) * 2014-02-27 2015-09-07 理想科学工業株式会社 Print job generation device
WO2015196740A1 (en) * 2014-06-25 2015-12-30 华南理工大学 Information forecast and acquisition method based on webpage link parameter analysis
KR101717063B1 (en) * 2015-12-30 2017-03-17 네이버 주식회사 Web crawling apparatus and method
WO2017117912A1 (en) * 2016-01-04 2017-07-13 百度在线网络技术(北京)有限公司 Data acquisition method, apparatus and device, and computer storage medium
WO2020122339A1 (en) * 2018-12-11 2020-06-18 삼성전자주식회사 Electronic device and control method therefor
US11531722B2 (en) 2018-12-11 2022-12-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor
CN110825941A (en) * 2019-10-17 2020-02-21 北京天融信网络安全技术有限公司 Content management system identification method, device and storage medium

Similar Documents

Publication Publication Date Title
JP2010123000A (en) Web page group extraction method, device and program
TWI524193B (en) Computer-readable media and computer-implemented method for semantic table of contents for search results
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US9251274B2 (en) Grouping search results into a profile page
CN105512143A (en) Method and device for web page classification
CN112136123A (en) Characterizing documents for similarity search
KR101651780B1 (en) Method and system for extracting association words exploiting big data processing technologies
US8290925B1 (en) Locating product references in content pages
US20190362187A1 (en) Training data creation method and training data creation apparatus
Abirami et al. Performance analysis of K-means and bisecting K-means algorithms in Weblog data
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
JP5366212B2 (en) Video search apparatus, program, and method for searching from multiple reference videos using search key video
WO2018047027A1 (en) A method for exploring traffic passive traces and grouping similar urls
CN111177719A (en) Address category determination method, device, computer-readable storage medium and equipment
US8370390B1 (en) Method and apparatus for identifying near-duplicate documents
WO2022003991A1 (en) Two-dimensional map generation device, two-dimensional map generation method, and program for generating two-dimensional map
CN103744970A (en) Method and device for determining subject term of picture
US20150081477A1 (en) Search query analysis device, search query analysis method, and computer-readable recording medium
CN108595453B (en) URL (Uniform resource locator) identifier mapping obtaining method and device
JP6727097B2 (en) Information processing apparatus, information processing method, and program
JP2011248671A (en) Image retrieval device, program, and method for retrieving image among multiple reference images using image for retrieval key
Shafiq et al. Towards building a urdu language corpus using common crawl
KR101698280B1 (en) Apparatus and Method for searching web page for tags
JP2007188427A (en) Subject image selecting method, device, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130312