JP2010123000A - Web page group extraction method, device and program - Google Patents
Web page group extraction method, device and program Download PDFInfo
- Publication number
- JP2010123000A JP2010123000A JP2008297242A JP2008297242A JP2010123000A JP 2010123000 A JP2010123000 A JP 2010123000A JP 2008297242 A JP2008297242 A JP 2008297242A JP 2008297242 A JP2008297242 A JP 2008297242A JP 2010123000 A JP2010123000 A JP 2010123000A
- Authority
- JP
- Japan
- Prior art keywords
- url
- web page
- character string
- feature vector
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、Webページグループ抽出方法及び装置及びプログラムに係り、特に、アクセスログ等に含まれる大量のURLが与えられた際に、URLに異なりはみられるものの、同様の内容を持つWebページを一つのグループとして抽出するためのWebページグループ抽出方法及び装置及びプログラムに関する。 The present invention relates to a Web page group extraction method, apparatus, and program, and in particular, when a large number of URLs included in an access log or the like are given, although different URLs are seen, Web pages having similar contents are displayed. The present invention relates to a Web page group extraction method, apparatus, and program for extracting as one group.
アクセスログの解析の際には、URLに基づきどのページにどのようなアクセスが行われているかを分析する。このとき、異なるURLであるが、同じWebページへの、あるいは同じ種類のWebページへのアクセスとして処理をすべきURLが存在する。 At the time of analyzing the access log, it is analyzed what access is being made to which page based on the URL. At this time, although there are different URLs, there are URLs that should be processed as access to the same Web page or the same type of Web page.
異なるURLであるが、同じWebページとして扱うべきものには、負荷分散などを目的としたミラーページなど同じ内容を持つWebページがあげられる。このようなページは、Web閲覧者にとっては同じWebページであり、異なるURLであっても同じURLへのアクセスとして処理しなければ解析の精度は低下する。 Examples of different URLs that should be handled as the same Web page include Web pages having the same content such as mirror pages for the purpose of load distribution. Such a page is the same Web page for Web viewers, and even if it is a different URL, the accuracy of analysis is reduced unless it is processed as an access to the same URL.
また、同じ種類のWebページとしては、同種類の多数の項目についてそれぞれにWebページが存在する場合などがあげられる。 In addition, examples of the same type of Web page include a case where a Web page exists for each of many items of the same type.
例えば、EC(Electronic Commerce)サイトにおいて数多くの商品に対し、個別に商品詳細情報のWebページが準備されていることがある。このようなページは、ログ解析の目的によっては、個別のWebページへのアクセスとするよりも、ある一つの種類のWebページヘのアクセスとして処理することで解析の精度が向上する。 For example, a Web page of detailed product information may be prepared individually for many products on an EC (Electronic Commerce) site. Depending on the purpose of log analysis, the accuracy of analysis is improved by processing such a page as an access to a certain type of Web page rather than an access to an individual Web page.
以上のようなことから、異なるURLであるが、同じWebページ、あるいは同じ種類の情報を持つWebページからなるグループを抽出し、一つのWebページのアクセスとして解析対象とする必要がある。 Because of the above, it is necessary to extract a group consisting of Web pages with the same Web page or the same type of information with different URLs, and make it an analysis target as an access to one Web page.
アクセスログに含まれるURLに対し、手作業で同じWebページ、あるいは同じ種類のWebページからなるグループを抽出することは困難である。 It is difficult to manually extract the same Web page or a group of Web pages of the same type from the URL included in the access log.
これに対し、同様の内容を持つWebサイトの抽出方法としてはミラーサイト群の発見方法等がある。この方法は、大量Webページ集合からWebサイトのトップページとなるページを推定し、Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定し、このサイト集合に対し、サイズが一定値以上のサイトを処理対象として絞り込み、サイトが持つリンク文字列、アンカー文字列、内部/外部リンク情報のファイルを作成する。この中から同じ特徴を持つサイトペアをミラーサイトとして選択し、ミラーサイト候補ペアの類似度からミラーサイトペアを検出する(例えば、特許文献1参照)。
しかしながら、前述した同一Webサイトの抽出方法には、次のような問題がある。 However, the same Web site extraction method described above has the following problems.
(1)同一Webサイトの抽出方法は、アクセスログに含まれるURLと、URLが指し示すWebページに含まれるリンク構造などを利用して、同一サイトを発見するものである。このため、アクセスログを解析する際には、必ずしも含まれるURLにアクセスされた時点でのWebページが取得できるとは限らず、Webページに含まれる情報を利用することができない場合も多い。このような場合には重複するWebページ抽出ができないという問題がある。 (1) The same Web site extraction method uses the URL included in the access log and the link structure included in the Web page indicated by the URL to find the same site. For this reason, when analyzing an access log, it is not always possible to acquire a Web page at the time of accessing an included URL, and there are many cases where information included in the Web page cannot be used. In such a case, there is a problem that overlapping Web pages cannot be extracted.
(2)また、上記の抽出方法は、サイトを単位として同一サイトの発見を目指すものである。このため、同じ内容を持つWebページには必ずしもサイト全体のミラーサイトに含まれるものとは限らず、あるサイトにおいてアクセスが集中する特定のページだけに重複ページが準備されていることも多い。このような場合には、必ずしもサイト全体が重複しているとは限らず、重複するWebページが抽出できないという問題がある。 (2) The above extraction method aims to find the same site in units of sites. For this reason, Web pages having the same contents are not necessarily included in the mirror site of the entire site, and duplicate pages are often prepared only for specific pages where access is concentrated on a certain site. In such a case, the entire site is not necessarily duplicated, and there is a problem that duplicate web pages cannot be extracted.
(3)また、上記の抽出方法は、完全に同一のWebページを抽出するものであり、同じ種類の情報へのアクセスだと考えられるWebページは抽出できない。 (3) In addition, the above extraction method extracts the completely same Web page, and Web pages that are considered to be access to the same type of information cannot be extracted.
上記のように、従来の方法は、アクセスログ解析の際には、Webページが取得されていなくてはならず、サイト単位での抽出方法であるという問題がある。 As described above, the conventional method has a problem that a Web page must be acquired in the access log analysis, and is an extraction method in units of sites.
本発明は、上記の点に鑑みなされたもので、大量のURLからURL情報のみを用いて、ページ単位に同様の内容を持つWebページをグループとして抽出することが可能なWebページグループ抽出方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and a Web page group extraction method capable of extracting, as a group, Web pages having similar contents in units of pages using only URL information from a large number of URLs. An object is to provide an apparatus and a program.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出する方法であって、
アクセスログ入力手段が、入力されたアクセスログからURLを抽出しURL記憶手段に格納するURL抽出ステップ(ステップ1)と、
文字列分割手段が、URL記憶手段からURLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割ステップ(ステップ2)と、
特徴ベクトル算出手段が、出現する部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出ステップ(ステップ3)と、
類似度算出手段が、特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出ステップ(ステップ4)と、
クラスタリング手段が、類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリングステップ(ステップ5)と、を行う。
The present invention (Claim 1) is a method for extracting the same Web page or the same type of Web page as a group from the access log, which are different URLs.
A URL extraction step (step 1) in which the access log input means extracts a URL from the input access log and stores it in the URL storage means;
A character string dividing step (Step 2) in which the character string dividing means reads the URL from the URL storage means, regards the URL as a character string, and divides the URL as a partial character string for each part;
A feature vector calculation means for generating a feature vector based on the appearing partial character string and storing it in the feature vector storage means (step 3);
A similarity calculation unit reads out a feature vector from the feature vector storage unit, obtains a similarity between the feature vectors, and stores it in the similarity storage unit (step 4);
The clustering means reads out the similarity between the feature vectors from the similarity storage means, performs clustering, extracts the URL included in the generated cluster as a Web page group, and outputs it to the URL classification storage means (step 5) ) And do.
また、本発明(請求項2)は、文字列分割ステップ(ステップ2)において、
URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割し、
特徴ベクトル算出ステップ(ステップ3)において、
部分文字列の出現頻度によって特徴ベクトルを求める。
Further, the present invention (Claim 2) is a character string dividing step (Step 2).
Divided into host part, domain part, directory part, query part as partial character string of URL,
In the feature vector calculation step (step 3),
A feature vector is obtained based on the appearance frequency of the partial character string.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項3)は、アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出するWebページグループ抽出装置であって、
入力されたアクセスログからURLを抽出しURL記憶手段3に格納するURL抽出手段2と、
URL記憶手段3からURLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割手段41と、
出現する部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段5に格納する特徴ベクトル算出手段42と、
特徴ベクトル記憶手段5から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段6に格納する類似度算出手段43と、
類似度記憶手段6から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段7に出力するクラスタリング手段と44、を有する。
The present invention (Claim 3) is a Web page group extracting apparatus that extracts the same Web page or the same type of Web page as a group from the access log, which are different URLs.
URL extraction means 2 for extracting a URL from the input access log and storing it in the URL storage means 3;
A character
A feature vector calculation means 42 for generating a feature vector based on the appearing partial character string and storing it in the feature vector storage means 5;
A
Clustering means 44 that reads out the similarity between feature vectors from the similarity storage means 6 and performs clustering, extracts URLs included in the generated cluster as a Web page group, and outputs them to the URL classification storage means 7; .
また、本発明(請求項4)は、文字列分割手段41においては、
URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割する手段を含み、
特徴ベクトル算出手段42は、
部分文字列の出現頻度によって特徴ベクトルを求める手段を含む。
Further, according to the present invention (claim 4), in the character string dividing means 41,
Including means for dividing the URL part character string into a host part, a domain part, a directory part, and a query part,
The feature vector calculation means 42
Means for obtaining a feature vector based on the appearance frequency of the partial character string is included.
また、本発明(請求項5)は、請求項3または4のいずれかに記載のWebページグループ抽出装置を構成する各手段としてコンピュータを機能させるためのWebページグループ抽出プログラムである。
The present invention (Claim 5) is a Web page group extraction program for causing a computer to function as each means constituting the Web page group extraction apparatus according to any one of
上記のように本発明によれば、大量のURLからURL情報のみを用い、異なるURLを持つが同じWebページ、あるいは/及び、同じ種類のWebページをグループとして抽出できる。Webページのグループを抽出することで、それらのWebページへのアクセスを同一Webページへのアクセスとして扱うことができ、アクセスログ解析の精度向上が期待できる。 As described above, according to the present invention, only URL information is used from a large number of URLs, and the same Web page or / and the same type of Web page having different URLs can be extracted as a group. By extracting a group of Web pages, access to those Web pages can be handled as access to the same Web page, and an improvement in access log analysis accuracy can be expected.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態におけるURL分類装置の構成を示す。 FIG. 3 shows the configuration of the URL classification device in one embodiment of the present invention.
同図に示すURL分類装置は、アクセスログ入力部2、URL記憶部3、URL分類部4、特徴ベクトル記憶部5、類似度記憶部6、URL分類記憶部7から構成される。
The URL classification apparatus shown in FIG. 1 includes an access
アクセスログ入力部2は、収集されたアクセスログ1が入力されると、当該アクセスログからURLを抽出し、URL記憶部3に格納する。
When the collected
URL分類部4は、文字列分割部41、特徴ベクトル算出部42、類似度算出部43、クラスタリング部44から構成される。文字列分割部41は、RL記憶部3からURLを読み出して、当該URLに含まれる文字列を各部位ごとに分割し、特徴ベクトル算出部42は部分文字列を計数し、URL特徴ベクトルを求め、類似度算出部43はURL特徴ベクトル間の類似度を算出し、クラスタリング部44はクラスタリングを行い、その結果をURL分類記憶部7に格納する。
The
以下に上記の構成における動作を説明する。 The operation in the above configuration will be described below.
図4は、本発明の一実施の形態におけるURL分類部の動作のフローチャートである。 FIG. 4 is a flowchart of the operation of the URL classification unit according to the embodiment of the present invention.
ステップ101)まず、文字列分割部41において、URL記憶部3からアクセスログを読み出して、図5に示すようなアクセスログに含まれる各URLについて、含まれる文字列を各部位毎に分割し、さらにディレクトリ部については1階層毎に、クエリ部については1パラメータ毎に分割して抽出する。
Step 101) First, the character
以下に分割例を示す。 Examples of division are shown below.
URL例:
http://www.xxx.yuu/path1/path2/path3?param1=value1¶m2=value2
分割例:
host部 [www]
domain部 [xxx.yyy]
directory部 [path1,path2,path3]
query部 [param1=value1,param2=value2]
ステップ102)特徴ベクトル算出部42は、URLに含まれる部分文字列を計数し、それに基づいてURL特徴ベクトルを求め、特徴ベクトル記憶部5に格納する。この際、異なる部位に含まれる部分文字列は異なる部分文字列として扱う。
URL example:
http: //www.xxx.yuu/path1/path2/path3? param1 = value1 & param2 = value2
Example of division:
host part [www]
domain part [xxx.yyy]
directory part [path1, path2, path3]
query part [param1 = value1, param2 = value2]
Step 102) The feature
なお、ベクトルの成分数は、対象全URLのhost部に生起する全ての部分文字列の種類数p、同じくdomain部、path部、query部毎に生起する全ての部分文字列の種類数q、r、sを足し合わせて(p+r+s=N)N個である。 Note that the number of vector components is the number p of all partial character strings occurring in the host part of all target URLs, and the number q of all partial character strings occurring in each domain part, path part, and query part. The sum of r and s is (p + r + s = N) N.
図6に示す13個のURL例が与えられたとき、算出されるURL特徴ベクトルの一部を図7に示す。 FIG. 7 shows a part of the URL feature vector calculated when the 13 URL examples shown in FIG. 6 are given.
図6のURL例では、部分文字列の種類数は、
host部:4、domain部:5、directory部:11、query部:5
であり、次元数25の特徴ベクトルにより表される。
In the URL example of FIG. 6, the number of types of partial character strings is
host part: 4, domain part: 5, directory part: 11, query part: 5
And is represented by a feature vector of 25 dimensions.
なお、図7〜図9における番号は図6の同じ行番号のURLを示すものとする。 The numbers in FIGS. 7 to 9 indicate URLs having the same row numbers in FIG.
ステップ103) 次に、類似度算出部43は、特徴ベクトル記憶部5からURL特徴ベクトルを読み出して、当該URL特徴ベクトル間の類似度を算出し、類似度記憶部6に格納する。
Step 103) Next, the
類似度算出部43における、2つのURL特徴ベクトルの類似度sim(a,b)の算出方法にはいくつかの手法が考えられる。例えば、2つのURL特徴ベクトル間の内積を利用することができる。図8に図6のURLリストの各々の2つのURL類似度を示す。類似度記憶部6には、図8に示すURL特徴ベクトル間距離が格納されることになる。
There are several methods for calculating the similarity sim (a, b) between two URL feature vectors in the
ステップ104) クラスタリング部44は、類似度記憶部6から類似度(URL特徴ベクトル間距離)を読み出して、類似するURL特徴ベクトルを同じクラスタにまとめる。クラスタにまとめる手法としては、いくつかの手法が考えられるが、例えば、最短距離法を利用することができる(参考文献:岸田和明、"文書クラスタリングの技法:文献レビュー", Library and Information Science, no.49, pp.33-75 (2003))。なお、ベクトルの類似度が高いものほど近くに位置するベクトルと考えられる。
Step 104) The
以下に最短距離法によるクラスタリング手法を示す。 The clustering method using the shortest distance method is shown below.
1) 全URL特徴ベクトルを個別に初期クラスタとし、処理を開始する。 1) All URL feature vectors are individually set as initial clusters, and processing is started.
2) まとめられたクラスタと他のクラスタとの距離を、2つのクラスタに属する対象のうち、最も近い対象間の距離をクラスタ間類似度として再計算する。 2) Recalculate the distance between the combined cluster and other clusters, using the distance between the closest objects among the objects belonging to the two clusters as the intercluster similarity.
上記の1)、2)のステップを予め設定した閾値以下の距離を持つクラスタがなくなるまで繰り返す。 The above steps 1) and 2) are repeated until there is no cluster having a distance equal to or smaller than a preset threshold value.
図9に図6のURLリストのクラスタリング結果の樹形図を示す。同じクラスタに含まれるURL特徴ベクトルを持つURLグループを、同じ内容を持つwebページとして抽出し、URL分類記憶部7に格納する。
FIG. 9 shows a tree diagram of the clustering result of the URL list of FIG. URL groups having URL feature vectors included in the same cluster are extracted as web pages having the same contents and stored in the URL
図9において、線に示されている位置に閾値が設定されているとすると、
URL番号1と2;
URL番号9,10と11;
URL番号3,4と5;
URL番号6,7と8;
URL番号12;
URL番号13;
の7つのクラスタが得られる。これは、期待するURLグループと同じである。
In FIG. 9, if a threshold is set at the position indicated by the line,
7 clusters are obtained. This is the same as the expected URL group.
上記のような処理を行うことにより、アクセスログに含まれる大量のURLからURL情報のみ(URLの内容には関与せず)を用い、異なるURLを持つが、同じWebページ、あるいは/及び、同じ種類のWebページをグループとして抽出できる。 By performing the processing as described above, only URL information is used from a large number of URLs included in the access log (not related to the contents of the URL) and has different URLs, but the same Web page or / and the same Web pages of types can be extracted as a group.
なお、上記の図3に示す装置の構成要素の動作をプログラムとして構築し、Webページグループ抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 It is possible to construct the operation of the components of the apparatus shown in FIG. 3 as a program, install it on a computer used as a Web page group extraction apparatus, and execute it, or distribute it via a network. .
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、Webページの検索する技術に適用可能である。 The present invention can be applied to a technique for searching a Web page.
1 アクセスログ
2 URL抽出手段、アクセスログ入力部
3 URL記憶手段、URL記憶部
4 URL分類部
5 特徴ベクトル記憶手段
6 類似度記憶手段
7 URL分類記憶手段
41 文字列分割手段、文字列分割部
42 特徴ベクトル算出手段、特徴ベクトル算出部
43 類似度算出手段、類似度算出部
44 クラスタリング手段、クラスタリング部
DESCRIPTION OF
Claims (5)
アクセスログ入力手段が、入力された前記アクセスログからURLを抽出しURL記憶手段に格納するURL抽出ステップと、
文字列分割手段が、前記URL記憶手段から前記URLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割ステップと、
特徴ベクトル算出手段が、出現する前記部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出ステップと、
類似度算出手段が、前記特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出ステップと、
クラスタリング手段が、前記類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリングステップと、
を行うことを特徴とするWebページグループ抽出方法。 A method for extracting the same Web page or the same type of Web page as a group from an access log with different URLs,
A URL extraction step in which the access log input means extracts a URL from the inputted access log and stores it in the URL storage means;
A character string dividing unit that reads the URL from the URL storage unit, regards the URL as a character string, and divides the URL as a partial character string for each part; and
A feature vector calculating means for generating a feature vector based on the appearing partial character string and storing it in the feature vector storage means;
A similarity calculation unit reads out a feature vector from the feature vector storage unit, obtains a similarity between the feature vectors, and stores the similarity in the similarity storage unit;
A clustering unit that reads out the similarity between feature vectors from the similarity storage unit, performs clustering, extracts a URL included in the generated cluster as a Web page group, and outputs the URL to the URL classification storage unit;
A Web page group extraction method characterized by:
前記URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割し、
前記特徴ベクトル算出ステップにおいて、
前記部分文字列の出現頻度によって前記特徴ベクトルを求める
請求項1記載のWebページグループ抽出方法。 In the string splitting step,
Divided into the host part, domain part, directory part, query part as a partial character string of the URL,
In the feature vector calculation step,
The Web page group extraction method according to claim 1, wherein the feature vector is obtained based on the appearance frequency of the partial character string.
入力された前記アクセスログからURLを抽出しURL記憶手段に格納するURL抽出手段と、
前記URL記憶手段から前記URLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割手段と、
出現する前記部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出手段と、
前記特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出手段と、
前記類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリング手段と、
を有することを特徴とするWebページグループ抽出装置。 A Web page group extraction device that extracts the same Web page or the same type of Web page as a group from an access log with different URLs,
URL extraction means for extracting a URL from the input access log and storing it in the URL storage means;
Character string dividing means for reading the URL from the URL storage means, regarding the URL as a character string, and dividing the URL as a partial character string for each part;
A feature vector calculating means for generating a feature vector based on the appearing partial character string and storing it in a feature vector storage means;
A similarity calculation unit that reads out a feature vector from the feature vector storage unit, obtains a similarity between the feature vectors, and stores the similarity in the similarity storage unit;
Clustering means for reading out similarity between feature vectors from the similarity storage means, performing clustering, extracting URLs included in the generated cluster as Web page groups, and outputting them to URL classification storage means;
A Web page group extracting apparatus characterized by comprising:
前記URLの部分文字列としてホスト部、ドメイン部、ディレクトリ部、クエリ部毎に分割する手段を含み、
前記特徴ベクトル算出手段は、
前記部分文字列の出現頻度によって前記特徴ベクトルを求める手段を含む
請求項3記載のWebページグループ抽出装置。 The character string dividing means is
Means for dividing the URL partial character string into a host part, a domain part, a directory part, and a query part;
The feature vector calculation means includes:
The Web page group extraction device according to claim 3, further comprising means for obtaining the feature vector based on the appearance frequency of the partial character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008297242A JP2010123000A (en) | 2008-11-20 | 2008-11-20 | Web page group extraction method, device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008297242A JP2010123000A (en) | 2008-11-20 | 2008-11-20 | Web page group extraction method, device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010123000A true JP2010123000A (en) | 2010-06-03 |
Family
ID=42324274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008297242A Pending JP2010123000A (en) | 2008-11-20 | 2008-11-20 | Web page group extraction method, device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010123000A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253991A (en) * | 2011-05-25 | 2011-11-23 | 北京星网锐捷网络技术有限公司 | Uniform resource locator (URL) storage method, web filtering method, device and system |
CN102629282A (en) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | Website classification method, device and system |
JP2014119838A (en) * | 2012-12-13 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | Device for providing user action visualization information, method, program, and access log analysis device |
JP2015022732A (en) * | 2013-07-23 | 2015-02-02 | 富士通株式会社 | Classification pattern creation method, classification pattern creation device, and classification pattern creation program |
JP2015162075A (en) * | 2014-02-27 | 2015-09-07 | 理想科学工業株式会社 | Print job generation device |
WO2015196740A1 (en) * | 2014-06-25 | 2015-12-30 | 华南理工大学 | Information forecast and acquisition method based on webpage link parameter analysis |
KR101717063B1 (en) * | 2015-12-30 | 2017-03-17 | 네이버 주식회사 | Web crawling apparatus and method |
WO2017117912A1 (en) * | 2016-01-04 | 2017-07-13 | 百度在线网络技术(北京)有限公司 | Data acquisition method, apparatus and device, and computer storage medium |
CN110825941A (en) * | 2019-10-17 | 2020-02-21 | 北京天融信网络安全技术有限公司 | Content management system identification method, device and storage medium |
WO2020122339A1 (en) * | 2018-12-11 | 2020-06-18 | 삼성전자주식회사 | Electronic device and control method therefor |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172708A (en) * | 1998-12-08 | 2000-06-23 | Fuji Xerox Co Ltd | Device and method for analyzing hypertext and storage medium recording hypertext analysis program |
JP2004341942A (en) * | 2003-05-16 | 2004-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Content classification method, content classification device, content classification program, and storage medium storing content classification program |
JP2005148846A (en) * | 2003-11-11 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Content classifying system and method, computer program, and recording medium |
JP2006331089A (en) * | 2005-05-26 | 2006-12-07 | Toshiba Corp | Method and device for generating time series data from webpage |
JP2007323334A (en) * | 2006-05-31 | 2007-12-13 | Waakuatto:Kk | Web page extraction system, advertisement distribution system using the same, and advertising distribution program |
JP2008009711A (en) * | 2006-06-29 | 2008-01-17 | Hitachi Ltd | Computer system, program, and search engine search method |
JP2008204425A (en) * | 2007-01-26 | 2008-09-04 | Yahoo Japan Corp | Processing omission decision program for similarity analysis of url |
-
2008
- 2008-11-20 JP JP2008297242A patent/JP2010123000A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172708A (en) * | 1998-12-08 | 2000-06-23 | Fuji Xerox Co Ltd | Device and method for analyzing hypertext and storage medium recording hypertext analysis program |
JP2004341942A (en) * | 2003-05-16 | 2004-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Content classification method, content classification device, content classification program, and storage medium storing content classification program |
JP2005148846A (en) * | 2003-11-11 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Content classifying system and method, computer program, and recording medium |
JP2006331089A (en) * | 2005-05-26 | 2006-12-07 | Toshiba Corp | Method and device for generating time series data from webpage |
JP2007323334A (en) * | 2006-05-31 | 2007-12-13 | Waakuatto:Kk | Web page extraction system, advertisement distribution system using the same, and advertising distribution program |
JP2008009711A (en) * | 2006-06-29 | 2008-01-17 | Hitachi Ltd | Computer system, program, and search engine search method |
JP2008204425A (en) * | 2007-01-26 | 2008-09-04 | Yahoo Japan Corp | Processing omission decision program for similarity analysis of url |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253991A (en) * | 2011-05-25 | 2011-11-23 | 北京星网锐捷网络技术有限公司 | Uniform resource locator (URL) storage method, web filtering method, device and system |
CN102253991B (en) * | 2011-05-25 | 2014-07-30 | 北京星网锐捷网络技术有限公司 | Uniform resource locator (URL) storage method, web filtering method, device and system |
CN102629282A (en) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | Website classification method, device and system |
JP2014119838A (en) * | 2012-12-13 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | Device for providing user action visualization information, method, program, and access log analysis device |
JP2015022732A (en) * | 2013-07-23 | 2015-02-02 | 富士通株式会社 | Classification pattern creation method, classification pattern creation device, and classification pattern creation program |
JP2015162075A (en) * | 2014-02-27 | 2015-09-07 | 理想科学工業株式会社 | Print job generation device |
WO2015196740A1 (en) * | 2014-06-25 | 2015-12-30 | 华南理工大学 | Information forecast and acquisition method based on webpage link parameter analysis |
KR101717063B1 (en) * | 2015-12-30 | 2017-03-17 | 네이버 주식회사 | Web crawling apparatus and method |
WO2017117912A1 (en) * | 2016-01-04 | 2017-07-13 | 百度在线网络技术(北京)有限公司 | Data acquisition method, apparatus and device, and computer storage medium |
WO2020122339A1 (en) * | 2018-12-11 | 2020-06-18 | 삼성전자주식회사 | Electronic device and control method therefor |
US11531722B2 (en) | 2018-12-11 | 2022-12-20 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
CN110825941A (en) * | 2019-10-17 | 2020-02-21 | 北京天融信网络安全技术有限公司 | Content management system identification method, device and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010123000A (en) | Web page group extraction method, device and program | |
TWI524193B (en) | Computer-readable media and computer-implemented method for semantic table of contents for search results | |
US10216848B2 (en) | Method and system for recommending cloud websites based on terminal access statistics | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
US9251274B2 (en) | Grouping search results into a profile page | |
CN105512143A (en) | Method and device for web page classification | |
CN112136123A (en) | Characterizing documents for similarity search | |
KR101651780B1 (en) | Method and system for extracting association words exploiting big data processing technologies | |
US8290925B1 (en) | Locating product references in content pages | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
Abirami et al. | Performance analysis of K-means and bisecting K-means algorithms in Weblog data | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
JP5366212B2 (en) | Video search apparatus, program, and method for searching from multiple reference videos using search key video | |
WO2018047027A1 (en) | A method for exploring traffic passive traces and grouping similar urls | |
CN111177719A (en) | Address category determination method, device, computer-readable storage medium and equipment | |
US8370390B1 (en) | Method and apparatus for identifying near-duplicate documents | |
WO2022003991A1 (en) | Two-dimensional map generation device, two-dimensional map generation method, and program for generating two-dimensional map | |
CN103744970A (en) | Method and device for determining subject term of picture | |
US20150081477A1 (en) | Search query analysis device, search query analysis method, and computer-readable recording medium | |
CN108595453B (en) | URL (Uniform resource locator) identifier mapping obtaining method and device | |
JP6727097B2 (en) | Information processing apparatus, information processing method, and program | |
JP2011248671A (en) | Image retrieval device, program, and method for retrieving image among multiple reference images using image for retrieval key | |
Shafiq et al. | Towards building a urdu language corpus using common crawl | |
KR101698280B1 (en) | Apparatus and Method for searching web page for tags | |
JP2007188427A (en) | Subject image selecting method, device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130312 |