JP2008204425A - Processing omission decision program for similarity analysis of url - Google Patents
Processing omission decision program for similarity analysis of url Download PDFInfo
- Publication number
- JP2008204425A JP2008204425A JP2007193842A JP2007193842A JP2008204425A JP 2008204425 A JP2008204425 A JP 2008204425A JP 2007193842 A JP2007193842 A JP 2007193842A JP 2007193842 A JP2007193842 A JP 2007193842A JP 2008204425 A JP2008204425 A JP 2008204425A
- Authority
- JP
- Japan
- Prior art keywords
- url
- similarity
- access
- transmitted
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 30
- 238000004458 analytical method Methods 0.000 title description 16
- 230000005540 biological transmission Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 abstract description 37
- 230000003111 delayed effect Effects 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、URLの類似性分析による処理省略判定プログラム、及び装置に関する。 The present invention relates to a processing omission determination program and apparatus based on URL similarity analysis.
インターネット上のWebページにおいて、1つのページが、他の多くのURLに自動的にアクセスをして読み込むことにより、ページ全体を構成するものがある。特に、最近では、Ajax(Asychronous JavaScript(登録商標)+ XML)(例えば、非特許文献1参照)と呼ばれる技術を積極的に利用したWebアプリケーションが流行しつつあり、送信側と受信側の同期を求めず、一度に大量のURLアクセス要求を送信するWebページが増加する傾向にある。
上記のような場合に、URLリストによるインターネット・フィルタリングを行ったとき、個々のURLに対してアクセス許可リクエストをフィルタリング判定サーバに送信してその判定結果を受信していると、ブラウザ上では、ページ全体から一部のデータが抜けた表示状態が長く続いたり、フィルタリング判定サーバ側及びクライアントPC側では、処理負荷が増大してパフォーマンスが低下する等の要因となる。 In the above case, when Internet filtering is performed using the URL list, if an access permission request is transmitted to the filtering determination server for each URL and the determination result is received, the page is displayed on the browser. The display state in which a part of the data is missing from the whole continues for a long time, or the processing load increases on the filtering determination server side and the client PC side, resulting in a decrease in performance.
また、情報セキュリティ及びその他の目的のため、インターネットのアクセス履歴を保存する場合において、多くの不必要なURLがログに出力されることにより、ログファイル保存スペースが増大したり、ログの解析効率が低下する等の要因になる。 In addition, when storing Internet access history for information security and other purposes, many unnecessary URLs are output to the log, which increases log file storage space and increases log analysis efficiency. It becomes a factor of decreasing.
本発明では、上記課題に鑑み以下のような解決手段を提供する。 The present invention provides the following solutions in view of the above problems.
(1) ユーザ端末から送信されるWebページヘのURLアクセス要求に応じて該URLの類似性の判定を処理するコンピュータ・プログラムであって、
コンピュータに、
複数のURLアクセス要求が送信されているかを判断するステップと、前記複数のURLアクセス要求が送信されていると判断された場合に、該複数のURL間の類似性を判定するステップと、
前記判定するステップによって類似すると判定された場合、該類似するURLを以後のプログラムの処理対象から省略するステップと、
を実行させるコンピュータ・プログラム。
(1) A computer program that processes determination of similarity between URLs in response to a URL access request to a Web page transmitted from a user terminal,
On the computer,
Determining whether a plurality of URL access requests are transmitted; determining a similarity between the plurality of URLs when it is determined that the plurality of URL access requests are transmitted;
A step of omitting the similar URL from the processing target of the subsequent program when it is determined that it is similar by the determining step;
A computer program that runs
(2) 前記判断するステップにおいて、送信待機状態のソケット数が所定数以上存在する場合に、前記複数のURLアクセス要求が送信されていると判断する、(1)に記載のコンピュータ・プログラム。 (2) The computer program according to (1), wherein, in the determining step, when there are a predetermined number or more of sockets in a transmission standby state, it is determined that the plurality of URL access requests are transmitted.
(3) 前記判断するステップにおいて、HTTPリクエスト数とHTTPレスポンス数のそれぞれが、一定時間に所定数以上検出された場合に、前記複数のURLアクセス要求が送信されていると判断する、(1)又は(2)に記載のコンピュータ・プログラム。 (3) In the determining step, it is determined that the plurality of URL access requests are transmitted when a predetermined number or more of HTTP requests and HTTP responses are detected in a predetermined time. (1) Or the computer program as described in (2).
(4) 前記類似性を判定するステップは、
該複数のURL間のHTTPリクエスト・ヘッダデータからクエリ文字列をそれぞれ抽出し、各クエリ文字列のパターンが一致する場合に、該複数のURLが類似すると判定する、ことを特徴とする(1)乃至(3)に記載のコンピュータ・プログラム。
(4) The step of determining the similarity includes:
A query character string is extracted from the HTTP request header data between the plurality of URLs, and when the patterns of the query character strings match, it is determined that the plurality of URLs are similar (1) Thru | or the computer program as described in (3).
(5) 前記類似性を判定するステップは、
前記クエリ文字列に含まれたパラメータの識別子、該識別子の順番、及び該識別子のデータのタイプが一部又は全部が一致した場合に、該複数のURLが類似すると判定するステップを含む、(4)に記載のコンピュータ・プログラム。
(5) The step of determining the similarity includes:
Determining that the plurality of URLs are similar when the identifiers of the parameters included in the query character string, the order of the identifiers, and the data types of the identifiers are partially or completely matched. ).
(6) 前記類似性を判定するステップは、前記HTTPリクエスト・ヘッダ内のページリンク元参照情報を参照して、要求元のページが表示許可されているページであることを照合確認するステップを更に含む、(1)乃至(5)いずれかに記載のコンピュータ・プログラム。 (6) The step of determining the similarity further includes a step of referring to page link source reference information in the HTTP request header and verifying that the request source page is a display-permitted page. A computer program according to any one of (1) to (5).
(7) 前記URLアクセス要求に対するURLにアクセスするステップを更に有し、
前記省略するステップは、
前記類似すると判定したURLに対する前記アクセスを省略させることを特徴とする(1)乃至(6)に記載のコンピュータ・プログラム。
(7) The method further comprises a step of accessing a URL corresponding to the URL access request.
The omitting step includes
The computer program according to any one of (1) to (6), wherein the access to the URL determined to be similar is omitted.
(8) URLアクセス要求に応じてアクセスしたインターネットへのアクセス履歴を保存するステップを更に有し、
前記省略するステップは、
前記類似すると判定したURLに対するアクセス履歴の保存を省略することを特徴とする(1)乃至(7)に記載のコンピュータ・プログラム。
(8) The method further includes a step of storing an access history to the Internet accessed in response to the URL access request,
The omitting step includes
The computer program according to any one of (1) to (7), wherein storing of an access history for a URL determined to be similar is omitted.
(9) ユーザ端末から送信されるWebページヘのURLアクセス要求に応じて該URLの類似性の判定を処理する類似性判定装置であって、
複数のURLアクセス要求が送信されているかを判断する手段と、
前記複数のURLアクセス要求が送信されていると判断された場合に、該複数のURL間の類似性を判定する手段と、
前記判定する手段によって類似すると判定された場合、該類似するURLを以後のプログラムの処理対象から省略する手段と、
を備える類似性判定装置。
(9) A similarity determination apparatus that processes determination of similarity of a URL in response to a URL access request to a Web page transmitted from a user terminal,
Means for determining whether a plurality of URL access requests are transmitted;
Means for determining similarity between the plurality of URLs when it is determined that the plurality of URL access requests are transmitted;
Means for omitting the similar URL from the processing target of the program when it is determined by the determining means to be similar;
A similarity determination apparatus comprising:
すなわち、上記の解決手段によれば、既にアクセスが許可されている1つのWebページから複数のURLアクセス許可のリクエストが出ているとき、次のa)及びb)の判定を行うことによりサーバへのアクセス・リクエストの件数を削減することにより、ページ表示処理の迅速化を実現することができる。
a)URLリクエストの送信状況を監視し、大量にリクエストが送信されていることが検出された場合に、リクエストされたアクセス先のURLに対する過去にリクエストされたURLとの類似性を判定する。
b)類似URLと判定されたURLに対して、アクセス許可の判定ロジックをバイパスする。
That is, according to the above solution, when a plurality of URL access permission requests are issued from one Web page that is already permitted to access, the following determinations a) and b) are made to the server. Page display processing can be speeded up by reducing the number of access requests.
a) The transmission status of URL requests is monitored, and when it is detected that a large number of requests are being transmitted, the similarity between the requested access destination URL and a previously requested URL is determined.
b) The access permission determination logic is bypassed for URLs determined to be similar URLs.
ここで、URLリクエスト送信状況の監視においては、ソケットの監視モジュールによって次のc)及びd)のいずれかの条件を監視し、短時間に「複数のURLアクセス要求が送信されている」ことを判断する。
c)送信待機状態のソケット数が所定数以上であること
d)リクエストとレスポンスのカウント数が所定数以上であること
Here, in monitoring the URL request transmission status, the socket monitoring module monitors one of the following conditions c) and d), and confirms that “a plurality of URL access requests are being transmitted” in a short time. to decide.
c) The number of sockets waiting to be sent is a predetermined number or more d) The number of requests and responses is a predetermined number or more
複数のアクセス要求が送信されていると判断された場合、接続先URLの文字列を、同じアクセス元ページから過去にリクエストされたURLに対する現在ページの類似性判定処理を行うモジュールに送り、類似性の判定を行う。更に、複数のアクセス要求があるときのURLのクエリストリング(クエリ文字列)内の文字列をパターン化し、パターンの一致による類似判定を行う。そして、HTTPリクエストのヘッダ内のデータ項目であるページリンク参照情報(例えば、識別子「Referer」で記述される参照情報)をチェックして要求元のページが表示許可されているページであることを照合確認する。最後に、類似URLと判定された場合、このプログラムを組み込んだアプリケーション・ソフトウェアの処理対象から省略する。 When it is determined that a plurality of access requests are transmitted, the character string of the connection destination URL is sent from the same access source page to the module that performs similarity determination of the current page with respect to the URL requested in the past, and the similarity Judgment is made. Further, a character string in a URL query string (query character string) when there are a plurality of access requests is patterned, and similarity determination is performed by pattern matching. Then, the page link reference information (for example, the reference information described by the identifier “Referer”), which is a data item in the header of the HTTP request, is checked to verify that the request source page is a display-permitted page. Check. Finally, when it is determined that the URL is similar, it is omitted from the processing target of the application software incorporating this program.
本発明によれば、以下の作用効果を奏する。 According to the present invention, the following operational effects can be obtained.
(1)Ajax等の技術が使用されているWebページの場合、URLリクエストが多発する傾向がある。このようなページにおいてURLフィルタリングを行う場合、1件1件のURLに対してサーバに問い合わせを行うため、ページのロードに遅延が発生し、パフォーマンスが低下してしまう。そこで、URLの類似性を分析するロジックを適用し、過去に問合わせたURLと類似関係にあるかどうかを類似性判定モジュールで分析する。分析結果により類似性があると判定したURLについては、類似関係にあったURLの有害判定を適用することで問い合わせ回数、及びページのロードに要する時間を大幅に削減させることが可能になる。また、問い合わせ回数が減少することで、処理能力も向上させることができる。 (1) In the case of a Web page using technology such as Ajax, there is a tendency for URL requests to occur frequently. When URL filtering is performed on such a page, the server is inquired for each URL, so a delay occurs in loading the page and performance is degraded. Therefore, a logic for analyzing the similarity of the URL is applied, and the similarity determination module analyzes whether or not there is a similarity relationship with the URL inquired in the past. For URLs that are determined to be similar based on the analysis results, the harmfulness of URLs that are in a similar relationship can be applied to greatly reduce the number of inquiries and the time required to load the page. In addition, the processing capability can be improved by reducing the number of inquiries.
(2)Webページのアクセスログを集計する装置において、不必要なURLが多量に保存されてしまう場合がある。このような状況にURLの類似性判定モジュールを適用することで、ログファイルの保存容量の大幅な削減を可能にし、ログ解析効率を向上させることができる。 (2) There are cases where a large amount of unnecessary URLs are stored in an apparatus that counts access logs of Web pages. By applying the URL similarity determination module to such a situation, it is possible to greatly reduce the storage capacity of the log file and improve the log analysis efficiency.
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、以下の実施形態では、上述の類似性判定装置をサーバ上で実現した「有害判定サーバ」として説明する。 Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. In the following embodiments, the similarity determination apparatus described above is described as a “harmful determination server” realized on a server.
[システムの全体構成図]
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。
[System overall configuration diagram]
FIG. 1 is a diagram showing an overall configuration of a
本発明を構成するシステム1は、URLの類似性分析によるURLを処理対象から省略するかどうかを判定するシステムである。本システムでは、WWW(World Wide Web)サーバ10並びに有害判定サーバ40が、通信回線30を介して、ユーザ端末20と接続される。サーバ10並びに有害判定サーバ40は、図1では別のサーバであるかのように記載しているが、同一のサーバで構成してもよい。また、サーバのハードウェアの数に制限はなく、必要に応じて、1又は複数で構成してよい。
The
WWWサーバ10は、文書や画像等の情報(Webページともいう)を蓄積しておき、ユーザ端末20のWebブラウザ等のソフトウェアの要求に応じて、通信回線30、例えば、インターネット等のネットワークを通じて、これらの情報を送信する機能を備える。なお、個人や会社のホームページ等のWebページ群、又はWebページ群が置いてあるインターネット上の場所を、Webサイトという。WebサイトはWWWサーバ10に1又は複数あってもよい。
The
有害判定サーバ40は、インターネットの情報を監視する管理者が、それぞれのWWWサーバ10が持つ情報を取得して、有害であると判定したWebサイトのURLをリスト(以下、ブラックリスト41という)に記憶する。ユーザ端末20からWebページのURLについて有害であるかどうかの判定依頼を受信したときに、ブラックリスト41を参照し、判定結果(例えば、リストにある場合は判定依頼を受けたURLのサイトが有害Webサイトであるという判定結果)をユーザ端末20に送信する機能を備える。有害であると判断する基準は、例えば、子供に見せたくない、アダルト、暴力、出会い系、反社会行為等に関するWebページであるか否かである。なお、有害ではないと判定したWebサイトのURLを別のリスト(以下、ホワイトリスト42という)に記憶し、ブラックリスト41と共に参照してもよい。ホワイトリスト42にあるWebサイトに対しては、アクセスの許可をユーザ端末20に送信する。
The
通信回線30は、一般的にはインターネットであり、有線により実現するものだけではなく、アクセスポイントを介して無線LANにより実現するもの等、本発明の技術的思想に合致するものであれば様々な通信技術により実現される。
The
ユーザ端末20は、PC(Personal Computer)の他、PDA(Personal Data Assistant)等のいわゆるコンピュータ以外の通信端末であってもよい。
The
[端末及びサーバの機能ブロック]
図2は、本発明の好適な実施形態の一例に係るユーザ端末20、並びに有害判定サーバ40の機能ブロック図である。
[Function blocks of terminals and servers]
FIG. 2 is a functional block diagram of the
ユーザ端末20は、通信I/F(通信インターフェイス)を持ち、WWWサーバ10からWebページ等を受信する、及びWebブラウザによるリクエスト等を送信する、送受信部22を備える。また、ユーザ端末20は、CRTや液晶ディスプレイ等の表示装置を持ち、Webページ等を表示する表示部24を備える。更に、ユーザ端末20は、キーボード及びマウス等の入力手段を持ち、WebブラウザにおけるURLの入力、及びWebページに表示されたリンクをクリックする等の入力部21を備える。
The
更に、ユーザ端末20は、制御部23を持ち、URLアクセス要求が送信されていることを検出するソケット監視モジュール201、WebサイトやWebページの不適切な情報を閲覧できなくしたり、有益な情報だけを閲覧できるようにしたりするフィルタリングモジュール202、URLの類似性を分析して判断するURL類似性判定モジュール203、並びに有害判定結果を保存するキャッシュモジュール204を備える。なお、有害判定結果は、有害であるWebサイト並びにアクセスが許可されたWebサイトのURLがリストになっているものである。典型的には、これら制御部23のモジュールはCPU(Central Processing Unit)によって実行されるコンピュータ・プログラムで実現される。
In addition, the
有害判定サーバ40は、制御部45を持ち、URLについての判定依頼を受けて、当該URLを持つWebサイトが有害であるかと、アクセスを許可であるかと、を判定する判定部401を備える。判定部401は、ブラックリスト41及びホワイトリスト42を備える。なお、ブラックリスト41にあるWebサイト以外はアクセス許可するとして、ブラックリスト41だけを備えてもよい。その他、有害判定サーバ40には、送受信部を備え、更に、入力部、表示部を備えてもよいがここでは図示を省略している。
The
[URLフィルタリング処理のフロー]
図3は、本発明の好適な実施形態の一例に係るURLフィルタリング処理のフローチャートである。
[URL filtering process flow]
FIG. 3 is a flowchart of URL filtering processing according to an example of the preferred embodiment of the present invention.
まず、ステップS101では、ユーザ端末20の制御部23が、入力部21により、Webブラウザ上において、ユーザからのURLの入力、及びWebページに表示されたリンク(接続先URL)をクリックする等の入力を受け付ける。移動先の新しいWebページがAjax等の技術を用いている場合、複数のURLに自動的にアクセスをするURLアクセス要求を含むHTTP(Hyper Text Transfer Protocol)リクエストを、ソケット監視モジュール201が受信する。ここでHTTPリクエストとは、端末(クライアント)からサーバに送信するデータである。
First, in step S101, the control unit 23 of the
なお、複数のURLに自動的にアクセスをするURLアクセス要求とは、WWWサーバ10から送信された複数のURLにアクセスしてWebページの送信を要求することであり、例えば、ユーザ端末20が、地図を提供するWebサイトから、地図を受信して表示した場合に、Ajax等の技術を用いて複数のURLを送信し、表示された地図に隣接する複数の地図を、予めWebサイトからダウンロードすることである。こうすることで、ユーザが、地図を表示されている以外の場所に動かしたときに、予めダウンロードしていない場合は、ダウンロードの時間分だけ表示が遅れるが、予めダウンロードしておくことで、隣接する地図を表示してスムーズに地図を遷移させることができる。
Note that a URL access request that automatically accesses a plurality of URLs is to request a transmission of a Web page by accessing a plurality of URLs transmitted from the
次に、ステップS102では、ソケット監視モジュール201が、所定の時間内に大量のURLアクセス要求が送信されているかどうかを監視する。監視方法には、送信待機状態のソケット数を監視する方法、リクエストとレスポンスのカウントを監視する方法がある。それぞれの方法について具体的には、図7において後述する。なお、ソケットは、IPアドレスと、複数のコンピュータと同時に通信するためのサブアドレスとしての複数のポート番号を組み合わせたネットワーク・アドレスのことである。
Next, in step S102, the
次に、ステップS103では、ソケット監視モジュール201が、大量のURLアクセス要求が送信されていることを検出した場合(S103:YESの場合)は、URL類似性判定モジュール203による処理を行う。また、大量のURLアクセス要求の送信を検出しない場合(S103:NOの場合)は、HTTPリクエスト先のURL(以降リクエスト先URLという)の有害性の判定依頼を、有害判定サーバ40に送信する。
Next, in step S103, when the
次に、ステップS104では、URL類似性判定モジュール203が、リクエスト先URL間の類似性を分析する。類似性の分析は、URLのクエリストリング内の文字列をパターン化し、パターンの一致による分析を行う。具体的には、図8において後述する。
Next, in step S104, the URL
次に、ステップS105では、キャッシュモジュール204に、リクエスト先URLと類似関係にあるURLのアクセスログがない場合(S105:NOの場合)は、フィルタリングモジュール202が、リクエスト先URLについての判定依頼を、ユーザ端末20の送受信部22を介して有害判定サーバ40に送信する。また、リクエスト先URLと類似関係にあるURLのアクセスログがある場合(S105:YESの場合)は、有害性の判定のステップに進む。
Next, in step S105, if the
次に、ステップS106では、フィルタリングモジュール202が、キャッシュモジュール204の類似関係にあるURLの有害判定の結果を参照して、リクエスト先URLのアクセスの許可をするか、しないかを判定する。なお、有害判定結果は、ユーザによるユーザ端末20のアクセス設定も反映される。すなわち、有害判定サーバ40が有害ではないと判断したWebサイトに、例えば、子供に利用させたくないショッピングサイト等のユーザによるアクセスの不許可を設定・追加してもよい。
Next, in step S106, the
次に、ステップS107では、有害判定サーバ40が、ユーザ端末20からの有害判定依頼を受信して、リクエスト先URLを含むWebサイトが有害であるかをブラックリスト41を用いて判定する。更に、判定結果(有害である、又は、有害ではない)をユーザ端末20に送信する。そして、ユーザ端末20のフィルタリングモジュール202が、送受信部22を介して判定結果を受信する。
Next, in step S107, the
次に、ステップS108では、リクエスト先URLを含むWebサイトが有害と判断された場合、並びに、有害ではないがユーザによってアクセスを不許可と設定された場合は、リクエスト先URLに対するWebページの表示をブロックする。 Next, in step S108, when it is determined that the website including the request destination URL is harmful, and when the access is not permitted by the user although it is not harmful, the web page for the request destination URL is displayed. To block.
又は、リクエスト先URLを含むWebサイトが有害ではない場合、並びに、有害ではなくアクセス許可であった場合は、フィルタリングモジュール202が、HTTPリクエストを、ユーザ端末20の送受信部22により、WWWサーバ10に送信する。WWWサーバ10はHTTPリクエストを受信し、HTTPリクエストに対するHTTPレスポンス(Webページのコンテンツデータを含む)をユーザ端末20に送信する。キャッシュモジュール204が、送受信部22を介してHTTPレスポンス(Webページのコンテンツデータを含む)を受信し、ユーザ端末20の表示部24により、Webページを表示する。なお、HTTPレスポンスとは、HTTPリクエストに対する、サーバから端末(クライアント)に返信するデータである。そして更に、キャッシュモジュール204にキャッシュ(アクセスログ)を保存する。ここでのキャッシュは、過去にURL判定した情報のキャッシュなので、WWWサーバ10のHTTPレスポンスがキャッシュされるのではなく、WWWサーバ10のURLの有害性の判定結果がキャッシュとして残る。
Alternatively, if the Web site including the request destination URL is not harmful, and if it is not harmful and access permission, the
[URLフィルタリング処理のシステム概要]
図4は、従来のURLフィルタリング処理のシステム概要を示す図である。
[System Overview of URL Filtering Processing]
FIG. 4 is a diagram showing a system outline of a conventional URL filtering process.
従来のシステムでは、WebブラウザからのHTTPリクエストについて、ユーザ端末20の制御部23が備えるフィルタリングモジュール202により、URLフィルタリング処理が行われる。フィルタリングモジュール202がHTTPリクエストに含まれるURLと同一URLについてキャッシュモジュール204の判定結果のキャッシュ(アクセスログ)を参照する。また、キャッシュがない場合は、URLの判定依頼を有害判定サーバ40に送信する。そして、有害判定サーバ40がURLの有害性を判定して、そのURLの判定結果をユーザ端末20のフィルタリングモジュール202に送信する。
In the conventional system, URL filtering processing is performed on the HTTP request from the Web browser by the
ここで、大量のURLアクセス要求を含むHTTPリクエストがありURLフィルタリング処理を行う場合は、個々のURLについてキャッシュモジュール204を参照し、更に、HTTPリクエストに含まれるURLと同一のURLが、キャッシュモジュール204にない場合は、個々のURLについて有害性の判定依頼を有害判定サーバ40に送信する。
Here, when there is an HTTP request including a large number of URL access requests and URL filtering processing is performed, the
しかし、このように従来のシステムにおいて、個々のURLについての有害性の判定依頼を行うことは、有害判定サーバ40及びユーザ端末20の処理負荷が増大してパフォーマンスが低下する等の要因となる。また、Webブラウザ上では、Webページ全体から一部のデータが抜けた表示状態が続いたりする。また、キャッシュモジュール204によるキャッシュ(アクセスログ)の保存において、多くの不必要なURLがログに出力されることにより、ログファイル保存スペースが増大し、更に、ログの参照効率が低下する等の要因になる。
However, in the conventional system as described above, making a request for determining the harmfulness of each URL causes factors such as an increase in processing load on the
図5は、図4の従来システムに、本発明の好適な実施形態の一例に係るURL類似性判定モジュール203を備えたURLフィルタリング処理のシステム概要を示す図である。
FIG. 5 is a diagram showing a system outline of URL filtering processing in which the conventional system of FIG. 4 is provided with a URL
このシステムでは、複数のURLアクセス要求を含むHTTPリクエストがURL類似性判定モジュール203により分析され、類似関係にあるURLについて、キャッシュモジュール204を参照する。こうすることで、個々のURLについてキャッシュモジュール204のキャッシュを参照して有害性の判定を行うので、有害判定サーバ40への問合わせが省かれる。また、類似関係にあるURLが、キャッシュモジュール204にない場合は、類似関係にあるURLの有害性の判定依頼を有害判定サーバ40に送信する。次に、有害判定サーバ40は、判定依頼されたURLの有害性を判定して、その判定結果をユーザ端末20に送信する。
In this system, an HTTP request including a plurality of URL access requests is analyzed by the URL
こうすることで、判定依頼に伴う処理を、個々のURL毎に行うという従来システムよりも効率的に行うことができる。また、キャッシュモジュール204によるキャッシュ(アクセスログ)の保存において、類似関係にあるURLだけがログに出力されることにより、ログファイル保存スペースを減らし、更に、ログの参照効率を高めること等ができる。なお、アクセスログについては、図13で後述する。
By doing so, it is possible to perform the processing accompanying the determination request more efficiently than the conventional system in which the processing is performed for each individual URL. Further, when the cache (access log) is stored by the
図6は、本発明の好適な実施形態の別の例に係るURL類似性判定モジュール203を別のサーバに備えたURLフィルタリング処理のシステム概要を示す図である。
FIG. 6 is a diagram showing a system outline of URL filtering processing in which another server is provided with the URL
例えば会社のネットワークに接続されたユーザ端末20は、直接インターネット等のネットワークに接続が出来ないので、必ず、社内ネットワークのサーバ(イントラネットにおけるサーバ)を経由する。そこで、URLフィルタリング処理を社内ネットワークのサーバで行うようにすることができる。このことにより、ユーザ端末20毎のURLフィルタリング処理が不要となる。なお、社内ネットワークではなく、学校や家庭等であっても、サーバを経由した外部アクセスのネットワークであれば、同様に行うことができる。
For example, a
[ソケット監視モジュールによる大量のURLアクセス要求監視]
次に、ソケット監視モジュール201による「大量のURLアクセス要求」の監視方法について説明する。ソケット監視モジュール201は、一度に大量のURLアクセス要求が送信されていることを検出する。検出方法には、(1)WSPSelect(後述)を利用して送信待機の状態のソケット数を監視する方法、(2)リクエストとレスポンスのカウントを監視する方法がある。一度に大量のURLアクセス要求が送信される具体例としては、Ajax等の技術が使用されているWebページがある。このため、大量のURLアクセス要求が送信される場合を、Ajax対応フィルタリングモードとも呼ぶことにする。
[Monitoring a large number of URL access requests by the socket monitoring module]
Next, a method of monitoring “a large number of URL access requests” by the
Ajaxは、例えばWeb検索に応用することで、従来は入力確定後に行っていた検索を、ユーザがキー入力をする間にバックグラウンドで行うことでリアルタイムに検索結果を表示していくといったことを可能にする。このように、送信側と受信側の同期を求めず、一度に大量のURLアクセス要求を送信するAjax仕様のWebページが増加する傾向にある。 Ajax can be applied to Web search, for example, to search in real time by performing a search in the background while the user inputs a key, which was previously performed after input confirmation. To. In this way, there is a tendency to increase the number of Ajax specification Web pages that transmit a large number of URL access requests at a time without requiring synchronization between the transmission side and the reception side.
(1)のWSPSelectを利用して送信待機状態のソケット数を監視する方法について説明する。図7は、本発明の好適な実施形態の一例に係るソケット監視モジュール201のWSPSelectを利用した送信待機状態のソケット数の監視のフローチャートである。WSPSelectは、Microsoft Windows(登録商標) OSにおけるWinSock APIのfunctionの1つで、ソケットを調査するモジュールである。詳細は、“WSPSelect”,[online],[2007年2月2日検索]、インターネット<URL http://msdn2.microsoft.com/en−us/library/ms742289.aspx>を参照。ソケットは、前述したように、IPアドレスと、複数のコンピュータと同時に通信するためのサブアドレスとしての複数のポート番号を組み合わせたネットワーク・アドレスのことである。
A method of monitoring the number of sockets in a transmission standby state using WSPSelect (1) will be described. FIG. 7 is a flowchart for monitoring the number of sockets in a transmission standby state using WSPSelect of the
まず、ステップS201では、ソケット監視モジュール201が、WSPSelectを利用し、送信待機状態のソケットの個数を得る。
First, in step S201, the
次に、ステップS202において、ソケット監視モジュール201は、得られた送信待機状態のソケット数が所定数(例えば、2)未満の場合に、通常のURLアクセス要求であると判定し、URLフィルタリング処理を行う。
Next, in step S202, the
次に、ステップS203では、上述ステップS202において、送信待機状態のソケット数が所定数(例えば、2)以上の場合に、Ajax等の技術が使用されているWebページによるHTTPリクエスト、すなわち、大量のURLアクセス要求が送信されている(Ajax対応フィルタリングモード)と判定する。そして、ソケット単位で、URL類似性判定モジュール203を備えたURLフィルタリング処理を行う。
Next, in step S203, when the number of sockets in the transmission standby state is equal to or larger than a predetermined number (for example, 2) in step S202, an HTTP request by a web page using a technique such as Ajax, that is, a large amount of It is determined that a URL access request has been transmitted (Ajax-compatible filtering mode). Then, URL filtering processing including the URL
(2)のリクエストとレスポンスのカウントを監視する方法について説明する。同一IPアドレスを使用しているソケットに対し、リクエストとレスポンスの数、順番をカウントし、リクエストがレスポンスを受信せずに一定時間内に所定の数以上連続して行われた場合に、大量のURLアクセス要求が送信されている(Ajax対応フィルタリングモード)とみなし、URL類似性判定モジュール203が備えたURLフィルタリング処理を行う。こうすることで、上述のWSPSelectを利用した送信待機状態のソケット数を監視する方法に対して補助的な方法を提供することができる。この方法が適用される主なサービスとしては、ユーザが検索文字列を入力する際に文字列の候補を推定して表示するユーザ入力を補う入力補助機能がある。
A method of monitoring the request and response count in (2) will be described. For sockets using the same IP address, the number and order of requests and responses are counted, and if a request is continuously received within a certain time without receiving a response, a large amount The URL access request is regarded as being transmitted (Ajax-compatible filtering mode), and the URL filtering process provided in the URL
[URLの類似性分析例]
図8は、本発明の好適な実施形態に係るURLの類似性分析の一例を示す図である。
[URL similarity analysis example]
FIG. 8 is a diagram showing an example of URL similarity analysis according to the preferred embodiment of the present invention.
まず、ステップS301では、HTTPリクエストからURLアクセス要求部分の「GET /mt?n=404&v=w2.12&x=58202&y=25812&zoom=1 HTTP/1.1」から、クエリ文字列の「?n=404&v=w2.12&x=58202&y=25812&zoom=1」を抽出する。 First, in step S301, from the HTTP request, the URL access request part “GET / mt? N = 404 & v = w2.12 & x = 58202 & y = 25812 & zoom = 1 HTTP / 1.1” is used, and the query character string “? N = 404 & v = w2.12 & x = 58202 & y = 25812 & zoom = 1 ”is extracted.
次に、ステップS302では、クエリ文字列の各パラメータを「?n=」、「&v=」等で分割する。ここで、「?n=」、「&v=」等はパラメータの識別子(id)である。 Next, in step S302, each parameter of the query character string is divided by “? N =”, “& v =”, or the like. Here, “? N =”, “& v =”, etc. are parameter identifiers (id).
次に、ステップS303では、各識別子に続く文字列のタイプを決定する。ここで、タイプ(Type)は、f:数値、c:文字列、e:「その他」と定義する。例えば、「?n=404」では404が数値であるので「?n=」は「Type=f」と定義される。また、「&v=w2.12」ではw2.12が文字列及び数値であるので「その他」になり、「&v=」は「Type=e」と定義される。 Next, in step S303, the type of character string following each identifier is determined. Here, the type (Type) is defined as f: numerical value, c: character string, and e: “other”. For example, in “? N = 404”, 404 is a numerical value, so “? N =” is defined as “Type = f”. In “& v = w2.12”, w2.12 is a character string and a numerical value, and therefore “other”, and “& v =” is defined as “Type = e”.
次に、ステップS304では、パラメータ(id)となる識別子及び文字列のタイプ(Type)、並びにそれらの出現順番等の、クエリ文字列分析結果が、URLの類似性判定基準としてキャッシュモジュール204にキャッシュされ、以降の類似性判定に使用される。
Next, in step S304, the query character string analysis results, such as the identifier and character string type (Type) as parameters (id), and their appearance order, are cached in the
なお、類似性があると判定する場合は、複数のURL間において以下の条件の両方を満たす場合に限られる。
(1)“?”以降の文字列を含まないURLが完全に一致
(2)類似性の判定基準(id,Type,出現順番)が完全に一致
Note that the determination that there is similarity is limited to the case where both of the following conditions are satisfied among a plurality of URLs.
(1) URLs that do not contain character strings after “?” Are completely matched (2) Similarity criteria (id, Type, appearance order) are completely matched
図9は、本発明の好適な実施形態の一例に係るHTTPリクエストを示す図である。上述したURLの類似性分析を行うと、(a)、(b)、(c)については類似関係にあると判定できる。具体的に、(a)のリクエストが発生したときにソケットが所定数(例えば、2)以上存在した場合は、URL類似性判定モジュール203により、クエリ文字列を解析してできた類似性判定基準が生成される。
FIG. 9 is a diagram showing an HTTP request according to an example of the preferred embodiment of the present invention. If the above-mentioned URL similarity analysis is performed, it can be determined that (a), (b), and (c) are in a similar relationship. Specifically, when a predetermined number (for example, 2) or more sockets exist when the request (a) occurs, the similarity determination criterion obtained by analyzing the query character string by the URL
次に、(b)のリクエストの時、既に大量のURLアクセス要求であると判定されているため、クエリ文字列を解析し、(a)で先に生成された類似性判定基準と比較する。ここで、(a)と(b)のクエリ文字列のタイプが同じであるため、(a)のリクエストと類似関係にあると判定される。(c)も同様である。具体的には、(a)、(b)、(c)において、「&x=」に続く数値が異なるが、いずれも数値であり、Typeが同一と判定できて、類似関係があると判定される。 Next, at the time of the request (b), since it is already determined that the request is a large number of URL access requests, the query character string is analyzed and compared with the similarity determination criterion generated previously in (a). Here, since the types of the query character strings of (a) and (b) are the same, it is determined that they are similar to the request of (a). The same applies to (c). Specifically, in (a), (b), and (c), the numerical values following “& x =” are different, but all are numerical values, and it can be determined that the Type is the same, and it is determined that there is a similarity relationship. The
次に、(d)のリクエストが発生した時、(a)、(b)、(c)と同じIPアドレスであれば類似関係のないURLと判断する。異なるIPアドレスであった場合は、大量のURLアクセス要求と判定されている場合に限りクエリ文字列を解析し、新たな類似性判定基準を生成する。 Next, when the request (d) occurs, if it is the same IP address as (a), (b), and (c), it is determined that the URL has no similar relationship. If it is a different IP address, the query character string is analyzed only when it is determined that the request is a large number of URL access requests, and a new similarity criterion is generated.
図10並びに図11は、類似関係にあるURLアクセス要求を含むHTTPリクエストの例を示す図である。図10は、1から3行目までのURLが類似関係にある。また、8行目と9行目とが類似関係にある。図11においては、1行目と、5行目と、6行目とが類似関係にある。 10 and 11 are diagrams showing examples of HTTP requests including URL access requests having a similar relationship. In FIG. 10, the URLs from the first to third lines are in a similar relationship. In addition, the 8th and 9th lines are in a similar relationship. In FIG. 11, the first line, the fifth line, and the sixth line are in a similar relationship.
[Refererのチェック]
図12は、本発明の好適な実施形態の一例に係るURL類似性判定モジュール203を備えたURLフィルタリング処理にRefererのチェックを含むフローチャートである。Refererとは、HTTPリクエストのヘッダに含まれる項目であり、Webページのリンクを選択して別のWebページに移動するときの、リンク元のWebページのURLを含むデータである。
[Check Referer]
FIG. 12 is a flowchart including a Referer check in the URL filtering process including the URL
まず、ステップS401乃至ステップS405は、ソケット監視モジュール201による大量のURLアクセスの要求監視、並びにURL類似性判定モジュール203のURLフィルタリング処理と同様である。そして、ステップS406では、HTTPリクエストのヘッダ中にRefererがあるかを参照する。
First,
次に、ステップS407では、HTTPリクエストのヘッダ中にRefererがある場合(S406:YESの場合)に、Refererに含まれたURLの有害判定を行う。こうすることで、HTTPリクエストでAjax等の技術を用いバックグラウンドで取得するデータ(URL)が、有害であるWebサイトにリンクしているかどうかを発見することができる。 Next, in Step S407, when the Referrer is included in the header of the HTTP request (S406: YES), the harmful determination of the URL included in the Referer is performed. By doing so, it is possible to discover whether data (URL) acquired in the background using a technology such as Ajax in an HTTP request is linked to a harmful website.
次に、ステップS408では、HTTPリクエストのヘッダ中にRefererがない場合(S406:NOの場合)は、クエリ文字列を分析した結果(類似性判定基準)の有害判定を行う。 Next, in step S408, when there is no Referer in the header of the HTTP request (S406: NO), the result of analyzing the query character string (similarity criterion) is determined to be harmful.
[アクセスログのログファイル集計方法]
図13は、本発明の好適な実施形態の一例に係るアクセスログを集計する装置にURL類似性判定モジュール203を適用する場合のフローチャートである。アクセスログの集計装置の設置には多種多様な方法が考えられるため、ここではその集計方法のみに着目し、URL類似性判定モジュール203の適用例を説明する。
[Access log log file counting method]
FIG. 13 is a flowchart in the case where the URL
まず、ステップS501では、ユーザ端末20の制御部23が、Webページのアクセスログ(URL)を取得する。Webブラウザでは、新たなWebページに移動していて、Ajax等の技術を用いバックグラウンドで取得している複数のデータのアクセスログ(URL)が、1つ1つ取得される。
First, in step S501, the control unit 23 of the
次に、ステップS502では、URL類似性判定モジュール203が、キャッシュモジュール204を参照し、取得したアクセスログのURLの類似性分析を実施する。ここでは、複数取得したアクセスログ同士でのURLの類似性分析を行ってもよい。
Next, in step S502, the URL
次に、ステップS503では、URL類似性判定モジュール203が、取得したアクセスログのURLと類似関係のあるURLが、キャッシュモジュール204にあるかどうかを参照する。
Next, in step S <b> 503, the URL
次に、ステップS504では、取得したアクセスログのURLと類似関係のあるURLが、キャッシュモジュール204にある場合(S503:YESの場合)は、取得したアクセスログを保存しない。 Next, in step S504, if there is a URL similar to the URL of the acquired access log in the cache module 204 (S503: YES), the acquired access log is not saved.
次に、ステップS505では、取得したアクセスログのURLと類似関係のあるURLが、キャッシュモジュール204にない場合(S503:NOの場合)、取得したアクセスログのURLを類似性分析したURLを保存する。このように、既に保存済みであるURLと類似性があると判断された場合は、新規にアクセスログとして保存せず、類似性が認められなかった場合に保存するようにする。具体的なアクセスログ保存の一例として、図14を参照しながら説明する。 In step S505, if there is no URL similar to the acquired access log URL in the cache module 204 (S503: NO), the URL obtained by similarity analysis of the acquired access log URL is stored. . As described above, when it is determined that there is a similarity with a URL that has already been saved, the URL is not newly saved as an access log, and is saved when the similarity is not recognized. An example of specific access log storage will be described with reference to FIG.
図14の例において、上部は新たに取得したWebページのアクセスログ(URL)である。ここでは、キャッシュモジュール204にアクセスログがない状態である。取得したアクセスログ(URL)にURL類似性判定モジュール203を適用すると、図14の下部のように、類似しないURLだけをログに保存することが可能となる。こうすることで、ログファイルの容量が大幅な削減と、ログファイルの簡略化が期待できる。例えば、図14の新たに取得した上から2行目と、3行目と、4行目とのWebページのURLは、類似関係にあるので、ログには2行目のURLを保存するだけでよい。
In the example of FIG. 14, the upper part is an access log (URL) of a newly acquired Web page. Here, there is no access log in the
[サーバ及び端末のハードウェア構成]
図15は、本発明の好適な実施形態の一例に係るWWWサーバ10及び有害判定サーバ40(以下、サーバという)、及びユーザ端末20のハードウェア構成を示す図である。以下、サーバを例にして説明するが、クライアントであるユーザ端末20についても基本的には同様である。
[Hardware configuration of server and terminal]
FIG. 15 is a diagram illustrating a hardware configuration of the
サーバは、制御部101を構成するCPU110(マルチプロセッサ構成ではCPU120等複数のCPUが追加されてもよい)、バスライン105、通信I/F140、メインメモリ150、BIOS(Basic Input Output System)160、USBポート190、I/Oコントローラ170、並びにキーボード及びマウス180等の入力手段や表示装置122を備える。
The server includes a
I/Oコントローラ170には、テープドライブ172、ハードディスク174、光ディスクドライブ176、半導体メモリ178、等の記憶部102を接続することができる。
A
BIOS160は、サーバの起動時にCPU110が実行するブートプログラムや、サーバのハードウェアに依存するプログラム等を格納する。
The
ハードディスク174は、サーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。
The
光ディスクドライブ176としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク177を使用する。光ディスク177から光ディスクドライブ176によりプログラム又はデータを読み取り、I/Oコントローラ170を介してメインメモリ150又はハードディスク174に提供することもできる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用することもできる。
As the
サーバに提供されるプログラムは、ハードディスク174、光ディスク177、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ170を介して、記録媒体から読み出され、又は通信I/F140を介してダウンロードされることによって、サーバにインストールされ実行されてもよい。
The program provided to the server is provided by being stored in a recording medium such as the
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク174、光ディスク177、又はメモリーカードの他に、MD等の光磁気記録媒体、テープメディア171を用いることができる。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク174又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線30を介してプログラムをサーバに提供してもよい。
The above program may be stored in an internal or external storage medium. Here, in addition to the
ここで、表示装置122は、ユーザによるデータの入力を受け付ける画面を表示したり、WWWサーバ10及び有害判定サーバ40による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
Here, the
ここで、入力手段は、ユーザによる入力の受け付けを行うものであり、キーボード及びマウス180等により構成してよい。
Here, the input means accepts input by the user, and may be configured by a keyboard, a
また、通信I/F140は、サーバを専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。なお、ユーザ端末20は、サーバと同様の構成を備えてよいが、端末として必要最小限のハードウェア構成としてよいのは言うまでもない。
The communication I /
以上の例は、サーバのハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバとして動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。 In the above example, the hardware configuration of the server has been mainly described. However, the functions described above can also be realized by installing a program in a computer and operating the computer as a server. Therefore, the functions realized by the server described as an embodiment in the present invention can be realized by executing the above method by the computer, or by introducing the above program to the computer and executing it. It is.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1 システム
10 WWWサーバ
20 ユーザ端末
30 通信回線
40 有害判定サーバ
201 ソケット監視モジュール
202 フィルタリングモジュール
203 URL類似性判定モジュール
204 キャッシュモジュール
1
Claims (9)
コンピュータに、
複数のURLアクセス要求が送信されているかを判断するステップと、
前記複数のURLアクセス要求が送信されていると判断された場合に、該複数のURL間の類似性を判定するステップと、
前記判定するステップによって類似すると判定された場合、該類似するURLを以後のプログラムの処理対象から省略するステップと、
を実行させるコンピュータ・プログラム。 A computer program that processes determination of similarity between URLs in response to a URL access request to a Web page transmitted from a user terminal,
On the computer,
Determining whether a plurality of URL access requests are transmitted;
Determining the similarity between the plurality of URLs when it is determined that the plurality of URL access requests are transmitted;
A step of omitting the similar URL from the processing target of the subsequent program when it is determined that it is similar by the determining step;
A computer program that runs
該複数のURL間のHTTPリクエスト・ヘッダデータからクエリ文字列をそれぞれ抽出し、各クエリ文字列のパターンが一致する場合に、該複数のURLが類似すると判定する、ことを特徴とする請求項1乃至請求項3に記載のコンピュータ・プログラム。 The step of determining the similarity includes:
2. The query character strings are respectively extracted from HTTP request header data between the plurality of URLs, and when the patterns of the query character strings match, it is determined that the plurality of URLs are similar. The computer program according to claim 3.
前記クエリ文字列に含まれたパラメータの識別子、該識別子の順番、及び該識別子のデータのタイプが一部又は全部が一致した場合に、該複数のURLが類似すると判定するステップを含む、請求項4に記載のコンピュータ・プログラム。 The step of determining the similarity includes:
The method includes a step of determining that the plurality of URLs are similar when the identifiers of the parameters included in the query string, the order of the identifiers, and the data types of the identifiers partially or completely match. 5. The computer program according to 4.
前記省略するステップは、
前記類似すると判定したURLに対する前記アクセスを省略させることを特徴とする請求項1乃至請求項6に記載のコンピュータ・プログラム。 Further comprising accessing a URL corresponding to the URL access request;
The omitting step includes
The computer program according to claim 1, wherein the access to the URL determined to be similar is omitted.
前記省略するステップは、
前記類似すると判定したURLに対するアクセス履歴の保存を省略することを特徴とする請求項1乃至請求項7に記載のコンピュータ・プログラム。 A step of storing an access history to the Internet accessed in response to the URL access request;
The omitting step includes
8. The computer program according to claim 1, wherein storing of an access history for the URL determined to be similar is omitted.
複数のURLアクセス要求が送信されているかを判断する手段と、
前記複数のURLアクセス要求が送信されていると判断された場合に、該複数のURL間の類似性を判定する手段と、
前記判定する手段によって類似すると判定された場合、該類似するURLを以後のプログラムの処理対象から省略する手段と、
を備える類似性判定装置。 A similarity determination apparatus that processes determination of similarity of a URL in response to a URL access request to a Web page transmitted from a user terminal,
Means for determining whether a plurality of URL access requests are transmitted;
Means for determining similarity between the plurality of URLs when it is determined that the plurality of URL access requests are transmitted;
Means for omitting the similar URL from the processing target of the program when it is determined by the determining means to be similar;
A similarity determination apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007193842A JP4839278B2 (en) | 2007-01-26 | 2007-07-25 | Processing omission determination program and apparatus based on URL similarity analysis |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007017175 | 2007-01-26 | ||
JP2007017175 | 2007-01-26 | ||
JP2007193842A JP4839278B2 (en) | 2007-01-26 | 2007-07-25 | Processing omission determination program and apparatus based on URL similarity analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008204425A true JP2008204425A (en) | 2008-09-04 |
JP4839278B2 JP4839278B2 (en) | 2011-12-21 |
Family
ID=39781827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007193842A Active JP4839278B2 (en) | 2007-01-26 | 2007-07-25 | Processing omission determination program and apparatus based on URL similarity analysis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4839278B2 (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010067005A (en) * | 2008-09-10 | 2010-03-25 | Yahoo Japan Corp | Retrieval device, and method of controlling the same |
JP2010067016A (en) * | 2008-09-11 | 2010-03-25 | Hitachi Ltd | Method of managing execution of application, and server computer and relay for executing application |
JP2010123000A (en) * | 2008-11-20 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | Web page group extraction method, device and program |
JP2011154675A (en) * | 2009-12-28 | 2011-08-11 | Canon It Solutions Inc | Information processor, information processing method, and computer program |
JP2011209996A (en) * | 2010-03-30 | 2011-10-20 | Fujitsu Ltd | Access control method and access control device |
WO2012049944A1 (en) * | 2010-10-14 | 2012-04-19 | 株式会社Jvcケンウッド | Filtering device and filtering method |
WO2012049945A1 (en) * | 2010-10-14 | 2012-04-19 | 株式会社Jvcケンウッド | Program retrieval device and program retrieval method |
CN102567466A (en) * | 2010-12-24 | 2012-07-11 | 佳能It解决方案股份有限公司 | Information processing device and information processing method |
JP2012146283A (en) * | 2010-12-24 | 2012-08-02 | Canon Marketing Japan Inc | Information processing apparatus and information processing method and program |
JP2012203719A (en) * | 2011-03-25 | 2012-10-22 | Fuji Xerox Co Ltd | Information processing device, program, and information processing system |
JP2013176923A (en) * | 2012-02-29 | 2013-09-09 | Nihon Kogyo Co Ltd | Concrete product |
CN109560979A (en) * | 2017-09-27 | 2019-04-02 | 阿里巴巴集团控股有限公司 | Data detection method and system, server |
WO2024013902A1 (en) * | 2022-07-13 | 2024-01-18 | 日本電信電話株式会社 | Similarity calculation device, similarity calculation method, and similarity calculation program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259354A (en) * | 2001-03-01 | 2002-09-13 | Hitachi Ltd | Network system and load distributing method |
JP2006166042A (en) * | 2004-12-08 | 2006-06-22 | Nec Corp | E-mail filtering system, mail transfer device and e-mail filtering method used for them |
-
2007
- 2007-07-25 JP JP2007193842A patent/JP4839278B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259354A (en) * | 2001-03-01 | 2002-09-13 | Hitachi Ltd | Network system and load distributing method |
JP2006166042A (en) * | 2004-12-08 | 2006-06-22 | Nec Corp | E-mail filtering system, mail transfer device and e-mail filtering method used for them |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010067005A (en) * | 2008-09-10 | 2010-03-25 | Yahoo Japan Corp | Retrieval device, and method of controlling the same |
JP2010067016A (en) * | 2008-09-11 | 2010-03-25 | Hitachi Ltd | Method of managing execution of application, and server computer and relay for executing application |
JP2010123000A (en) * | 2008-11-20 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | Web page group extraction method, device and program |
JP2011154675A (en) * | 2009-12-28 | 2011-08-11 | Canon It Solutions Inc | Information processor, information processing method, and computer program |
JP2011209996A (en) * | 2010-03-30 | 2011-10-20 | Fujitsu Ltd | Access control method and access control device |
JP2012084093A (en) * | 2010-10-14 | 2012-04-26 | Jvc Kenwood Corp | Filtering device and filtering method |
WO2012049945A1 (en) * | 2010-10-14 | 2012-04-19 | 株式会社Jvcケンウッド | Program retrieval device and program retrieval method |
JP2012084094A (en) * | 2010-10-14 | 2012-04-26 | Jvc Kenwood Corp | Program retrieval device and program retrieval method |
WO2012049944A1 (en) * | 2010-10-14 | 2012-04-19 | 株式会社Jvcケンウッド | Filtering device and filtering method |
CN102845075A (en) * | 2010-10-14 | 2012-12-26 | Jvc建伍株式会社 | Program retrieval device and program retrieval method |
CN102567466A (en) * | 2010-12-24 | 2012-07-11 | 佳能It解决方案股份有限公司 | Information processing device and information processing method |
JP2012146283A (en) * | 2010-12-24 | 2012-08-02 | Canon Marketing Japan Inc | Information processing apparatus and information processing method and program |
JP2013131246A (en) * | 2010-12-24 | 2013-07-04 | Canon Marketing Japan Inc | Information processing apparatus, information processing method, and program |
JP2015181064A (en) * | 2010-12-24 | 2015-10-15 | キヤノンマーケティングジャパン株式会社 | Information processing apparatus and information processing method and program |
JP2012203719A (en) * | 2011-03-25 | 2012-10-22 | Fuji Xerox Co Ltd | Information processing device, program, and information processing system |
JP2013176923A (en) * | 2012-02-29 | 2013-09-09 | Nihon Kogyo Co Ltd | Concrete product |
CN109560979A (en) * | 2017-09-27 | 2019-04-02 | 阿里巴巴集团控股有限公司 | Data detection method and system, server |
WO2024013902A1 (en) * | 2022-07-13 | 2024-01-18 | 日本電信電話株式会社 | Similarity calculation device, similarity calculation method, and similarity calculation program |
Also Published As
Publication number | Publication date |
---|---|
JP4839278B2 (en) | 2011-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4839278B2 (en) | Processing omission determination program and apparatus based on URL similarity analysis | |
RU2595761C2 (en) | Control information associated with network resources | |
US8001270B2 (en) | Method and apparatus for discovering a network address | |
US20220303345A1 (en) | Secure, Anonymous Browsing with a Remote Browsing Server | |
US9785710B2 (en) | Automatic crawling of encoded dynamic URLs | |
US8352477B2 (en) | User specific focus parameters | |
US8676880B2 (en) | Server apparatus, communication apparatus, and method for generating navigation information | |
JP2007249657A (en) | Access limiting program, access limiting method and proxy server device | |
US20170093828A1 (en) | System and method for detecting whether automatic login to a website has succeeded | |
JP2009110214A (en) | Data access control system and method according to position information of mobile terminal | |
US8407766B1 (en) | Method and apparatus for monitoring sensitive data on a computer network | |
JP2007188184A (en) | Access control program, access control method, and access control device | |
JP2011044116A (en) | Device, method, and program for controlling browsing | |
JP4416593B2 (en) | Network connection control method and network connection control system | |
JP5922640B2 (en) | Browsing control device, browsing control method, and browsing control program | |
US10120936B2 (en) | Providing system configuration information to a search engine | |
JP4400787B2 (en) | Web access monitoring system and administrator client computer | |
US20170091163A1 (en) | Crowd-source as a backup to asynchronous identification of a type of form and relevant fields in a credential-seeking web page | |
CN110245307A (en) | Page cache management method and system, terminal device and storage medium | |
US20230224302A1 (en) | Techniques for providing hypertext transfer protocol through a secure environment | |
JP4542122B2 (en) | An apparatus for performing URL filtering by acquiring an original URL of content stored in a cache server or the like | |
RU2446460C1 (en) | Method and system for filtering web content | |
JP2008181519A (en) | System and method for finding document processor on network | |
CN105700963A (en) | Managing remote sessions between a target computing device and a remote computing device | |
US20140047067A1 (en) | Shortcut sets for controlled environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110811 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110920 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111003 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4839278 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |