JP2008165292A - Falsified web page detecting device, program, and recording medium - Google Patents

Falsified web page detecting device, program, and recording medium Download PDF

Info

Publication number
JP2008165292A
JP2008165292A JP2006350992A JP2006350992A JP2008165292A JP 2008165292 A JP2008165292 A JP 2008165292A JP 2006350992 A JP2006350992 A JP 2006350992A JP 2006350992 A JP2006350992 A JP 2006350992A JP 2008165292 A JP2008165292 A JP 2008165292A
Authority
JP
Japan
Prior art keywords
information
web page
change
index value
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006350992A
Other languages
Japanese (ja)
Other versions
JP4881718B2 (en
Inventor
Keisuke Takemori
敬祐 竹森
Shoichi Endo
彰一 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2006350992A priority Critical patent/JP4881718B2/en
Publication of JP2008165292A publication Critical patent/JP2008165292A/en
Application granted granted Critical
Publication of JP4881718B2 publication Critical patent/JP4881718B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a falsified Web page detecting device which reduces the possibility that a Web page is erroneously regarded a falsified page, and also provide a program and a recording medium. <P>SOLUTION: An index value computation part 11e computes index values relating to the sizes of variations in Web page information. An index value storage part 15 stores index values which are computed by the index value computation part 11e at a plurality of points of past time. A falsification detection part 11f detects whether Web pages are falsified or not based on the index values computed by the index value computation part 11e and the index values stored by the index value storage part 15. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、ウェブページの改竄を検知するウェブページの改竄検知装置に関する。また、本発明は、このウェブページの改竄検知装置としてコンピュータを機能させるためのプログラム、およびこのプログラムを記録した記録媒体にも関する。   The present invention relates to a web page falsification detection device that detects falsification of a web page. The present invention also relates to a program for causing a computer to function as an alteration detection device for the web page, and a recording medium on which the program is recorded.

ネットワーク上で閲覧可能なウェブページを定期的に監視して、ウェブページの改竄を検知するウェブ改竄検知システムがある(例えば特許文献1および非特許文献1参照)。このシステムでは、ウェブサーバが管理するウェブファイルをウェブ監視装置が定期的に取得してウェブファイルの変化の有無を検査し、もし変化を検出した場合には、改竄に見られる特徴の有無を検査する。もし、改竄に見られる特徴が検出された場合には、ウェブ監視装置は、ウェブページが改竄されたと判定する。また、改竄に見られる特徴が全く検出されなかった場合には、ウェブ監視装置は、ウェブページが更新されたと判定する。
特開2004−38272号公報 竹森 敬祐、三宅 優、中尾 康二,「Webサーバリモート監視におけるホームページ改竄判定」,情報処理学会,第18回CSEC研究会,2002年7月
There is a web falsification detection system that periodically monitors web pages that can be viewed on a network and detects falsification of the web pages (see, for example, Patent Document 1 and Non-Patent Document 1). In this system, the web monitoring device periodically acquires the web file managed by the web server and inspects whether there is a change in the web file. If a change is detected, inspects the presence of the characteristic seen in tampering. To do. If a feature found in tampering is detected, the web monitoring device determines that the web page has been tampered with. Further, when no feature found in tampering is detected, the web monitoring device determines that the web page has been updated.
JP 2004-38272 A Keisuke Takemori, Yu Miyake, Koji Nakao, “Homepage falsification judgment in Web server remote monitoring”, Information Processing Society of Japan, 18th CSEC Study Group, July 2002

ウェブページの中には、CGI(Common Gateway Interface)機能により、ユーザがウェブページにアクセスするたびにコンテンツ(アクセスカウンタや広告等)が変化する動的ウェブページがある。従来のウェブ改竄検知システムでは、ユーザのアクセスのみではコンテンツが変化しない静的ウェブページの改竄を検知することはできる。しかし、動的ウェブページの監視に関しては、ユーザのアクセスによりウェブページが正規に更新された場合でも、以下の例のように、ウェブページの改竄が誤検知されてしまう可能性があった。   Among web pages, there is a dynamic web page whose content (access counter, advertisement, etc.) changes every time a user accesses the web page by a CGI (Common Gateway Interface) function. In the conventional web falsification detection system, it is possible to detect falsification of a static web page whose content does not change only by user access. However, regarding the monitoring of dynamic web pages, even when the web page is regularly updated by the user's access, the alteration of the web page may be erroneously detected as in the following example.

従来のウェブ改竄検知システムでは、例えば背景色の変化やタイトルの変化が静的ウェブページの改竄の特徴としてデータベースに登録されている。しかし、動的ウェブページの中には、ユーザのアクセスにより背景色やタイトルが変化するものがあり、従来のウェブ改竄検知システムによりこのような動的ウェブページを監視した場合、正規の更新が行われているにもかかわらず、ウェブページが改竄されたと誤判定されてしまう。   In the conventional web falsification detection system, for example, a change in background color or a change in title is registered in a database as a characteristic of falsification of a static web page. However, some dynamic web pages have background colors and titles that change with user access. If such dynamic web pages are monitored by a conventional web falsification detection system, regular updates are performed. In spite of this, it is erroneously determined that the web page has been tampered with.

本発明は、上述した課題に鑑みてなされたものであって、ウェブページの改竄の誤検知を低減することができるウェブページの改竄検知装置、プログラム、および記録媒体を提供することを目的とする。   The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a web page alteration detection device, a program, and a recording medium that can reduce false detection of alteration of a web page. .

本発明は、上記の課題を解決するためになされたもので、ウェブページ情報を記憶するウェブページ情報記憶手段と、前記ウェブページ情報の変化の大きさに係る指標値を算出する指標値算出手段と、前記指標値算出手段によって過去の複数の時点で算出された前記指標値を記憶する指標値記憶手段と、前記指標値算出手段によって算出された前記指標値と、前記指標値記憶手段によって記憶されている前記指標値とに基づいてウェブページの改竄の有無を検知する改竄検知手段とを備えたことを特徴とするウェブページの改竄検知装置である。   The present invention has been made to solve the above-described problems, and includes a web page information storage unit that stores web page information, and an index value calculation unit that calculates an index value related to the magnitude of change in the web page information. And index value storage means for storing the index values calculated at a plurality of past times by the index value calculation means, the index values calculated by the index value calculation means, and the index value storage means An alteration detection device for a web page, comprising: alteration detection means for detecting whether or not the web page has been altered based on the index value.

静的ウェブページ、動的ウェブページにかかわらず、ウェブページが改竄されたときには、普段のウェブページの更新時と比較して、ウェブページ情報が大きく変化する。このウェブページ情報の変化の大きさは指標値に現れる。したがって、指標値算出手段によって算出された指標値と、指標値記憶手段によって記憶されている指標値とに基づいてウェブページの改竄の有無を検知することによって、ウェブページの改竄の誤検知を低減することができる。   Regardless of whether a static web page or a dynamic web page is used, when a web page is tampered with, the web page information changes greatly as compared to the time when a normal web page is updated. The magnitude of the change in the web page information appears in the index value. Therefore, by detecting the presence / absence of web page tampering based on the index value calculated by the index value calculating unit and the index value stored by the index value storage unit, false detection of web page tampering is reduced. can do.

また、本発明のウェブページの改竄検知装置において、前記改竄検知手段は、前記指標値算出手段によって算出された前記指標値と、前記指標値記憶手段によって記憶されている前記指標値の平均値との差分の大きさが閾値を超えた場合に、前記ウェブページが改竄されたと判定することを特徴とする。   In the web page falsification detection apparatus of the present invention, the falsification detection means includes the index value calculated by the index value calculation means, and an average value of the index values stored by the index value storage means. When the magnitude of the difference exceeds a threshold value, it is determined that the web page has been tampered with.

また、本発明のウェブページの改竄検知装置において、前記改竄検知手段は、前記指標値算出手段によって算出された前記指標値が、前記指標値記憶手段によって記憶されている前記指標値の統計分布の信頼区間から外れている場合に、前記ウェブページが改竄されたと判定することを特徴とする。   In the falsification detection apparatus for a web page according to the present invention, the falsification detection means may be configured such that the index value calculated by the index value calculation means is a statistical distribution of the index values stored in the index value storage means. It is determined that the web page has been tampered with when it is out of the confidence interval.

また、本発明は、ウェブページ情報を記憶するウェブページ情報記憶手段と、前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、過去の複数の時点間で変化が検出された情報を識別する識別情報と、当該情報の変化の頻度を示す頻度情報とを関連付けて記憶する識別情報記憶手段と、改竄による前記ウェブページ情報の変化の特徴を示す特徴情報を記憶する特徴情報記憶手段と、前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報に対応した前記頻度情報に基づいて、当該変化の検出された情報を改竄検知の対象とするか否かを判定する判定手段と、当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段とを備えたことを特徴とするウェブページの改竄検知装置である。   In addition, the present invention provides a web page information storage unit that stores web page information, a detection unit that detects information that has changed between different time points, among information included in the web page information, and a plurality of past time points. The identification information storage means for storing the identification information for identifying the information in which the change is detected in association with the frequency information indicating the frequency of the change of the information, and the characteristic information indicating the characteristics of the change of the web page information due to the falsification And when the change of the information included in the web page information is detected, the detected information of the change is based on the frequency information corresponding to the detected information of the change. A means for determining whether or not to detect falsification, and information for which the change is detected when it is determined that the information in which the change is detected is to be falsified. A tampering detection apparatus of a web page, characterized in that a tampering detection means for detecting the presence or absence of falsification of the web page based on said feature information.

また、本発明は、ウェブページ情報を記憶するウェブページ情報記憶手段と、前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、過去の複数の時点間で変化が検出された情報のうち、変化の頻度が所定の条件を満たす情報を識別する識別情報を記憶する識別情報記憶手段と、改竄による前記ウェブページ情報の変化の特徴を示す特徴情報を記憶する特徴情報記憶手段と、前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報が、前記識別情報が示す情報と一致するか否かを判定することによって、当該変化の検出された情報を改竄検知の対象とするか否かを判定する判定手段と、当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段とを備えたことを特徴とするウェブページの改竄検知装置である。   In addition, the present invention provides a web page information storage unit that stores web page information, a detection unit that detects information that has changed between different time points, among information included in the web page information, and a plurality of past time points. The identification information storage means for storing the identification information for identifying the information whose change frequency satisfies the predetermined condition among the information in which the change is detected, and the feature information indicating the feature of the change of the web page information due to the alteration When the change of the information included in the feature information storage means and the web page information is detected, it is determined whether the detected information of the change matches the information indicated by the identification information A determination means for determining whether or not the information in which the change is detected is a target for falsification detection, and when it is determined that the information in which the change is detected is a target for falsification detection, A tampering detection apparatus of a web page, characterized in that a tampering detection means for detecting the presence or absence of falsification of the web page based on the detected information of said change and said feature information.

動的ウェブページには、変化の頻度が高い情報と、変化の頻度が低い情報とが存在する。ユーザのアクセス毎に変化する情報は、変化の頻度が高い情報であり、従来技術では改竄が誤検知されやすい。したがって、情報の変化の頻度を考慮して、変化の検出された情報を改竄検知の対象とするか否かを判定することによって、ウェブページ情報に含まれる情報のうち、変化の頻度が高い情報を除いた情報を改竄検知の対象とすることが可能となる。これによって、ウェブページの改竄の誤検知を低減することができる。   A dynamic web page includes information with a high change frequency and information with a low change frequency. The information that changes with each user access is information with a high frequency of change. In the prior art, tampering is easily detected. Therefore, information that has a high change frequency among the information included in the web page information is determined by determining whether the information in which the change is detected is a target for falsification detection in consideration of the change frequency of the information. It becomes possible to make the information except for the target of falsification detection. Thereby, false detection of falsification of the web page can be reduced.

また、本発明は、上記のウェブページの改竄検知装置としてコンピュータを機能させるためのプログラムである。   Further, the present invention is a program for causing a computer to function as the above-described web page alteration detection device.

また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。   The present invention is a computer-readable recording medium on which the above program is recorded.

本発明によれば、ウェブページの改竄の誤検知を低減することができるという効果が得られる。特に、動的ウェブページの改竄の誤検知を低減することができるという効果が得られる。   According to the present invention, it is possible to reduce the erroneous detection of web page tampering. In particular, it is possible to reduce the false detection of dynamic web page tampering.

以下、図面を参照し、本発明の実施形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1の実施形態)
まず、本発明の第1の実施形態を説明する。図1は、本実施形態によるウェブ監視装置(本発明のウェブページの改竄検知装置に対応)の構成を示している。図1において、ウェブ監視装置1は、ウェブページを管理しているウェブサーバ2と、ネットワーク3を介して接続されている。
(First embodiment)
First, a first embodiment of the present invention will be described. FIG. 1 shows the configuration of a web monitoring device (corresponding to the web page alteration detection device of the present invention) according to the present embodiment. In FIG. 1, a web monitoring device 1 is connected to a web server 2 that manages web pages via a network 3.

ウェブ監視装置1において、通信部10は、ネットワーク3を介してウェブサーバ2と通信を行う。監視処理部11は、ウェブサーバ2から定期的にウェブページ情報を取得し、ウェブページの改竄を検知する監視処理を実行する。ウェブページ情報は、ウェブページを表示するのに必要な各種ファイルに含まれる情報であり、本実施形態では、「.html」、「.htm」、「.txt」等の拡張子を有するテキストベースのファイルに含まれる情報であるものとする。ウェブページ情報の具体例は後述する。   In the web monitoring device 1, the communication unit 10 communicates with the web server 2 via the network 3. The monitoring processing unit 11 periodically acquires web page information from the web server 2 and executes a monitoring process for detecting tampering of the web page. The web page information is information included in various files necessary for displaying the web page. In this embodiment, the text base having an extension such as “.html”, “.htm”, and “.txt” is used. It is assumed that the information is included in the file. Specific examples of the web page information will be described later.

ウェブページ情報記憶部12は、ウェブサーバ2から取得されたウェブページ情報を記憶する。差分情報記憶部13は、異なる2つの時点で取得された2つのウェブページ情報の差分を示す差分情報を記憶する。変化量記憶部14は、差分情報に基づいて算出されたウェブページ情報の変化量を記憶する。指標値記憶部15は、変化量に基づいて算出された指標値を記憶する。この指標値は、複数種類の情報の変化量を総合的に評価するための値である。   The web page information storage unit 12 stores web page information acquired from the web server 2. The difference information storage unit 13 stores difference information indicating a difference between two pieces of web page information acquired at two different times. The change amount storage unit 14 stores the change amount of the web page information calculated based on the difference information. The index value storage unit 15 stores an index value calculated based on the change amount. This index value is a value for comprehensively evaluating the amount of change in a plurality of types of information.

監視処理部11において、ウェブページ情報取得部11aは、例えばgetコマンドによる処理を実行し、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報を含むファイルをウェブサーバ2から取得する。ページ変化検出部11bは、ウェブページ情報取得部11aによって取得されたウェブページ情報の変化の有無を検出する。ウェブページ情報を含むファイルのハッシュ値の変化を検出することによって、ウェブページ情報の変化が検出される。   In the monitoring processing unit 11, the web page information acquisition unit 11 a executes, for example, processing by a get command, accesses the web server 2 through communication processing by the communication unit 10, and transmits a file including web page information from the web server 2. get. The page change detection unit 11b detects whether there is a change in the web page information acquired by the web page information acquisition unit 11a. A change in the web page information is detected by detecting a change in the hash value of the file including the web page information.

差分抽出部11cは、ページ変化検出部11bによってウェブページ情報の変化が検出された場合に、変化前と変化後のウェブページ情報から、差分の情報を抽出する。抽出された情報は差分情報として差分情報記憶部13に格納される。変化量算出部11dは、差分抽出部11cによって抽出された差分情報に基づいて、ウェブページ情報の変化量を算出する。算出された変化量は変化量記憶部14に格納される。指標値算出部11eは、変化量に基づいて指標値を算出する。算出された指標値は指標値記憶部15に格納される。   The difference extraction unit 11c extracts difference information from the web page information before and after the change when the change in the web page information is detected by the page change detection unit 11b. The extracted information is stored in the difference information storage unit 13 as difference information. The change amount calculation unit 11d calculates the change amount of the web page information based on the difference information extracted by the difference extraction unit 11c. The calculated change amount is stored in the change amount storage unit 14. The index value calculation unit 11e calculates an index value based on the change amount. The calculated index value is stored in the index value storage unit 15.

一般に、動的ウェブページの変化は、画像ファイルが置き換わるなどの見た目が変化する程度のものであり、発信するテキストベースの情報の趣旨が大きく変化することはない。もし、このようなテキスト系のウェブページが改竄された場合には、発信する情報そのものの趣旨が大きく変化するため、この変化量に注目することによって、改竄を検知することが可能となる。   In general, the change of the dynamic web page is such that the appearance of the text-based information to be transmitted does not change greatly because the appearance of the image changes, such as replacement of an image file. If such a text-based web page is falsified, the meaning of the information itself to be transmitted changes greatly, so that it is possible to detect falsification by paying attention to this amount of change.

静的ウェブページ、動的ウェブページにかかわらず、ウェブページが改竄されたときには、普段のウェブページの更新時と比較して、ウェブページ情報が大きく変化する。このウェブページ情報の変化の大きさは、変化量算出部11dによって算出された変化量、および指標値算出部11eによって算出された指標値に現れる。   Regardless of whether a static web page or a dynamic web page is used, when a web page is tampered with, the web page information changes greatly as compared to the time when a normal web page is updated. The magnitude of the change in the web page information appears in the change amount calculated by the change amount calculation unit 11d and the index value calculated by the index value calculation unit 11e.

改竄検知部11fは、指標値算出部11eによって算出された指標値に基づいてウェブページの改竄を検知する。アラーム処理部11gは、改竄検知部11fによってウェブページの改竄が検知された場合に、ウェブサーバ2の管理者に対してアラームを発信して注意を促すためのアラーム情報(警告を通知する電子メール等)を生成する。   The falsification detection unit 11f detects falsification of the web page based on the index value calculated by the index value calculation unit 11e. The alarm processing unit 11g sends alarm information to the administrator of the web server 2 to alert the administrator of the web server 2 (e-mail notifying a warning) when the falsification detection unit 11f detects falsification of the web page. Etc.).

次に、本実施形態によるウェブ監視装置1の動作を説明する。本実施形態の改竄検知部11fは、指標値算出部11eによって算出された指標値を過去の指標値と比較した結果に基づいてウェブページの改竄の有無を検知する。この改竄検知処理が開始される前の複数の時点で、ウェブページ情報の変化量と、その変化量に基づいた指標値とが算出される。以下、図2を適宜参照しながら、改竄検知処理に先立って行われる、ウェブページ情報の変化量および指標値の算出処理の手順を説明する。   Next, the operation of the web monitoring device 1 according to the present embodiment will be described. The falsification detection unit 11f of the present embodiment detects the presence / absence of falsification of the web page based on the result of comparing the index value calculated by the index value calculation unit 11e with the past index value. At a plurality of times before the falsification detection process is started, the change amount of the web page information and the index value based on the change amount are calculated. Hereinafter, the procedure of the web page information change amount and index value calculation processing performed prior to the falsification detection processing will be described with reference to FIG. 2 as appropriate.

処理の開始後、ウェブページ情報取得部11aは、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報を含むファイルを取得する。ウェブページ情報取得部11aは、取得したファイルをウェブページ情報記憶部12に格納する(ステップS100)。続いて、ウェブページ情報取得部11aは、ステップS100で取得したウェブパージ情報が、初めて取得したウェブページ情報であるか否かを判定する(ステップS101)。初めてウェブページ情報が取得された場合には、処理がステップS100に戻る。また、既に別のウェブページ情報を取得していた場合には、処理がステップS102に進む。   After the start of processing, the web page information acquisition unit 11a accesses the web server 2 through communication processing by the communication unit 10 and acquires a file including web page information. The web page information acquisition unit 11a stores the acquired file in the web page information storage unit 12 (step S100). Subsequently, the web page information acquisition unit 11a determines whether the web purge information acquired in step S100 is the web page information acquired for the first time (step S101). When web page information is acquired for the first time, the process returns to step S100. If another web page information has already been acquired, the process proceeds to step S102.

既に別のウェブページ情報を取得していた場合、ページ変化検出部11bは、ウェブページ情報を含むファイルをウェブページ情報記憶部12から読み出し、そのファイルのハッシュ値を算出する(ステップS102)。ページ変化検出部11bは、前回ウェブページ情報を取得したときに算出したハッシュ値と、今回算出したハッシュ値とを比較し(ステップS103)、比較結果に基づいて、ウェブページ情報の変化の有無を検出する(ステップS104)。   If another web page information has already been acquired, the page change detection unit 11b reads a file including the web page information from the web page information storage unit 12, and calculates a hash value of the file (step S102). The page change detection unit 11b compares the hash value calculated when the web page information was acquired last time with the hash value calculated this time (step S103), and based on the comparison result, the presence / absence of change in the web page information is determined. It detects (step S104).

2つのハッシュ値が同じ値であった場合には、ウェブページ情報は変化していない。この場合には、処理がステップS100に戻る。また、2つのハッシュ値が異なる値であった場合には、ウェブページ情報が変化している。この場合には、処理がステップS105に進む。ウェブページ情報の変化が検出された場合、差分抽出部11cは、前回取得したウェブページ情報と、今回取得したウェブページ情報との差分の情報を抽出し、差分情報記憶部13に格納する(ステップS105)。   If the two hash values are the same value, the web page information has not changed. In this case, the process returns to step S100. When the two hash values are different, the web page information has changed. In this case, the process proceeds to step S105. When a change in the web page information is detected, the difference extraction unit 11c extracts information on the difference between the web page information acquired last time and the web page information acquired this time, and stores the information in the difference information storage unit 13 (step) S105).

本実施形態では、テキスト系のウェブページに含まれる情報として、以下の情報に注目している。すなわち、以下の情報がウェブページ情報の具体例である。
(1)データサイズ(Byte)
(2)リンク数
(3)英単語数もしくは漢字数
(4)タグ(HTMLファイルに含まれる<title>タグや、<charset>タグ、<body bgcolor>タグ、<body text>タグ)
In the present embodiment, attention is focused on the following information as information included in a text web page. That is, the following information is a specific example of web page information.
(1) Data size (Byte)
(2) Number of links (3) Number of English words or Kanji characters (4) Tags (<title> tag, <charset> tag, <body bgcolor> tag, <body text> tag included in HTML file)

ステップS105において、差分抽出部11cは、上記の情報の変化量を検出するのに用いる差分情報を抽出するため、diffコマンドによる処理を実行する。diffコマンドは、2つのファイルのテキストを比較して、異なるテキストの部分を抽出する処理を実行するコマンドである。抽出されたテキストの部分(変化前と変化後の両方のテキストの部分を含む)の情報が差分情報である。   In step S105, the difference extraction unit 11c executes processing based on the diff command in order to extract difference information used to detect the change amount of the information. The diff command is a command for executing processing for comparing texts of two files and extracting portions of different texts. The information of the extracted text part (including both the text part before and after the change) is difference information.

図3はdiffコマンドの実行により得られるデータの内容を示している。図3にはテキスト中の3箇所の変化が示されている。テキスト301は変化前のテキストを示しており、テキスト302は同一箇所の変化後のテキストを示している。テキスト303と304の関係およびテキスト305と306の関係もテキスト301と302の関係と同様である。すなわち、テキスト301,303,305が変化前のテキストを示しており、テキスト302,304,306が変化後のテキストを示している。   FIG. 3 shows the contents of data obtained by executing the diff command. FIG. 3 shows three changes in the text. Text 301 shows the text before the change, and text 302 shows the text after the change at the same location. The relationship between the texts 303 and 304 and the relationship between the texts 305 and 306 are the same as the relationship between the texts 301 and 302. That is, the texts 301, 303, and 305 indicate the text before the change, and the texts 302, 304, and 306 indicate the text after the change.

ステップS105に続いて、変化量算出部11dは、差分情報記憶部13から差分情報を読み出し、差分情報に基づいてウェブページ情報の変化量を算出して変化量記憶部14に格納する(ステップS106)。データサイズの変化量は、差分情報が示す変化前のテキストの部分と変化後のテキストの部分とを別々のファイルに保存したときのファイルサイズの差として求める。リンク数は、差分情報が示す変化前または変化後のテキストの部分から求める。英単語数もしくは漢字数の変化量は、差分情報が示す変化前のテキストの部分と変化後のテキストの部分を比較して求める。   Subsequent to step S105, the change amount calculation unit 11d reads the difference information from the difference information storage unit 13, calculates the change amount of the web page information based on the difference information, and stores it in the change amount storage unit 14 (step S106). ). The change amount of the data size is obtained as a difference between the file sizes when the text portion before the change and the text portion after the change indicated by the difference information are stored in different files. The number of links is obtained from the text portion before or after the change indicated by the difference information. The amount of change in the number of English words or the number of kanji is obtained by comparing the part of the text before the change indicated by the difference information with the part of the text after the change.

タグの変化量は以下のようにして検出する。差分情報が示す変化前のテキストの部分と変化後のテキストの部分を比較し、<title>タグで指定されたタイトルの変化の有無を検出する。同様に、<charset>タグで指定された言語エンコードの変化の有無を検出する。同様に、<body bgcolor>タグで指定された背景色の変化の有無を検出する。同様に、<body text>タグで指定された文字色の変化の有無を検出する。   The amount of tag change is detected as follows. The part of the text before the change indicated by the difference information is compared with the part of the text after the change to detect whether the title specified by the <title> tag has changed. Similarly, the presence / absence of a change in the language encoding specified by the <charset> tag is detected. Similarly, the presence / absence of a change in the background color specified by the <body bgcolor> tag is detected. Similarly, the presence / absence of a change in the character color specified by the <body text> tag is detected.

これらの4つのタグで指定された文字に変化が全くない場合には、タグの変化量は0となる。また、各タグで指定された文字の全てが変化した場合には、タグの変化量は4となる。   When there is no change in the characters designated by these four tags, the change amount of the tag is zero. Further, when all the characters designated by each tag have changed, the amount of change of the tag is 4.

ステップS106に続いて、指標値算出部11eは、上記のようにして求めた変化量を評価する指標値を算出し、指標値記憶部15に格納する(ステップS107)。本実施形態では、指標値としてユークリッド距離を使用する。ユークリッド距離とは、ユークリッド空間における2点間の最短距離である。n次元空間の直交座標系における2点P,Qの座標がそれぞれ(Xp1,Xp2,・・・,Xpn)、(Xq1,Xq2,・・・,Xqn)であるとき、2点P,Q間のユークリッド距離dは次の(1)式で定義される。   Subsequent to step S106, the index value calculation unit 11e calculates an index value for evaluating the amount of change obtained as described above, and stores it in the index value storage unit 15 (step S107). In the present embodiment, Euclidean distance is used as the index value. The Euclidean distance is the shortest distance between two points in the Euclidean space. When the coordinates of the two points P and Q in the orthogonal coordinate system in the n-dimensional space are (Xp1, Xp2,..., Xpn) and (Xq1, Xq2,..., Xqn), respectively, The Euclidean distance d is defined by the following equation (1).

Figure 2008165292
Figure 2008165292

点Pの座標には、ステップS106で算出された変化量が使用される。例えば、Xp1はデータサイズの変化量であり、Xp2はリンク数の変化量であり、Xp3は英単語数もしくは漢字数の変化量であり、Xp4はタグの変化量である。また、点Qの座標には原点(ウェブページ情報に変化がない点)の座標が使用される。すなわち、Xq1=Xq2=・・・=Xqn=0である。   As the coordinates of the point P, the amount of change calculated in step S106 is used. For example, Xp1 is the amount of change in data size, Xp2 is the amount of change in the number of links, Xp3 is the amount of change in the number of English words or kanji, and Xp4 is the amount of change in the tag. Further, the coordinates of the point Q are the coordinates of the origin (the point where the web page information does not change). That is, Xq1 = Xq2 =... = Xqn = 0.

(1)式に従ってユークリッド距離を算出することによって、複数種類の情報の変化量を総合的に評価するための指標値を求めることができる。なお、特定の情報について、普段から変化量が大きいと、その変化量がユークリッド距離に与える影響が大きくなり、他の情報の変化量の影響がユークリッド距離に反映されにくくなる。したがって、情報毎に普段の変化量を基準にして、変化量に対して補正を行うようにし、各情報がユークリッド距離に与える影響が公平となるようにしてもよい。   By calculating the Euclidean distance according to the equation (1), it is possible to obtain an index value for comprehensively evaluating the amount of change in a plurality of types of information. Note that if the amount of change of a specific information is usually large, the effect of the amount of change on the Euclidean distance becomes large, and the influence of the amount of change of other information is less likely to be reflected in the Euclidean distance. Therefore, the amount of change may be corrected for each information on the basis of the usual amount of change, and the influence of each information on the Euclidean distance may be made fair.

ステップS107に続いて、指標値算出部11eは、指標値の算出処理を終了するか否かを判定する(ステップS108)。判定基準は、例えば所定数の指標値を算出したか否か、または図2に示した処理を開始してから所定時間が経過したか否か等である。指標値の算出処理を続ける場合には、処理がステップS100に戻る。また、指標値の算出処理を終了する場合には、処理がステップS109に進む。   Subsequent to step S107, the index value calculation unit 11e determines whether or not to end the index value calculation process (step S108). The determination criterion is, for example, whether or not a predetermined number of index values have been calculated, or whether or not a predetermined time has elapsed since the processing illustrated in FIG. When the index value calculation process is continued, the process returns to step S100. If the index value calculation process is to end, the process proceeds to step S109.

ステップS107の処理が繰り返し実行されると、指標値記憶部15には、過去の複数の時点で算出された複数の指標値が保存されていることになる。指標値の算出処理を終了する場合、指標値算出部11eは指標値記憶部15からこれら複数の指標値を読み出し、それらの平均値を算出する。算出された平均値は指標値記憶部15に格納される(ステップS109)。以上でウェブページ情報の変化量および指標値の算出処理が終了する。   When the process of step S107 is repeatedly executed, the index value storage unit 15 stores a plurality of index values calculated at a plurality of past times. When the index value calculation process is terminated, the index value calculation unit 11e reads the plurality of index values from the index value storage unit 15 and calculates an average value thereof. The calculated average value is stored in the index value storage unit 15 (step S109). The web page information change amount and index value calculation processing is thus completed.

次に、図4を適宜参照しながら、ウェブページの改竄検知処理の手順を説明する。ステップS200〜S207の処理は図2のステップS100〜S107の処理と同様であるので、これらの処理の説明を省略する。ステップS207に続いて、改竄検知部11fは、過去の複数の時点で算出された指標値の平均値を指標値記憶部15から読み出し、その平均値を、ステップS207で算出された指標値と比較する(ステップS208)。   Next, the procedure of the web page alteration detection process will be described with reference to FIG. 4 as appropriate. Since the processes in steps S200 to S207 are the same as the processes in steps S100 to S107 in FIG. 2, the description of these processes is omitted. Subsequent to step S207, the falsification detection unit 11f reads the average value of the index values calculated at a plurality of past times from the index value storage unit 15, and compares the average value with the index value calculated in step S207. (Step S208).

続いて、改竄検知部11fは、ステップS208での比較結果に基づいて、ウェブページが改竄されたか否かを判定する。指標値と平均値の差分の大きさが所定の閾値を超えている場合には、改竄検知部11fは、ウェブページが改竄されたと判定する。また、指標値と平均値の差分の大きさが所定の閾値以下である場合には、改竄検知部11fは、ウェブページが改竄されていないと判定する(ステップS209)。   Subsequently, the falsification detection unit 11f determines whether or not the web page has been falsified based on the comparison result in step S208. If the difference between the index value and the average value exceeds a predetermined threshold, the falsification detection unit 11f determines that the web page has been falsified. When the difference between the index value and the average value is equal to or smaller than the predetermined threshold, the falsification detection unit 11f determines that the web page has not been falsified (step S209).

ウェブページが改竄されたと判定された場合には、処理はステップS210に進む。また、ウェブページが改竄されていないと判定された場合には、処理はステップS211に進む。ウェブページが改竄されたと判定された場合、アラーム処理部11gはアラーム情報を生成し、通信部10へ出力する。通信部10は、ネットワーク3を介してアラーム情報をウェブサーバ2へ送信する(ステップS210)。   If it is determined that the web page has been tampered with, the process proceeds to step S210. If it is determined that the web page has not been tampered with, the process proceeds to step S211. When it is determined that the web page has been tampered with, the alarm processing unit 11 g generates alarm information and outputs the alarm information to the communication unit 10. The communication unit 10 transmits alarm information to the web server 2 via the network 3 (step S210).

続いて、改竄検知部11fは、改竄検知処理を終了するか否かを判定する(ステップS211)。改竄検出処理を続けると判定された場合には、処理がステップS200に戻る。また、改竄検知処理を終了すると判定された場合には、一連の処理が終了する。   Subsequently, the falsification detection unit 11f determines whether or not to end the falsification detection process (step S211). If it is determined to continue the falsification detection process, the process returns to step S200. If it is determined that the falsification detection process is to be terminated, the series of processes is terminated.

上記の処理では、算出した指標値および過去の指標値の平均値から求めた差分の大きさと閾値の大小関係により改竄の有無を判定しているが、算出した指標値と閾値の大小関係により改竄の有無を判定してもよい。この場合、過去の指標値の統計分布(確率分布)から閾値を決定することが望ましい。以下、算出した指標値と閾値の大小関係により改竄の有無を判定する方法を説明する。   In the above processing, the presence / absence of falsification is determined based on the magnitude relationship between the difference between the calculated index value and the average value of the past index values and the threshold value. You may determine the presence or absence of. In this case, it is desirable to determine a threshold value from a statistical distribution (probability distribution) of past index values. Hereinafter, a method of determining the presence / absence of falsification based on the magnitude relationship between the calculated index value and the threshold will be described.

図2のステップS109の処理は以下の処理に変わる。指標値算出部11eは、ステップS107の処理を繰り返すことによって算出した複数の指標値を指標値記憶部15から読み出す。指標値算出部11eはそれらの平均値と標準偏差を算出し、平均値と標準偏差から閾値を算出する。算出された閾値は指標値記憶部15に格納される。   The processing in step S109 in FIG. 2 is changed to the following processing. The index value calculation unit 11e reads a plurality of index values calculated by repeating the process of step S107 from the index value storage unit 15. The index value calculation unit 11e calculates an average value and a standard deviation thereof, and calculates a threshold value from the average value and the standard deviation. The calculated threshold value is stored in the index value storage unit 15.

図5に示すように、ウェブページの正規の変化による指標値の統計分布500の上側信頼区間Aから外れる指標値が異常値とみなされる。この上側信頼区間Aの上限値が上記の閾値である。例えば、指標値が、上側信頼区間Aから外れる区間Bに存在する確率が1%となるような閾値が算出される。統計分布500の信頼区間は任意に設定してよい。   As shown in FIG. 5, an index value that deviates from the upper confidence interval A of the statistical distribution 500 of index values due to a normal change of the web page is regarded as an abnormal value. The upper limit value of the upper confidence interval A is the above threshold value. For example, the threshold value is calculated such that the probability that the index value exists in the section B outside the upper confidence section A is 1%. The confidence interval of the statistical distribution 500 may be set arbitrarily.

また、図3のステップS208の処理は以下の処理に変わる。改竄検知部11fは、上記の閾値を指標値記憶部15から読み出し、ステップS207で算出された指標値と閾値を比較する。   Further, the process of step S208 in FIG. 3 is changed to the following process. The falsification detecting unit 11f reads the threshold value from the index value storage unit 15 and compares the index value calculated in step S207 with the threshold value.

また、図3のステップS209の処理は以下の処理に変わる。改竄検知部11fは、ステップS208での比較結果に基づいて、ウェブページが改竄されたか否かを判定する。指標値が閾値を超えている場合には、改竄検知部11fは、ウェブページが改竄されたと判定する。また、指標値が閾値以下である場合には、改竄検知部11fは、ウェブページが改竄されていないと判定する。   Further, the process of step S209 in FIG. 3 is changed to the following process. The falsification detection unit 11f determines whether or not the web page has been falsified based on the comparison result in step S208. If the index value exceeds the threshold value, the falsification detection unit 11f determines that the web page has been falsified. When the index value is equal to or smaller than the threshold value, the falsification detection unit 11f determines that the web page has not been falsified.

上述したように、本実施形態によれば、新たに算出された指標値と、過去に算出された指標値とに基づいてウェブページの改竄の有無を検知することによって、ウェブページの改竄の誤検知を低減することができる。特に、動的ウェブページについては、普段の更新による変化と改竄による変化とを見分けることが可能となるので、動的ウェブページの改竄の誤検知を低減することができる。   As described above, according to the present embodiment, an error in web page tampering is detected by detecting the presence or absence of web page tampering based on a newly calculated index value and a previously calculated index value. Detection can be reduced. In particular, with respect to dynamic web pages, it is possible to distinguish between changes due to normal updating and changes due to tampering, so that false detection of tampering with dynamic web pages can be reduced.

また、新たに算出された指標値と、過去に算出された指標値の平均値との差分が閾値を超えた場合にウェブページが改竄されたと判定することによって、ウェブページの改竄の有無の判定を定量的な基準で行うことが可能となり、ウェブページの改竄の誤検知を低減することができる。   In addition, by determining that the web page has been tampered with when the difference between the newly calculated index value and the average value of the index values calculated in the past exceeds the threshold, it is determined whether the web page has been tampered with. Can be performed on a quantitative basis, and false detection of falsification of a web page can be reduced.

また、新たに算出された指標値が、過去に算出された指標値の統計分布の信頼区間から外れた場合にウェブページが改竄されたと判定することによって、ウェブページの改竄の有無の判定をより客観的な基準で行うことが可能となり、ウェブページの改竄の誤検知を低減することができる。   In addition, when the newly calculated index value falls outside the confidence interval of the statistical distribution of the index value calculated in the past, it is determined that the web page has been tampered with, thereby determining whether the web page has been tampered with. It is possible to carry out on an objective basis, and it is possible to reduce false detection of web page tampering.

(第2の実施形態)
次に、本発明の第2の実施形態を説明する。動的ウェブページには、変化の頻度が高い情報と、変化の頻度が低い情報とが存在する。ユーザのアクセス毎に変化する情報は、変化の頻度が高い情報であり、従来技術では改竄が誤検知されやすい。したがって、本実施形態では、ウェブページ情報に含まれる情報のうち、変化の頻度が高い情報を除いた情報を改竄検知の対象とする。本実施形態では、特にタグの情報に注目している。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. A dynamic web page includes information with a high change frequency and information with a low change frequency. The information that changes with each user access is information with a high frequency of change. In the prior art, tampering is easily detected. Therefore, in the present embodiment, the information included in the web page information, excluding information with high frequency of change, is targeted for falsification detection. In the present embodiment, attention is particularly paid to tag information.

図6は、本実施形態によるウェブ監視装置の構成を示している。以下、図1に示したウェブ監視装置1にはない構成を説明する。図6において、タグ情報抽出部11hは、差分抽出部11cによって変化前後のウェブページ情報から抽出された差分情報に基づいて、変化したタグの情報を抽出する。タグ情報記憶部16は、抽出されたタグの情報を記憶する。改竄特徴情報記憶部17は、改竄によるウェブページ情報の変化の特徴を示す特徴情報を記憶する。   FIG. 6 shows the configuration of the web monitoring apparatus according to the present embodiment. Hereinafter, a configuration not provided in the web monitoring apparatus 1 illustrated in FIG. 1 will be described. In FIG. 6, the tag information extraction unit 11 h extracts changed tag information based on the difference information extracted from the web page information before and after the change by the difference extraction unit 11 c. The tag information storage unit 16 stores extracted tag information. The falsification feature information storage unit 17 stores feature information indicating features of changes in web page information due to falsification.

次に、本実施形態によるウェブ監視装置1の動作を説明する。本実施形態の改竄検知部11fは、変化したタグの情報のうち、変化の頻度が高いタグの情報を除外し、変化の頻度が低いタグの情報を用いてウェブページの改竄の有無を検知する。この改竄検知処理が開始される前に、複数の時点でタグの情報の変化とその変化の頻度が検出される。以下、図7を適宜参照しながら、改竄検知処理に先立って行われる、タグの変化頻度の検出処理の手順を説明する。   Next, the operation of the web monitoring device 1 according to the present embodiment will be described. The falsification detection unit 11f according to the present embodiment excludes tag information having a high change frequency from the changed tag information, and detects whether the web page has been falsified using the tag information having a low change frequency. . Before the falsification detection process is started, changes in tag information and the frequency of the changes are detected at a plurality of times. Hereinafter, the procedure of the tag change frequency detection process performed prior to the falsification detection process will be described with reference to FIG. 7 as appropriate.

図7のステップS300〜S305の処理は図2のステップS100〜S105の処理と同様であるので、これらの処理の説明を省略する。ステップS306において、タグ情報抽出部11hは差分情報記憶部13から差分情報を読み出し、差分情報から、内容が変化したタグの情報を抽出する。タグ情報抽出部11hは、抽出したタグの識別情報(タグ名等)と、そのタグの変化を検出した回数(変化検出回数)とを関連付けてタグ情報記憶部16に格納する。   Since the processes in steps S300 to S305 in FIG. 7 are the same as the processes in steps S100 to S105 in FIG. 2, description of these processes is omitted. In step S306, the tag information extraction unit 11h reads the difference information from the difference information storage unit 13, and extracts the tag information whose contents have changed from the difference information. The tag information extraction unit 11h stores the extracted tag identification information (tag name and the like) in association with the number of times the change of the tag is detected (change detection count) in the tag information storage unit 16.

より具体的には、タグ情報記憶部16には、タグの識別情報と変化検出回数を関連付けて記憶する領域が予め用意されており、図3の処理の開始前には変化検出回数は0となっている。タグの内容(タグで指定されたテキスト)に変化があった場合、そのタグの識別情報と関連付けられている変化検出回数の値に1が加算され、値が更新される。   More specifically, the tag information storage unit 16 is prepared in advance with an area for storing the tag identification information and the number of change detections in association with each other, and the number of change detections is 0 before the start of the processing of FIG. It has become. When there is a change in the content of the tag (text specified by the tag), 1 is added to the value of the number of change detections associated with the identification information of the tag, and the value is updated.

ステップS306に続いて、タグ情報抽出部11hは、タグの変化頻度の検出処理を終了するか否かを判定する(ステップS307)。判定基準は、例えば図7に示した処理を開始してから所定時間が経過したか否か等である。タグの変化頻度の検出処理を続けると判定された場合には、処理がステップS300に戻る。また、タグの変化頻度の検出処理を終了すると判定された場合には、一連の処理が終了する。   Subsequent to step S306, the tag information extraction unit 11h determines whether or not to end the tag change frequency detection process (step S307). The criterion is, for example, whether or not a predetermined time has elapsed since the processing shown in FIG. 7 was started. If it is determined that the tag change frequency detection process is to be continued, the process returns to step S300. If it is determined that the tag change frequency detection process is to be terminated, the series of processes is terminated.

上記の処理によってタグ情報記憶部16に保存された変化検出回数は、タグの変化頻度に応じた値となっている。この変化検出回数に基づいて、変化頻度が高いタグと、変化頻度が低いタグとを区別することが可能となる。   The number of change detections stored in the tag information storage unit 16 by the above processing is a value corresponding to the tag change frequency. Based on the number of change detections, it is possible to distinguish between a tag with a high change frequency and a tag with a low change frequency.

以下、図8を適宜参照しながら、ウェブページの改竄検知処理の手順を説明する。ステップS400〜S405の処理は図4のステップS200〜S205の処理と同様であるので、これらの処理の説明を省略する。   Hereinafter, the procedure of the alteration detection process of the web page will be described with reference to FIG. 8 as appropriate. Since the processing of steps S400 to S405 is the same as the processing of steps S200 to S205 of FIG. 4, description of these processing is omitted.

ステップS405に続いて、タグ情報抽出部11hは差分情報記憶部13から差分情報を読み出し、差分情報から、内容が変化したタグの情報を抽出する。タグ情報抽出部11hは、タグ情報記憶部16に格納されている情報を参照し、抽出したタグの識別情報と関連付けられている変化検出回数の値に基づいて、抽出したタグの情報を改竄検知の対象に設定するか否かを判定する。変化検出回数の値が所定値未満であった場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の対象に設定する。変化検出回数の値が所定値以上であった場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の非対象に設定する(ステップS406)。   Subsequent to step S405, the tag information extraction unit 11h reads the difference information from the difference information storage unit 13, and extracts the information of the tag whose contents have changed from the difference information. The tag information extraction unit 11h refers to the information stored in the tag information storage unit 16, and detects falsification of the extracted tag information based on the value of the number of change detections associated with the extracted tag identification information. It is determined whether or not to set the target. If the value of the number of change detections is less than the predetermined value, the tag information extraction unit 11h sets the extracted tag information as a target for falsification detection. If the value of the number of change detections is equal to or greater than a predetermined value, the tag information extraction unit 11h sets the extracted tag information as a non-target for falsification detection (step S406).

続いて、改竄検知部11fは、改竄検知対象のタグの改竄による変化の特徴を示す特徴情報を改竄特徴情報記憶部17から読み出し、改竄検知対象のタグの情報と比較する(ステップS407)。   Subsequently, the falsification detection unit 11f reads the feature information indicating the characteristics of the change due to falsification of the falsification detection target tag from the falsification feature information storage unit 17 and compares it with the information of the falsification detection target tag (step S407).

改竄検知部11fは、この比較結果に基づいて、ウェブページが改竄されたか否かを判定する。タグの情報と特徴情報が一致した場合には、改竄検知部11fは、ウェブページが改竄されたと判定する。また、タグの情報と特徴情報が一致しなかった場合には、改竄検知部11fは、ウェブページが改竄されていないと判定する(ステップS408)。例えば、<title>タグに関する特徴情報として、「Hack」や「Fuck」という文字列が登録されており、ステップS406で抽出されたテキストに含まれる、<title>タグで指定された文字列に上記の文字列が含まれている場合には、ウェブページが改竄されたと判定される。   The falsification detection unit 11f determines whether the web page has been falsified based on the comparison result. If the tag information and the feature information match, the falsification detection unit 11f determines that the web page has been falsified. If the tag information and the feature information do not match, the falsification detection unit 11f determines that the web page has not been falsified (step S408). For example, character strings such as “Hack” and “Fuck” are registered as feature information related to the <title> tag, and the character string specified by the <title> tag included in the text extracted in step S406 is described above. Is included, it is determined that the web page has been tampered with.

ステップS409,S410の処理は図4のステップS210,S211の処理と同様であるので、それらの説明を省略する。   The processing in steps S409 and S410 is the same as the processing in steps S210 and S211 in FIG.

図7および図8に示した処理を以下のように変更してもよい。図7のステップS307の処理は以下の処理に変わる。タグの変化頻度の検出処理を終了すると判定した場合、タグ情報抽出部11hは、タグ情報記憶部16に保存されている情報のうち、変化検出回数の値が所定値以上であった情報を削除する。この結果、タグ情報記憶部16には、変化頻度が低いタグのみの情報が保存されていることになる。   The processing shown in FIGS. 7 and 8 may be changed as follows. The processing in step S307 in FIG. 7 is changed to the following processing. If it is determined that the tag change frequency detection process is to be terminated, the tag information extraction unit 11h deletes information stored in the tag information storage unit 16 whose change detection count value is equal to or greater than a predetermined value. To do. As a result, the tag information storage unit 16 stores information of only tags with a low change frequency.

図8のステップS406の処理は以下の処理に変わる。タグ情報抽出部11hは、タグ情報記憶部16に格納されている識別情報が示すタグと、抽出したタグとが一致するか否か(両者が同一のタグであるか否か)を判定することによって、抽出したタグの情報を改竄検知の対象に設定するか否かを判定する。両者が一致した場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の対象に設定する。また、両者が一致しなかった場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の非対象に設定する。   The processing in step S406 in FIG. 8 changes to the following processing. The tag information extraction unit 11h determines whether or not the tag indicated by the identification information stored in the tag information storage unit 16 matches the extracted tag (whether or not both are the same tag). Thus, it is determined whether or not the extracted tag information is set as a target for falsification detection. If the two match, the tag information extraction unit 11h sets the extracted tag information as a target for falsification detection. If they do not match, the tag information extraction unit 11h sets the extracted tag information as a non-target for falsification detection.

上述したように、本実施形態によれば、変化の検出されたタグの情報のうち、変化の頻度が高いタグを除いたタグの情報を改竄検知の対象とすることが可能となる。これによって、ウェブページ(特に動的ウェブページ)の改竄の誤検知を低減することができる。   As described above, according to the present embodiment, it is possible to make tag information subject to tampering detection, except for tags with a high frequency of change, among tag information whose changes have been detected. Thereby, false detection of falsification of a web page (particularly a dynamic web page) can be reduced.

以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述したウェブ監視装置の動作および機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行させてもよい。   As described above, the embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the above-described embodiments, and includes design changes and the like without departing from the gist of the present invention. . For example, a program for realizing the operation and function of the web monitoring device described above may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read and executed by the computer.

ここで、「コンピュータ」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   Here, the “computer” includes a homepage providing environment (or display environment) if the WWW system is used. The “computer-readable recording medium” refers to a storage device such as a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a hard disk built in the computer. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように、情報を伝送する機能を有する媒体のことをいう。また、上述したプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能を、コンピュータに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program described above may be transmitted from a computer storing the program in a storage device or the like to another computer via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the above-described program may be for realizing a part of the above-described function. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer, what is called a difference file (difference program) may be sufficient.

本発明の第1の実施形態によるウェブ監視装置の構成を示すブロック図である。It is a block diagram which shows the structure of the web monitoring apparatus by the 1st Embodiment of this invention. 本発明の第1の実施形態におけるウェブページ情報の変化量および指標値の算出処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the calculation process of the variation | change_quantity of web page information and index value in the 1st Embodiment of this invention. 本発明の第1の実施形態におけるdiffコマンドの実行によって得られるデータの内容を示す参考図である。It is a reference figure which shows the content of the data obtained by execution of the diff command in the 1st Embodiment of this invention. 本発明の第1の実施形態におけるウェブページの改竄検知処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the alteration detection process of the web page in the 1st Embodiment of this invention. 本発明の第1の実施形態における指標値の統計分布から閾値を求める方法を説明するための参考図である。It is a reference figure for demonstrating the method of calculating | requiring a threshold value from the statistical distribution of the index value in the 1st Embodiment of this invention. 本発明の第2の実施形態によるウェブ監視装置の構成を示すブロック図である。It is a block diagram which shows the structure of the web monitoring apparatus by the 2nd Embodiment of this invention. 本発明の第2の実施形態におけるタグの変化頻度の検出処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the detection process of the change frequency of a tag in the 2nd Embodiment of this invention. 本発明の第2の実施形態におけるウェブページの改竄検知処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the alteration detection process of the web page in the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

1・・・ウェブ監視装置、2・・・ウェブサーバ、3・・・ネットワーク、10・・・通信部、11・・・監視処理部、11a・・・ウェブページ情報取得部、11b・・・ページ変化検出部、11c・・・差分抽出部、11d・・・変化量算出部、11e・・・指標値算出部(指標値算出手段)、11f・・・改竄検知部(改竄検知手段、判定手段)、11g・・・アラーム処理部、11h・・・タグ情報抽出部(検出手段)、12・・・ウェブページ情報記憶部(ウェブページ情報記憶手段)、13・・・差分情報記憶部、14・・・変化量記憶部、15・・・指標値記憶部(指標値記憶手段)、16・・・タグ情報記憶部(識別情報記憶手段)、17・・・改竄特徴情報記憶部(特徴情報記憶手段)   DESCRIPTION OF SYMBOLS 1 ... Web monitoring apparatus, 2 ... Web server, 3 ... Network, 10 ... Communication part, 11 ... Monitoring process part, 11a ... Web page information acquisition part, 11b ... Page change detection unit, 11c ... difference extraction unit, 11d ... change amount calculation unit, 11e ... index value calculation unit (index value calculation unit), 11f ... falsification detection unit (tamper detection unit, determination) Means), 11g ... alarm processing section, 11h ... tag information extraction section (detection means), 12 ... web page information storage section (web page information storage means), 13 ... difference information storage section, 14 ... change amount storage unit, 15 ... index value storage unit (index value storage unit), 16 ... tag information storage unit (identification information storage unit), 17 ... falsification feature information storage unit (feature) Information storage means)

Claims (7)

ウェブページ情報を記憶するウェブページ情報記憶手段と、
前記ウェブページ情報の変化の大きさに係る指標値を算出する指標値算出手段と、
前記指標値算出手段によって過去の複数の時点で算出された前記指標値を記憶する指標値記憶手段と、
前記指標値算出手段によって算出された前記指標値と、前記指標値記憶手段によって記憶されている前記指標値とに基づいてウェブページの改竄の有無を検知する改竄検知手段と、
を備えたことを特徴とするウェブページの改竄検知装置。
Web page information storage means for storing web page information;
Index value calculating means for calculating an index value related to the magnitude of change in the web page information;
Index value storage means for storing the index values calculated at a plurality of past times by the index value calculation means;
Falsification detection means for detecting whether or not a web page has been falsified based on the index value calculated by the index value calculation means and the index value stored by the index value storage means;
A tamper detection device for web pages, comprising:
前記改竄検知手段は、前記指標値算出手段によって算出された前記指標値と、前記指標値記憶手段によって記憶されている前記指標値の平均値との差分の大きさが閾値を超えた場合に、前記ウェブページが改竄されたと判定することを特徴とする請求項1に記載のウェブページの改竄検知装置。   The tampering detection means, when the difference between the index value calculated by the index value calculation means and the average value of the index values stored by the index value storage means exceeds a threshold, The web page tampering detection apparatus according to claim 1, wherein the tampering detection unit determines that the web page has been tampered with. 前記改竄検知手段は、前記指標値算出手段によって算出された前記指標値が、前記指標値記憶手段によって記憶されている前記指標値の統計分布の信頼区間から外れている場合に、前記ウェブページが改竄されたと判定することを特徴とする請求項1に記載のウェブページの改竄検知装置。   When the index value calculated by the index value calculation unit is out of the confidence interval of the statistical distribution of the index value stored by the index value storage unit, the falsification detection unit The web page tampering detection apparatus according to claim 1, wherein it is determined that tampering has occurred. ウェブページ情報を記憶するウェブページ情報記憶手段と、
前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、
過去の複数の時点間で変化が検出された情報を識別する識別情報と、当該情報の変化の頻度を示す頻度情報とを関連付けて記憶する識別情報記憶手段と、
改竄による前記ウェブページ情報の変化の特徴を示す特徴情報を記憶する特徴情報記憶手段と、
前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報に対応した前記頻度情報に基づいて、当該変化の検出された情報を改竄検知の対象とするか否かを判定する判定手段と、
当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段と、
を備えたことを特徴とするウェブページの改竄検知装置。
Web page information storage means for storing web page information;
A detecting means for detecting information changed between different time points out of the information included in the web page information;
Identification information storage means for storing identification information for identifying information in which a change has been detected between a plurality of past times and frequency information indicating the frequency of change of the information in association with each other;
Characteristic information storage means for storing characteristic information indicating characteristics of changes in the web page information due to tampering;
When a change in information included in the web page information is detected, based on the frequency information corresponding to the information in which the change has been detected, whether the information in which the change has been detected is subject to falsification detection Determination means for determining whether or not
Falsification detection means for detecting the presence or absence of falsification of a web page based on the detected information of the change and the feature information when it is determined that the detected information of the change is a target of falsification detection;
A tamper detection device for web pages, comprising:
ウェブページ情報を記憶するウェブページ情報記憶手段と、
前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、
過去の複数の時点間で変化が検出された情報のうち、変化の頻度が所定の条件を満たす情報を識別する識別情報を記憶する識別情報記憶手段と、
改竄による前記ウェブページ情報の変化の特徴を示す特徴情報を記憶する特徴情報記憶手段と、
前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報が、前記識別情報が示す情報と一致するか否かを判定することによって、当該変化の検出された情報を改竄検知の対象とするか否かを判定する判定手段と、
当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段と、
を備えたことを特徴とするウェブページの改竄検知装置。
Web page information storage means for storing web page information;
A detecting means for detecting information changed between different time points out of the information included in the web page information;
Identification information storage means for storing identification information for identifying information for which a change frequency satisfies a predetermined condition among information in which a change is detected between a plurality of past points;
Characteristic information storage means for storing characteristic information indicating characteristics of changes in the web page information due to tampering;
When a change in information included in the web page information is detected, the change is detected by determining whether the detected information matches the information indicated by the identification information. A determination means for determining whether or not the information is subject to falsification detection;
Falsification detection means for detecting the presence or absence of falsification of a web page based on the detected information of the change and the feature information when it is determined that the detected information of the change is a target of falsification detection;
A tamper detection device for web pages, comprising:
請求項1〜請求項5のいずれかに記載のウェブページの改竄検知装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the falsification detection device for a web page according to any one of claims 1 to 5. 請求項6に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the program according to claim 6 is recorded.
JP2006350992A 2006-12-27 2006-12-27 Web page alteration detection device, program, and recording medium Expired - Fee Related JP4881718B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006350992A JP4881718B2 (en) 2006-12-27 2006-12-27 Web page alteration detection device, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006350992A JP4881718B2 (en) 2006-12-27 2006-12-27 Web page alteration detection device, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2008165292A true JP2008165292A (en) 2008-07-17
JP4881718B2 JP4881718B2 (en) 2012-02-22

Family

ID=39694763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006350992A Expired - Fee Related JP4881718B2 (en) 2006-12-27 2006-12-27 Web page alteration detection device, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4881718B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012063493A1 (en) * 2010-11-10 2012-05-18 京セラコミュニケーションシステム株式会社 Vulnerability-diagnosis device
WO2012083874A1 (en) * 2010-12-22 2012-06-28 北大方正集团有限公司 Webpage information detection method and system
JP2012208743A (en) * 2011-03-30 2012-10-25 Kyocera Communication Systems Co Ltd Page change determination apparatus
CN103201749A (en) * 2011-01-05 2013-07-10 株式会社东芝 Web page defacement detection device and storage medium
JP2013541774A (en) * 2010-10-22 2013-11-14 北京神州緑盟信息安全科技股▲フン▼有限公司 Website scanning device and website scanning method
GB2513168A (en) * 2013-04-18 2014-10-22 F Secure Corp Detecting unauthorised changes to website content
JP2016006700A (en) * 2015-10-15 2016-01-14 株式会社エヌ・ティ・ティ・データ Delivery information analysis apparatus, delivery information analysis method, and delivery information analysis program
CN107301355A (en) * 2017-06-20 2017-10-27 深信服科技股份有限公司 A kind of webpage tamper monitoring method and device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038272A (en) * 2002-06-28 2004-02-05 Kddi Corp Web monitoring device and method, and computer program
JP2005011061A (en) * 2003-06-19 2005-01-13 Nec Fielding Ltd Monitoring/operating system, method and program to protect web server from web page alteration attack
JP2005202688A (en) * 2004-01-15 2005-07-28 Matsushita Electric Ind Co Ltd Content falsification detector
JP2005250802A (en) * 2004-03-03 2005-09-15 Toshiba Solutions Corp Device and program for detecting improper access
JP2006294234A (en) * 2006-05-01 2006-10-26 Victor Co Of Japan Ltd Reproducing device for disk-shaped recording medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038272A (en) * 2002-06-28 2004-02-05 Kddi Corp Web monitoring device and method, and computer program
JP2005011061A (en) * 2003-06-19 2005-01-13 Nec Fielding Ltd Monitoring/operating system, method and program to protect web server from web page alteration attack
JP2005202688A (en) * 2004-01-15 2005-07-28 Matsushita Electric Ind Co Ltd Content falsification detector
JP2005250802A (en) * 2004-03-03 2005-09-15 Toshiba Solutions Corp Device and program for detecting improper access
JP2006294234A (en) * 2006-05-01 2006-10-26 Victor Co Of Japan Ltd Reproducing device for disk-shaped recording medium

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9215246B2 (en) 2010-10-22 2015-12-15 NSFOCUS Information Technology Co., Ltd. Website scanning device and method
JP2013541774A (en) * 2010-10-22 2013-11-14 北京神州緑盟信息安全科技股▲フン▼有限公司 Website scanning device and website scanning method
JP2012133406A (en) * 2010-11-10 2012-07-12 Kyocera Communication Systems Co Ltd Vulnerability diagnostic device
WO2012063493A1 (en) * 2010-11-10 2012-05-18 京セラコミュニケーションシステム株式会社 Vulnerability-diagnosis device
US8918887B2 (en) 2010-11-10 2014-12-23 Kyocera Communication Systems, Co., Ltd. Vulnerability-diagnosis device
WO2012083874A1 (en) * 2010-12-22 2012-06-28 北大方正集团有限公司 Webpage information detection method and system
US9519718B2 (en) 2010-12-22 2016-12-13 Peking University Founder Group Co., Ltd. Webpage information detection method and system
CN103201749A (en) * 2011-01-05 2013-07-10 株式会社东芝 Web page defacement detection device and storage medium
US9100434B2 (en) 2011-01-05 2015-08-04 Kabushiki Kaisha Toshiba Web page falsification detection apparatus and storage medium
JP2012208743A (en) * 2011-03-30 2012-10-25 Kyocera Communication Systems Co Ltd Page change determination apparatus
GB2513168A (en) * 2013-04-18 2014-10-22 F Secure Corp Detecting unauthorised changes to website content
GB2513168B (en) * 2013-04-18 2017-12-27 F Secure Corp Detecting unauthorised changes to website content
US10033746B2 (en) 2013-04-18 2018-07-24 F-Secure Corporation Detecting unauthorised changes to website content
JP2016006700A (en) * 2015-10-15 2016-01-14 株式会社エヌ・ティ・ティ・データ Delivery information analysis apparatus, delivery information analysis method, and delivery information analysis program
CN107301355A (en) * 2017-06-20 2017-10-27 深信服科技股份有限公司 A kind of webpage tamper monitoring method and device

Also Published As

Publication number Publication date
JP4881718B2 (en) 2012-02-22

Similar Documents

Publication Publication Date Title
JP4881718B2 (en) Web page alteration detection device, program, and recording medium
US10789118B2 (en) Information processing device and error detection method
US7564969B2 (en) Methodology, system and computer readable medium for detecting file encryption
CN107612908B (en) Webpage tampering monitoring method and device
US20130275433A1 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
KR20150038738A (en) Detection of confidential information
CN102446255B (en) Method and device for detecting page tamper
US10505986B1 (en) Sensor based rules for responding to malicious activity
WO2017197942A1 (en) Virus database acquisition method and device, equipment, server and system
US20210034740A1 (en) Threat analysis system, threat analysis method, and threat analysis program
WO2021056731A1 (en) Log data analysis-based behavior detection method, apparatus, device, and medium
KR101228900B1 (en) System and method for detecting malicious content in a non-pe file
CN104036190A (en) Method and device for detecting page tampering
CN104036189A (en) Page distortion detecting method and black link database generating method
WO2018145637A1 (en) Method and device for recording web browsing behavior, and user terminal
US11157620B2 (en) Classification of executable files using a digest of a call graph pattern
JP6623128B2 (en) Log analysis system, log analysis method, and log analysis device
JP6923806B2 (en) Fraud detection devices, fraud detection methods, and fraud detection programs
CN109670305A (en) A kind of virus document recognition methods
CN115329770A (en) Threat information extraction method and system based on semantic analysis
US11232202B2 (en) System and method for identifying activity in a computer system
JP7140268B2 (en) WARNING DEVICE, CONTROL METHOD AND PROGRAM
KR102092411B1 (en) Realtime Web Attack Detection Method
CN111488621A (en) Method and system for detecting falsified webpage, electronic equipment and storage medium
JP7409978B2 (en) Risk assessment system and risk assessment method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Ref document number: 4881718

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees