JP4881718B2 - ウェブページの改竄検知装置、プログラム、および記録媒体 - Google Patents

ウェブページの改竄検知装置、プログラム、および記録媒体 Download PDF

Info

Publication number
JP4881718B2
JP4881718B2 JP2006350992A JP2006350992A JP4881718B2 JP 4881718 B2 JP4881718 B2 JP 4881718B2 JP 2006350992 A JP2006350992 A JP 2006350992A JP 2006350992 A JP2006350992 A JP 2006350992A JP 4881718 B2 JP4881718 B2 JP 4881718B2
Authority
JP
Japan
Prior art keywords
information
change
web page
detected
falsification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006350992A
Other languages
English (en)
Other versions
JP2008165292A (ja
Inventor
敬祐 竹森
彰一 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2006350992A priority Critical patent/JP4881718B2/ja
Publication of JP2008165292A publication Critical patent/JP2008165292A/ja
Application granted granted Critical
Publication of JP4881718B2 publication Critical patent/JP4881718B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、ウェブページの改竄を検知するウェブページの改竄検知装置に関する。また、本発明は、このウェブページの改竄検知装置としてコンピュータを機能させるためのプログラム、およびこのプログラムを記録した記録媒体にも関する。
ネットワーク上で閲覧可能なウェブページを定期的に監視して、ウェブページの改竄を検知するウェブ改竄検知システムがある(例えば特許文献1および非特許文献1参照)。このシステムでは、ウェブサーバが管理するウェブファイルをウェブ監視装置が定期的に取得してウェブファイルの変化の有無を検査し、もし変化を検出した場合には、改竄に見られる特徴の有無を検査する。もし、改竄に見られる特徴が検出された場合には、ウェブ監視装置は、ウェブページが改竄されたと判定する。また、改竄に見られる特徴が全く検出されなかった場合には、ウェブ監視装置は、ウェブページが更新されたと判定する。
特開2004−38272号公報 竹森 敬祐、三宅 優、中尾 康二,「Webサーバリモート監視におけるホームページ改竄判定」,情報処理学会,第18回CSEC研究会,2002年7月
ウェブページの中には、CGI(Common Gateway Interface)機能により、ユーザがウェブページにアクセスするたびにコンテンツ(アクセスカウンタや広告等)が変化する動的ウェブページがある。従来のウェブ改竄検知システムでは、ユーザのアクセスのみではコンテンツが変化しない静的ウェブページの改竄を検知することはできる。しかし、動的ウェブページの監視に関しては、ユーザのアクセスによりウェブページが正規に更新された場合でも、以下の例のように、ウェブページの改竄が誤検知されてしまう可能性があった。
従来のウェブ改竄検知システムでは、例えば背景色の変化やタイトルの変化が静的ウェブページの改竄の特徴としてデータベースに登録されている。しかし、動的ウェブページの中には、ユーザのアクセスにより背景色やタイトルが変化するものがあり、従来のウェブ改竄検知システムによりこのような動的ウェブページを監視した場合、正規の更新が行われているにもかかわらず、ウェブページが改竄されたと誤判定されてしまう。
本発明は、上述した課題に鑑みてなされたものであって、ウェブページの改竄の誤検知を低減することができるウェブページの改竄検知装置、プログラム、および記録媒体を提供することを目的とする。
本発明は、上記の課題を解決するためになされたもので、ウェブページ情報を記憶するウェブページ情報記憶手段と、前記ウェブページ情報の変化の大きさに係る指標値を算出する指標値算出手段と、前記指標値算出手段によって過去の複数の時点で算出された前記指標値を記憶する指標値記憶手段と、前記指標値算出手段によって算出された前記指標値と、前記指標値記憶手段によって記憶されている前記指標値とに基づいてウェブページの改竄の有無を検知する改竄検知手段とを備えたことを特徴とするウェブページの改竄検知装置である。
静的ウェブページ、動的ウェブページにかかわらず、ウェブページが改竄されたときには、普段のウェブページの更新時と比較して、ウェブページ情報が大きく変化する。このウェブページ情報の変化の大きさは指標値に現れる。したがって、指標値算出手段によって算出された指標値と、指標値記憶手段によって記憶されている指標値とに基づいてウェブページの改竄の有無を検知することによって、ウェブページの改竄の誤検知を低減することができる。
また、本発明のウェブページの改竄検知装置において、前記改竄検知手段は、前記指標値算出手段によって算出された前記指標値と、前記指標値記憶手段によって記憶されている前記指標値の平均値との差分の大きさが閾値を超えた場合に、前記ウェブページが改竄されたと判定することを特徴とする。
また、本発明のウェブページの改竄検知装置において、前記改竄検知手段は、前記指標値算出手段によって算出された前記指標値が、前記指標値記憶手段によって記憶されている前記指標値の統計分布の信頼区間から外れている場合に、前記ウェブページが改竄されたと判定することを特徴とする。
また、本発明は、ウェブページ情報を記憶するウェブページ情報記憶手段と、前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、過去の複数の時点間で変化が検出された情報を識別する識別情報と、当該情報の変化の頻度を示す頻度情報とを関連付けて記憶する識別情報記憶手段と、改竄による前記ウェブページ情報の変化の特徴を示す特徴情報を記憶する特徴情報記憶手段と、前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報に対応した前記頻度情報に基づいて、当該変化の検出された情報を改竄検知の対象とするか否かを判定する判定手段と、当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段とを備えたことを特徴とするウェブページの改竄検知装置である。
また、本発明は、ウェブページ情報を記憶するウェブページ情報記憶手段と、前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、過去の複数の時点間で変化が検出された情報のうち、変化の頻度が所定の条件を満たす情報を識別する識別情報を記憶する識別情報記憶手段と、改竄による前記ウェブページ情報の変化の特徴を示す特徴情報を記憶する特徴情報記憶手段と、前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報が、前記識別情報が示す情報と一致するか否かを判定することによって、当該変化の検出された情報を改竄検知の対象とするか否かを判定する判定手段と、当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段とを備えたことを特徴とするウェブページの改竄検知装置である。
動的ウェブページには、変化の頻度が高い情報と、変化の頻度が低い情報とが存在する。ユーザのアクセス毎に変化する情報は、変化の頻度が高い情報であり、従来技術では改竄が誤検知されやすい。したがって、情報の変化の頻度を考慮して、変化の検出された情報を改竄検知の対象とするか否かを判定することによって、ウェブページ情報に含まれる情報のうち、変化の頻度が高い情報を除いた情報を改竄検知の対象とすることが可能となる。これによって、ウェブページの改竄の誤検知を低減することができる。
また、本発明は、上記のウェブページの改竄検知装置としてコンピュータを機能させるためのプログラムである。
また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、ウェブページの改竄の誤検知を低減することができるという効果が得られる。特に、動的ウェブページの改竄の誤検知を低減することができるという効果が得られる。
以下、図面を参照し、本発明の実施形態を説明する。
(第1の実施形態)
まず、本発明の第1の実施形態を説明する。図1は、本実施形態によるウェブ監視装置(本発明のウェブページの改竄検知装置に対応)の構成を示している。図1において、ウェブ監視装置1は、ウェブページを管理しているウェブサーバ2と、ネットワーク3を介して接続されている。
ウェブ監視装置1において、通信部10は、ネットワーク3を介してウェブサーバ2と通信を行う。監視処理部11は、ウェブサーバ2から定期的にウェブページ情報を取得し、ウェブページの改竄を検知する監視処理を実行する。ウェブページ情報は、ウェブページを表示するのに必要な各種ファイルに含まれる情報であり、本実施形態では、「.html」、「.htm」、「.txt」等の拡張子を有するテキストベースのファイルに含まれる情報であるものとする。ウェブページ情報の具体例は後述する。
ウェブページ情報記憶部12は、ウェブサーバ2から取得されたウェブページ情報を記憶する。差分情報記憶部13は、異なる2つの時点で取得された2つのウェブページ情報の差分を示す差分情報を記憶する。変化量記憶部14は、差分情報に基づいて算出されたウェブページ情報の変化量を記憶する。指標値記憶部15は、変化量に基づいて算出された指標値を記憶する。この指標値は、複数種類の情報の変化量を総合的に評価するための値である。
監視処理部11において、ウェブページ情報取得部11aは、例えばgetコマンドによる処理を実行し、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報を含むファイルをウェブサーバ2から取得する。ページ変化検出部11bは、ウェブページ情報取得部11aによって取得されたウェブページ情報の変化の有無を検出する。ウェブページ情報を含むファイルのハッシュ値の変化を検出することによって、ウェブページ情報の変化が検出される。
差分抽出部11cは、ページ変化検出部11bによってウェブページ情報の変化が検出された場合に、変化前と変化後のウェブページ情報から、差分の情報を抽出する。抽出された情報は差分情報として差分情報記憶部13に格納される。変化量算出部11dは、差分抽出部11cによって抽出された差分情報に基づいて、ウェブページ情報の変化量を算出する。算出された変化量は変化量記憶部14に格納される。指標値算出部11eは、変化量に基づいて指標値を算出する。算出された指標値は指標値記憶部15に格納される。
一般に、動的ウェブページの変化は、画像ファイルが置き換わるなどの見た目が変化する程度のものであり、発信するテキストベースの情報の趣旨が大きく変化することはない。もし、このようなテキスト系のウェブページが改竄された場合には、発信する情報そのものの趣旨が大きく変化するため、この変化量に注目することによって、改竄を検知することが可能となる。
静的ウェブページ、動的ウェブページにかかわらず、ウェブページが改竄されたときには、普段のウェブページの更新時と比較して、ウェブページ情報が大きく変化する。このウェブページ情報の変化の大きさは、変化量算出部11dによって算出された変化量、および指標値算出部11eによって算出された指標値に現れる。
改竄検知部11fは、指標値算出部11eによって算出された指標値に基づいてウェブページの改竄を検知する。アラーム処理部11gは、改竄検知部11fによってウェブページの改竄が検知された場合に、ウェブサーバ2の管理者に対してアラームを発信して注意を促すためのアラーム情報(警告を通知する電子メール等)を生成する。
次に、本実施形態によるウェブ監視装置1の動作を説明する。本実施形態の改竄検知部11fは、指標値算出部11eによって算出された指標値を過去の指標値と比較した結果に基づいてウェブページの改竄の有無を検知する。この改竄検知処理が開始される前の複数の時点で、ウェブページ情報の変化量と、その変化量に基づいた指標値とが算出される。以下、図2を適宜参照しながら、改竄検知処理に先立って行われる、ウェブページ情報の変化量および指標値の算出処理の手順を説明する。
処理の開始後、ウェブページ情報取得部11aは、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報を含むファイルを取得する。ウェブページ情報取得部11aは、取得したファイルをウェブページ情報記憶部12に格納する(ステップS100)。続いて、ウェブページ情報取得部11aは、ステップS100で取得したウェブパージ情報が、初めて取得したウェブページ情報であるか否かを判定する(ステップS101)。初めてウェブページ情報が取得された場合には、処理がステップS100に戻る。また、既に別のウェブページ情報を取得していた場合には、処理がステップS102に進む。
既に別のウェブページ情報を取得していた場合、ページ変化検出部11bは、ウェブページ情報を含むファイルをウェブページ情報記憶部12から読み出し、そのファイルのハッシュ値を算出する(ステップS102)。ページ変化検出部11bは、前回ウェブページ情報を取得したときに算出したハッシュ値と、今回算出したハッシュ値とを比較し(ステップS103)、比較結果に基づいて、ウェブページ情報の変化の有無を検出する(ステップS104)。
2つのハッシュ値が同じ値であった場合には、ウェブページ情報は変化していない。この場合には、処理がステップS100に戻る。また、2つのハッシュ値が異なる値であった場合には、ウェブページ情報が変化している。この場合には、処理がステップS105に進む。ウェブページ情報の変化が検出された場合、差分抽出部11cは、前回取得したウェブページ情報と、今回取得したウェブページ情報との差分の情報を抽出し、差分情報記憶部13に格納する(ステップS105)。
本実施形態では、テキスト系のウェブページに含まれる情報として、以下の情報に注目している。すなわち、以下の情報がウェブページ情報の具体例である。
(1)データサイズ(Byte)
(2)リンク数
(3)英単語数もしくは漢字数
(4)タグ(HTMLファイルに含まれる<title>タグや、<charset>タグ、<body bgcolor>タグ、<body text>タグ)
ステップS105において、差分抽出部11cは、上記の情報の変化量を検出するのに用いる差分情報を抽出するため、diffコマンドによる処理を実行する。diffコマンドは、2つのファイルのテキストを比較して、異なるテキストの部分を抽出する処理を実行するコマンドである。抽出されたテキストの部分(変化前と変化後の両方のテキストの部分を含む)の情報が差分情報である。
図3はdiffコマンドの実行により得られるデータの内容を示している。図3にはテキスト中の3箇所の変化が示されている。テキスト301は変化前のテキストを示しており、テキスト302は同一箇所の変化後のテキストを示している。テキスト303と304の関係およびテキスト305と306の関係もテキスト301と302の関係と同様である。すなわち、テキスト301,303,305が変化前のテキストを示しており、テキスト302,304,306が変化後のテキストを示している。
ステップS105に続いて、変化量算出部11dは、差分情報記憶部13から差分情報を読み出し、差分情報に基づいてウェブページ情報の変化量を算出して変化量記憶部14に格納する(ステップS106)。データサイズの変化量は、差分情報が示す変化前のテキストの部分と変化後のテキストの部分とを別々のファイルに保存したときのファイルサイズの差として求める。リンク数は、差分情報が示す変化前または変化後のテキストの部分から求める。英単語数もしくは漢字数の変化量は、差分情報が示す変化前のテキストの部分と変化後のテキストの部分を比較して求める。
タグの変化量は以下のようにして検出する。差分情報が示す変化前のテキストの部分と変化後のテキストの部分を比較し、<title>タグで指定されたタイトルの変化の有無を検出する。同様に、<charset>タグで指定された言語エンコードの変化の有無を検出する。同様に、<body bgcolor>タグで指定された背景色の変化の有無を検出する。同様に、<body text>タグで指定された文字色の変化の有無を検出する。
これらの4つのタグで指定された文字に変化が全くない場合には、タグの変化量は0となる。また、各タグで指定された文字の全てが変化した場合には、タグの変化量は4となる。
ステップS106に続いて、指標値算出部11eは、上記のようにして求めた変化量を評価する指標値を算出し、指標値記憶部15に格納する(ステップS107)。本実施形態では、指標値としてユークリッド距離を使用する。ユークリッド距離とは、ユークリッド空間における2点間の最短距離である。n次元空間の直交座標系における2点P,Qの座標がそれぞれ(Xp1,Xp2,・・・,Xpn)、(Xq1,Xq2,・・・,Xqn)であるとき、2点P,Q間のユークリッド距離dは次の(1)式で定義される。
Figure 0004881718
点Pの座標には、ステップS106で算出された変化量が使用される。例えば、Xp1はデータサイズの変化量であり、Xp2はリンク数の変化量であり、Xp3は英単語数もしくは漢字数の変化量であり、Xp4はタグの変化量である。また、点Qの座標には原点(ウェブページ情報に変化がない点)の座標が使用される。すなわち、Xq1=Xq2=・・・=Xqn=0である。
(1)式に従ってユークリッド距離を算出することによって、複数種類の情報の変化量を総合的に評価するための指標値を求めることができる。なお、特定の情報について、普段から変化量が大きいと、その変化量がユークリッド距離に与える影響が大きくなり、他の情報の変化量の影響がユークリッド距離に反映されにくくなる。したがって、情報毎に普段の変化量を基準にして、変化量に対して補正を行うようにし、各情報がユークリッド距離に与える影響が公平となるようにしてもよい。
ステップS107に続いて、指標値算出部11eは、指標値の算出処理を終了するか否かを判定する(ステップS108)。判定基準は、例えば所定数の指標値を算出したか否か、または図2に示した処理を開始してから所定時間が経過したか否か等である。指標値の算出処理を続ける場合には、処理がステップS100に戻る。また、指標値の算出処理を終了する場合には、処理がステップS109に進む。
ステップS107の処理が繰り返し実行されると、指標値記憶部15には、過去の複数の時点で算出された複数の指標値が保存されていることになる。指標値の算出処理を終了する場合、指標値算出部11eは指標値記憶部15からこれら複数の指標値を読み出し、それらの平均値を算出する。算出された平均値は指標値記憶部15に格納される(ステップS109)。以上でウェブページ情報の変化量および指標値の算出処理が終了する。
次に、図4を適宜参照しながら、ウェブページの改竄検知処理の手順を説明する。ステップS200〜S207の処理は図2のステップS100〜S107の処理と同様であるので、これらの処理の説明を省略する。ステップS207に続いて、改竄検知部11fは、過去の複数の時点で算出された指標値の平均値を指標値記憶部15から読み出し、その平均値を、ステップS207で算出された指標値と比較する(ステップS208)。
続いて、改竄検知部11fは、ステップS208での比較結果に基づいて、ウェブページが改竄されたか否かを判定する。指標値と平均値の差分の大きさが所定の閾値を超えている場合には、改竄検知部11fは、ウェブページが改竄されたと判定する。また、指標値と平均値の差分の大きさが所定の閾値以下である場合には、改竄検知部11fは、ウェブページが改竄されていないと判定する(ステップS209)。
ウェブページが改竄されたと判定された場合には、処理はステップS210に進む。また、ウェブページが改竄されていないと判定された場合には、処理はステップS211に進む。ウェブページが改竄されたと判定された場合、アラーム処理部11gはアラーム情報を生成し、通信部10へ出力する。通信部10は、ネットワーク3を介してアラーム情報をウェブサーバ2へ送信する(ステップS210)。
続いて、改竄検知部11fは、改竄検知処理を終了するか否かを判定する(ステップS211)。改竄検出処理を続けると判定された場合には、処理がステップS200に戻る。また、改竄検知処理を終了すると判定された場合には、一連の処理が終了する。
上記の処理では、算出した指標値および過去の指標値の平均値から求めた差分の大きさと閾値の大小関係により改竄の有無を判定しているが、算出した指標値と閾値の大小関係により改竄の有無を判定してもよい。この場合、過去の指標値の統計分布(確率分布)から閾値を決定することが望ましい。以下、算出した指標値と閾値の大小関係により改竄の有無を判定する方法を説明する。
図2のステップS109の処理は以下の処理に変わる。指標値算出部11eは、ステップS107の処理を繰り返すことによって算出した複数の指標値を指標値記憶部15から読み出す。指標値算出部11eはそれらの平均値と標準偏差を算出し、平均値と標準偏差から閾値を算出する。算出された閾値は指標値記憶部15に格納される。
図5に示すように、ウェブページの正規の変化による指標値の統計分布500の上側信頼区間Aから外れる指標値が異常値とみなされる。この上側信頼区間Aの上限値が上記の閾値である。例えば、指標値が、上側信頼区間Aから外れる区間Bに存在する確率が1%となるような閾値が算出される。統計分布500の信頼区間は任意に設定してよい。
また、図3のステップS208の処理は以下の処理に変わる。改竄検知部11fは、上記の閾値を指標値記憶部15から読み出し、ステップS207で算出された指標値と閾値を比較する。
また、図3のステップS209の処理は以下の処理に変わる。改竄検知部11fは、ステップS208での比較結果に基づいて、ウェブページが改竄されたか否かを判定する。指標値が閾値を超えている場合には、改竄検知部11fは、ウェブページが改竄されたと判定する。また、指標値が閾値以下である場合には、改竄検知部11fは、ウェブページが改竄されていないと判定する。
上述したように、本実施形態によれば、新たに算出された指標値と、過去に算出された指標値とに基づいてウェブページの改竄の有無を検知することによって、ウェブページの改竄の誤検知を低減することができる。特に、動的ウェブページについては、普段の更新による変化と改竄による変化とを見分けることが可能となるので、動的ウェブページの改竄の誤検知を低減することができる。
また、新たに算出された指標値と、過去に算出された指標値の平均値との差分が閾値を超えた場合にウェブページが改竄されたと判定することによって、ウェブページの改竄の有無の判定を定量的な基準で行うことが可能となり、ウェブページの改竄の誤検知を低減することができる。
また、新たに算出された指標値が、過去に算出された指標値の統計分布の信頼区間から外れた場合にウェブページが改竄されたと判定することによって、ウェブページの改竄の有無の判定をより客観的な基準で行うことが可能となり、ウェブページの改竄の誤検知を低減することができる。
(第2の実施形態)
次に、本発明の第2の実施形態を説明する。動的ウェブページには、変化の頻度が高い情報と、変化の頻度が低い情報とが存在する。ユーザのアクセス毎に変化する情報は、変化の頻度が高い情報であり、従来技術では改竄が誤検知されやすい。したがって、本実施形態では、ウェブページ情報に含まれる情報のうち、変化の頻度が高い情報を除いた情報を改竄検知の対象とする。本実施形態では、特にタグの情報に注目している。
図6は、本実施形態によるウェブ監視装置の構成を示している。以下、図1に示したウェブ監視装置1にはない構成を説明する。図6において、タグ情報抽出部11hは、差分抽出部11cによって変化前後のウェブページ情報から抽出された差分情報に基づいて、変化したタグの情報を抽出する。タグ情報記憶部16は、抽出されたタグの情報を記憶する。改竄特徴情報記憶部17は、改竄によるウェブページ情報の変化の特徴を示す特徴情報を記憶する。
次に、本実施形態によるウェブ監視装置1の動作を説明する。本実施形態の改竄検知部11fは、変化したタグの情報のうち、変化の頻度が高いタグの情報を除外し、変化の頻度が低いタグの情報を用いてウェブページの改竄の有無を検知する。この改竄検知処理が開始される前に、複数の時点でタグの情報の変化とその変化の頻度が検出される。以下、図7を適宜参照しながら、改竄検知処理に先立って行われる、タグの変化頻度の検出処理の手順を説明する。
図7のステップS300〜S305の処理は図2のステップS100〜S105の処理と同様であるので、これらの処理の説明を省略する。ステップS306において、タグ情報抽出部11hは差分情報記憶部13から差分情報を読み出し、差分情報から、内容が変化したタグの情報を抽出する。タグ情報抽出部11hは、抽出したタグの識別情報(タグ名等)と、そのタグの変化を検出した回数(変化検出回数)とを関連付けてタグ情報記憶部16に格納する。
より具体的には、タグ情報記憶部16には、タグの識別情報と変化検出回数を関連付けて記憶する領域が予め用意されており、図3の処理の開始前には変化検出回数は0となっている。タグの内容(タグで指定されたテキスト)に変化があった場合、そのタグの識別情報と関連付けられている変化検出回数の値に1が加算され、値が更新される。
ステップS306に続いて、タグ情報抽出部11hは、タグの変化頻度の検出処理を終了するか否かを判定する(ステップS307)。判定基準は、例えば図7に示した処理を開始してから所定時間が経過したか否か等である。タグの変化頻度の検出処理を続けると判定された場合には、処理がステップS300に戻る。また、タグの変化頻度の検出処理を終了すると判定された場合には、一連の処理が終了する。
上記の処理によってタグ情報記憶部16に保存された変化検出回数は、タグの変化頻度に応じた値となっている。この変化検出回数に基づいて、変化頻度が高いタグと、変化頻度が低いタグとを区別することが可能となる。
以下、図8を適宜参照しながら、ウェブページの改竄検知処理の手順を説明する。ステップS400〜S405の処理は図4のステップS200〜S205の処理と同様であるので、これらの処理の説明を省略する。
ステップS405に続いて、タグ情報抽出部11hは差分情報記憶部13から差分情報を読み出し、差分情報から、内容が変化したタグの情報を抽出する。タグ情報抽出部11hは、タグ情報記憶部16に格納されている情報を参照し、抽出したタグの識別情報と関連付けられている変化検出回数の値に基づいて、抽出したタグの情報を改竄検知の対象に設定するか否かを判定する。変化検出回数の値が所定値未満であった場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の対象に設定する。変化検出回数の値が所定値以上であった場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の非対象に設定する(ステップS406)。
続いて、改竄検知部11fは、改竄検知対象のタグの改竄による変化の特徴を示す特徴情報を改竄特徴情報記憶部17から読み出し、改竄検知対象のタグの情報と比較する(ステップS407)。
改竄検知部11fは、この比較結果に基づいて、ウェブページが改竄されたか否かを判定する。タグの情報と特徴情報が一致した場合には、改竄検知部11fは、ウェブページが改竄されたと判定する。また、タグの情報と特徴情報が一致しなかった場合には、改竄検知部11fは、ウェブページが改竄されていないと判定する(ステップS408)。例えば、<title>タグに関する特徴情報として、「Hack」や「Fuck」という文字列が登録されており、ステップS406で抽出されたテキストに含まれる、<title>タグで指定された文字列に上記の文字列が含まれている場合には、ウェブページが改竄されたと判定される。
ステップS409,S410の処理は図4のステップS210,S211の処理と同様であるので、それらの説明を省略する。
図7および図8に示した処理を以下のように変更してもよい。図7のステップS307の処理は以下の処理に変わる。タグの変化頻度の検出処理を終了すると判定した場合、タグ情報抽出部11hは、タグ情報記憶部16に保存されている情報のうち、変化検出回数の値が所定値以上であった情報を削除する。この結果、タグ情報記憶部16には、変化頻度が低いタグのみの情報が保存されていることになる。
図8のステップS406の処理は以下の処理に変わる。タグ情報抽出部11hは、タグ情報記憶部16に格納されている識別情報が示すタグと、抽出したタグとが一致するか否か(両者が同一のタグであるか否か)を判定することによって、抽出したタグの情報を改竄検知の対象に設定するか否かを判定する。両者が一致した場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の対象に設定する。また、両者が一致しなかった場合には、タグ情報抽出部11hは、抽出したタグの情報を改竄検知の非対象に設定する。
上述したように、本実施形態によれば、変化の検出されたタグの情報のうち、変化の頻度が高いタグを除いたタグの情報を改竄検知の対象とすることが可能となる。これによって、ウェブページ(特に動的ウェブページ)の改竄の誤検知を低減することができる。
以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述したウェブ監視装置の動作および機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行させてもよい。
ここで、「コンピュータ」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように、情報を伝送する機能を有する媒体のことをいう。また、上述したプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能を、コンピュータに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明の第1の実施形態によるウェブ監視装置の構成を示すブロック図である。 本発明の第1の実施形態におけるウェブページ情報の変化量および指標値の算出処理の手順を示すフローチャートである。 本発明の第1の実施形態におけるdiffコマンドの実行によって得られるデータの内容を示す参考図である。 本発明の第1の実施形態におけるウェブページの改竄検知処理の手順を示すフローチャートである。 本発明の第1の実施形態における指標値の統計分布から閾値を求める方法を説明するための参考図である。 本発明の第2の実施形態によるウェブ監視装置の構成を示すブロック図である。 本発明の第2の実施形態におけるタグの変化頻度の検出処理の手順を示すフローチャートである。 本発明の第2の実施形態におけるウェブページの改竄検知処理の手順を示すフローチャートである。
符号の説明
1・・・ウェブ監視装置、2・・・ウェブサーバ、3・・・ネットワーク、10・・・通信部、11・・・監視処理部、11a・・・ウェブページ情報取得部、11b・・・ページ変化検出部、11c・・・差分抽出部、11d・・・変化量算出部、11e・・・指標値算出部(指標値算出手段)、11f・・・改竄検知部(改竄検知手段、判定手段)、11g・・・アラーム処理部、11h・・・タグ情報抽出部(検出手段)、12・・・ウェブページ情報記憶部(ウェブページ情報記憶手段)、13・・・差分情報記憶部、14・・・変化量記憶部、15・・・指標値記憶部(指標値記憶手段)、16・・・タグ情報記憶部(識別情報記憶手段)、17・・・改竄特徴情報記憶部(特徴情報記憶手段)

Claims (4)

  1. ウェブページ情報を記憶するウェブページ情報記憶手段と、
    前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、
    過去の複数の時点間で変化が検出された情報を識別する識別情報と、当該情報の変化の頻度を示す頻度情報とを関連付けて記憶する識別情報記憶手段と、
    改竄された前記ウェブページ情報の特徴を示す文字列である特徴情報を記憶する特徴情報記憶手段と、
    前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報に対応した前記頻度情報が示す頻度が所定の頻度よりも低ければ当該変化の検出された情報を改竄検知の対象とすると判定し、当該変化の検出された情報に対応した前記頻度情報が示す頻度が所定の頻度よりも高ければ当該変化の検出された情報を改竄検知の対象としないと判定する判定手段と、
    当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段と、
    を備えたことを特徴とするウェブページの改竄検知装置。
  2. ウェブページ情報を記憶するウェブページ情報記憶手段と、
    前記ウェブページ情報に含まれる情報のうち、異なる時点間で変化した情報を検出する検出手段と、
    過去の複数の時点間で変化が検出された情報のうち、変化の頻度が所定の頻度よりも低い情報を識別する識別情報を記憶する識別情報記憶手段と、
    改竄された前記ウェブページ情報の特徴を示す文字列である特徴情報を記憶する特徴情報記憶手段と、
    前記ウェブページ情報に含まれる情報の変化が検出された場合に、当該変化の検出された情報が、前記識別情報が示す情報と一致すれば当該変化の検出された情報を改竄検知の対象とすると判定し、当該変化の検出された情報、前記識別情報が示す情報と一致しなければ当該変化の検出された情報を改竄検知の対象としないと判定する判定手段と、
    当該変化の検出された情報を改竄検知の対象とすると判定された場合に、当該変化の検出された情報と前記特徴情報とに基づいてウェブページの改竄の有無を検知する改竄検知手段と、
    を備えたことを特徴とするウェブページの改竄検知装置。
  3. 請求項1または請求項2に記載のウェブページの改竄検知装置としてコンピュータを機能させるためのプログラム。
  4. 請求項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006350992A 2006-12-27 2006-12-27 ウェブページの改竄検知装置、プログラム、および記録媒体 Expired - Fee Related JP4881718B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006350992A JP4881718B2 (ja) 2006-12-27 2006-12-27 ウェブページの改竄検知装置、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006350992A JP4881718B2 (ja) 2006-12-27 2006-12-27 ウェブページの改竄検知装置、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2008165292A JP2008165292A (ja) 2008-07-17
JP4881718B2 true JP4881718B2 (ja) 2012-02-22

Family

ID=39694763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006350992A Expired - Fee Related JP4881718B2 (ja) 2006-12-27 2006-12-27 ウェブページの改竄検知装置、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP4881718B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457500B (zh) 2010-10-22 2015-01-07 北京神州绿盟信息安全科技股份有限公司 一种网站扫描设备和方法
JP5522850B2 (ja) * 2010-11-10 2014-06-18 京セラコミュニケーションシステム株式会社 脆弱性診断装置
CN102541937B (zh) * 2010-12-22 2013-12-25 北大方正集团有限公司 一种网页信息探测方法及系统
JP5106643B2 (ja) * 2011-01-05 2012-12-26 株式会社東芝 Webページ改竄検知装置及びプログラム
JP5421950B2 (ja) * 2011-03-30 2014-02-19 京セラコミュニケーションシステム株式会社 ページ変化判定装置
GB2513168B (en) 2013-04-18 2017-12-27 F Secure Corp Detecting unauthorised changes to website content
JP6078617B2 (ja) * 2015-10-15 2017-02-08 株式会社エヌ・ティ・ティ・データ 配信情報解析装置、配信情報解析方法、配信情報解析プログラム
CN107301355B (zh) * 2017-06-20 2021-07-02 深信服科技股份有限公司 一种网页篡改监测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038272A (ja) * 2002-06-28 2004-02-05 Kddi Corp ウェブ監視装置及び方法、コンピュータプログラム
JP4047770B2 (ja) * 2003-06-19 2008-02-13 Necフィールディング株式会社 ホームページ改ざん攻撃からWebサーバを守る監視/運用システム,方法およびプログラム
JP3860576B2 (ja) * 2004-01-15 2006-12-20 松下電器産業株式会社 コンテンツ改竄検出装置
JP4261389B2 (ja) * 2004-03-03 2009-04-30 東芝ソリューション株式会社 不正アクセス検出装置及び不正アクセス検出プログラム
JP4081774B2 (ja) * 2006-05-01 2008-04-30 日本ビクター株式会社 ディスク状記録媒体の再生装置

Also Published As

Publication number Publication date
JP2008165292A (ja) 2008-07-17

Similar Documents

Publication Publication Date Title
JP4881718B2 (ja) ウェブページの改竄検知装置、プログラム、および記録媒体
CN107204960B (zh) 网页识别方法及装置、服务器
US10789118B2 (en) Information processing device and error detection method
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
WO2017065070A1 (ja) 不審行動検知システム、情報処理装置、方法およびプログラム
CN102446255B (zh) 一种检测页面篡改的方法及装置
JP5144488B2 (ja) 情報処理システムおよびプログラム
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
KR20150038738A (ko) 비밀 정보의 검출
US10505986B1 (en) Sensor based rules for responding to malicious activity
CN107612908B (zh) 网页篡改监测方法及装置
WO2014103115A1 (ja) 不正侵入検知装置、不正侵入検知方法、不正侵入検知プログラム及び記録媒体
WO2017197942A1 (zh) 病毒库的获取方法及装置、设备、服务器、系统
WO2018145637A1 (zh) 上网行为记录方法、装置及用户终端
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN112532624A (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
KR101228900B1 (ko) 비 pe파일의 악성 컨텐츠 포함 여부를 판단하는 방법 및 시스템
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
US20120151581A1 (en) Method and system for information property management
US20210064747A1 (en) Classification of executable files using a digest of a call graph pattern
CN112817877A (zh) 异常脚本检测方法、装置、计算机设备和存储介质
JP6623128B2 (ja) ログ分析システム、ログ分析方法及びログ分析装置
CN111488621A (zh) 一种篡改网页检测方法、系统及电子设备和存储介质
CN109670305A (zh) 一种病毒文件识别方法
JP7140268B2 (ja) 警告装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Ref document number: 4881718

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees