JP2009230663A - Apparatus for detecting abnormal condition in web page, program, and recording medium - Google Patents

Apparatus for detecting abnormal condition in web page, program, and recording medium Download PDF

Info

Publication number
JP2009230663A
JP2009230663A JP2008078069A JP2008078069A JP2009230663A JP 2009230663 A JP2009230663 A JP 2009230663A JP 2008078069 A JP2008078069 A JP 2008078069A JP 2008078069 A JP2008078069 A JP 2008078069A JP 2009230663 A JP2009230663 A JP 2009230663A
Authority
JP
Japan
Prior art keywords
web page
information
comment
trackback
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008078069A
Other languages
Japanese (ja)
Inventor
Keisuke Takemori
敬祐 竹森
Akira Baba
昭 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008078069A priority Critical patent/JP2009230663A/en
Publication of JP2009230663A publication Critical patent/JP2009230663A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an apparatus for detecting an abnormal condition in a web page, a program, and a recording medium for reducing burdens on monitoring the web page. <P>SOLUTION: A link information extraction part 11d extracts link information indicating a link to other web pages from web page information stored in a web page information storage part 12. A web page information acquisition part 11a accesses a web server indicated by the link information to acquire the web page information. A track back spam determination part 11f calculates feature quantity of the web page on the basis of the web page information acquired by the web page information acquisition part 11a, and detects whether the web page is in an abnormal condition or not on the basis of the feature quantity. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、ウェブページの異常を検知するウェブページの異常検知装置に関する。また、本発明は、ウェブページの異常検知装置としてコンピュータを機能させるためのプログラム、およびこのプログラムを記録した記録媒体にも関する。   The present invention relates to a web page abnormality detection device that detects a web page abnormality. The present invention also relates to a program for causing a computer to function as a web page abnormality detection device, and a recording medium on which the program is recorded.

ウェブ(Web)上で公開される日記(以降、ブログと呼ぶ)に対して、そのブログに関連するブログのURL(Uniform Resource Locator)を読者が追記する機能(以降、トラックバックと呼ぶ)や、コメントを追記する機能がある。昨今では、ブログに対して、記事とは関係のない迷惑なURLを追記するトラックバックスパムや、迷惑なコメントを追記するコメントスパムによる攻撃が問題となっている。   A function that allows readers to add a URL (Uniform Resource Locator) of a blog related to the blog to a diary published on the Web (hereinafter referred to as a blog) (hereinafter referred to as a trackback) or comment There is a function to add. In recent years, attacks by trackback spam that adds annoying URLs unrelated to articles and comment spam that adds annoying comments to blogs have become problems.

トラックバックスパムやコメントスパムを防御する手法として、一般的に以下の5通りの方法が用いられている。
(1)海外からの攻撃を想定し、半角英数字のみのトラックバックやコメントを拒否する(非特許文献1参照)。
(2)トラックバック元のブログ(トラックバックが追記されたブログと片方向にリンクされているブログ)に、トラックバック先のブログ(トラックバックが追記されたブログ)へのリンクが無い場合にトラックバックを拒否する(非特許文献1参照)。
(3)コメントの投稿を自動的に行うツールによる攻撃を想定し、コメントの投稿時に絵文字認証を行う(非特許文献1参照)。
(4)禁止IPアドレスや禁止URLからのトラックバックやコメントを拒否する(非特許文献1、特許文献1,2参照)。
(5)禁止キーワードを含むトラックバックやコメントを拒否する(非特許文献1、特許文献1,2参照)。
“au one net インターネットガイド”,[online],[平成20年3月12日検索],インターネット<URL: http://www.auone-net.jp/netguide/feature/020/0200208.html> 特開2007−265368号公報 特開2007−115173号公報
The following five methods are generally used as a method for protecting track back spam and comment spam.
(1) Reject trackbacks and comments consisting of only single-byte alphanumeric characters, assuming an attack from overseas (see Non-Patent Document 1).
(2) Reject the trackback if the trackback source blog (blog linked to the trackback and the blog linked in one direction) does not have a link to the trackback destination blog (trackback added blog) ( Non-patent document 1).
(3) Assuming an attack by a tool that automatically posts a comment, pictogram authentication is performed when a comment is posted (see Non-Patent Document 1).
(4) Reject trackbacks and comments from prohibited IP addresses and prohibited URLs (see Non-Patent Document 1, Patent Documents 1 and 2).
(5) Reject trackbacks and comments that contain prohibited keywords (see Non-Patent Document 1, Patent Documents 1 and 2).
“Au one net Internet Guide”, [online], [Search March 12, 2008], Internet <URL: http://www.auone-net.jp/netguide/feature/020/0200208.html> JP 2007-265368 A JP 2007-115173 A

しかし、一般的にブログの管理は個人ユーザに任されており、上記の設定を行わないユーザのページには、トラックバックスパムやコメントスパムが跡を絶たない。特に、上記(3)の絵文字認証を設定しているユーザは稀である。また、様々なPCを踏み台にして攻撃を仕掛ける場合、その攻撃が上記(4)の禁止IPや禁止URLに該当しない問題がある。また、上記(5)の禁止キーワードに該当しない用語によるトラックバックスパムやコメントスパムを防御できない問題もある。さらに、本発明者による調査では、トラックバック先のブログへのリンクをスパムページ中に記載する攻撃者もあり、上記(6)をすり抜けるトラックバックスパムもある。   However, in general, management of a blog is left to an individual user, and trackback spam and comment spam are not traced on a page of a user who does not perform the above setting. In particular, there are few users who set the pictogram authentication of (3) above. Further, when an attack is performed using various PCs as a stepping stone, there is a problem that the attack does not correspond to the prohibited IP or the prohibited URL described in (4) above. There is also a problem that trackback spam and comment spam due to terms that do not correspond to the prohibited keyword (5) cannot be prevented. Further, in the investigation by the present inventor, there is an attacker who describes a link to a blog of a trackback destination in a spam page, and there is also a trackback spam that bypasses the above (6).

こうしたスパムを完全に防御できないことを前提に、攻撃を受けたことをいち早く検知する必要がある。ブログサービスを提供する企業では、人の目でトラックバックスパムやコメントスパムが発生していないか検知する作業を余儀なくされており、その監視運用に莫大なコストを要しているという問題がある。   It is necessary to detect the attack as soon as possible, assuming that such spam cannot be completely prevented. Companies that provide blog services are forced to detect whether trackback spam or comment spam is generated by human eyes, and there is a problem that the monitoring operation requires enormous costs.

本発明は、上述した課題に鑑みてなされたものであって、ウェブページの監視に掛かる負担を軽減することができるウェブページの異常検知装置、プログラム、および記録媒体を提供することを目的とする。   The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a web page abnormality detection device, a program, and a recording medium that can reduce the burden on web page monitoring. .

本発明は、上記の課題を解決するためになされたもので、ウェブページ情報を記憶する情報記憶手段(図1のウェブページ情報記憶部12に対応)と、前記情報記憶手段が記憶する前記ウェブページ情報から、他のウェブページへのリンクを示すリンク情報を抽出するリンク情報抽出手段(図1のリンク情報抽出部11dに対応)と、前記リンク情報が示すウェブサーバに接続し、ウェブページ情報を取得する情報取得手段(図1の通信部10、ウェブページ情報取得部11aに対応)と、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴量を算出する特徴量算出手段(図1のトラックバックスパム判定部11fに対応)と、前記特徴量算出手段が算出した前記特徴量に基づいてウェブページの異常の有無を検知する異常検知手段(図1のトラックバックスパム判定部11fに対応)とを備えたことを特徴とするウェブページの異常検知装置である。   The present invention has been made to solve the above-described problems, and includes information storage means for storing web page information (corresponding to the web page information storage unit 12 in FIG. 1), and the web stored by the information storage means. Link information extracting means (corresponding to the link information extracting unit 11d in FIG. 1) for extracting link information indicating a link to another web page from the page information, and a web server indicated by the link information are connected to the web page information. Based on the information acquisition unit (corresponding to the communication unit 10 and the web page information acquisition unit 11a in FIG. 1) and the web page information acquired by the information acquisition unit. Calculation means (corresponding to the trackback spam determination unit 11f in FIG. 1) and presence / absence of abnormality of the web page based on the feature amount calculated by the feature amount calculation means Detecting an abnormal detection means is abnormal detection apparatus of a web page, characterized in that a (corresponding to the trackback spam determination unit 11f of Fig. 1).

また、本発明のウェブページの異常検知装置において、前記特徴量算出手段は、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴を示す複数の条件を基準としてウェブページの特徴量を算出することを特徴とする。   Further, in the web page abnormality detection device of the present invention, the feature amount calculation means is based on the web page information acquired by the information acquisition means on the basis of a plurality of conditions indicating the characteristics of the web page. The feature amount is calculated.

また、本発明のウェブページの異常検知装置において、前記特徴量算出手段は、ウェブページの特徴を示す複数の条件に対して重み付けを行って前記特徴量を算出することを特徴とする。   In the web page abnormality detection apparatus according to the present invention, the feature amount calculating means calculates the feature amount by weighting a plurality of conditions indicating features of the web page.

また、本発明は、ウェブページ情報を記憶する第1の情報記憶手段(図1のウェブページ情報記憶部12に対応)と、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、過去に追加された追加情報を抽出する情報抽出手段(図1のリンク情報抽出部11d、コメント抽出部11eに対応)と、前記追加情報と、前記ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する第2の情報記憶手段(図1のリンク情報記憶部13、コメント記憶部14に対応)と、前記第2の記憶手段が記憶する前記追加情報と前記時刻情報とに基づいて、時刻毎の前記追加情報の出現頻度を示すヒストグラムを生成するヒストグラム生成手段(図1のトラックバックスパム判定部11f、コメントスパム判定部11gに対応)と、前記ヒストグラムに基づいてウェブページの異常の有無を検知する異常検知手段(図1のトラックバックスパム判定部11f、コメントスパム判定部11gに対応)とを備えたことを特徴とするウェブページの異常検知装置である。   Further, the present invention provides a first information storage unit (corresponding to the web page information storage unit 12 in FIG. 1) for storing web page information and a past information from the web page information stored in the first information storage unit. The information extraction means (corresponding to the link information extraction unit 11d and the comment extraction unit 11e in FIG. 1) for extracting the additional information added to the URL is associated with the time information indicating the update time of the web page information. Based on the second information storage means (corresponding to the link information storage section 13 and the comment storage section 14 in FIG. 1) and the additional information and the time information stored in the second storage means. Histogram generating means (corresponding to the trackback spam determining unit 11f and the comment spam determining unit 11g in FIG. 1) for generating a histogram indicating the appearance frequency of the additional information for each, An abnormality detection device for a web page, comprising an abnormality detection means (corresponding to the trackback spam determination unit 11f and the comment spam determination unit 11g in FIG. 1) that detects whether there is an abnormality in the web page based on the program. is there.

また、本発明のウェブページの異常検知装置において、前記情報抽出手段(図1のリンク情報抽出部11dに対応)は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、他のウェブページへのリンクを示すリンク情報を抽出することを特徴とする。   In the web page abnormality detection device of the present invention, the information extraction unit (corresponding to the link information extraction unit 11d in FIG. 1) is configured to use the additional information from the web page information stored in the first information storage unit. As described above, link information indicating a link to another web page is extracted.

また、本発明のウェブページの異常検知装置において、前記情報抽出手段(図1のコメント抽出部11eに対応)は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、ウェブページに追記されたコメントを抽出することを特徴とする。   In the web page abnormality detection device of the present invention, the information extraction unit (corresponding to the comment extraction unit 11e in FIG. 1) is used as the additional information from the web page information stored in the first information storage unit. A comment added to a web page is extracted.

また、本発明は、ウェブページ情報を記憶する情報記憶手段(図1のウェブページ情報記憶部12に対応)と、前記情報記憶手段が記憶する前記ウェブページ情報から、ウェブページに追記されたコメントを抽出するコメント抽出手段(図1のコメント抽出部11eに対応)と、前記コメント抽出手段が抽出したコメントに含まれる単語と、ウェブページに表示されるコメント以外の部分に含まれる単語とを比較する比較手段(図1のコメントスパム判定部11gに対応)と、前記比較手段による比較の結果に基づいてウェブページの異常の有無を検知する異常検知手段(図1のコメントスパム判定部11gに対応)とを備えたことを特徴とするウェブページの異常検知装置である。   Further, the present invention provides an information storage means for storing web page information (corresponding to the web page information storage section 12 in FIG. 1) and a comment added to the web page from the web page information stored in the information storage means. A comment extraction means (corresponding to the comment extraction unit 11e in FIG. 1), a word included in the comment extracted by the comment extraction means, and a word included in a portion other than the comment displayed on the web page Comparing means (corresponding to the comment spam judging unit 11g in FIG. 1) and an abnormality detecting means (corresponding to the comment spam judging unit 11g in FIG. 1) for detecting the presence / absence of an abnormality of the web page based on the comparison result by the comparing means And a web page abnormality detection device.

また、本発明は、上記のウェブページの異常検知装置としてコンピュータを機能させるためのプログラムである。   The present invention is also a program for causing a computer to function as the above-described web page abnormality detection device.

また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。   The present invention is a computer-readable recording medium on which the above program is recorded.

上記において、括弧で括った部分の記述は、後述する本発明の実施形態と本発明の構成要素とを便宜的に対応付けるためのものであり、この記述によって本発明の内容が限定されるわけではない。   In the above description, the description in parentheses is for the purpose of associating the embodiment of the present invention described later with the components of the present invention for convenience, and the contents of the present invention are not limited by this description. Absent.

本発明によれば、ウェブページの特徴量に基づいて、あるいは時刻毎の追加情報の出現頻度を示すヒストグラムに基づいて、あるいはウェブページに追記されたコメントに含まれる単語と、当該コメント以外の部分に含まれる単語とが一致するか否かを判定した結果に基づいて、ウェブページの異常の有無を検知することによって、人の目によるウェブページの監視が必要なくなるので、ウェブページの監視に掛かる負担を軽減することができるという効果が得られる。   According to the present invention, a word included in a comment added to a web page based on a feature amount of the web page, a histogram indicating the appearance frequency of additional information for each time, or a portion other than the comment Since it is not necessary to monitor the web page by human eyes by detecting the presence or absence of the web page based on the result of determining whether or not the word included in the word matches, it is necessary to monitor the web page The effect that a burden can be reduced is acquired.

以下、図面を参照し、本発明の実施形態を説明する。図1は、本発明の一実施形態によるウェブ監視装置(本発明のウェブページの異常検知装置に対応)の構成を示している。図1において、ウェブ監視装置1は、ブログのウェブページを管理しているウェブサーバ2と、ネットワーク3を介して接続されている。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows the configuration of a web monitoring device (corresponding to the web page abnormality detection device of the present invention) according to an embodiment of the present invention. In FIG. 1, a web monitoring device 1 is connected to a web server 2 that manages a web page of a blog via a network 3.

ウェブ監視装置1において、通信部10は、ネットワーク3を介してウェブサーバ2と通信を行う。監視処理部11は、ウェブサーバ2から定期的にウェブページ情報を取得し、ウェブページの異常を検知する監視処理を実行する。ウェブページ情報は、ウェブページを表示するのに必要な各種ファイルに含まれる情報であり、本実施形態では、「.html」、「.htm」、「.txt」等の拡張子を有するテキストベースのファイルに含まれる情報であるものとする。具体的には、ウェブページ情報は、ウェブページ記述言語(HTML等)のタグや、タグに含まれる各種情報(テキストやURL等)である。   In the web monitoring device 1, the communication unit 10 communicates with the web server 2 via the network 3. The monitoring processing unit 11 periodically acquires web page information from the web server 2 and executes a monitoring process for detecting a web page abnormality. The web page information is information included in various files necessary to display the web page. In the present embodiment, the text base having extensions such as “.html”, “.htm”, and “.txt” is used. It is assumed that the information is included in the file. Specifically, the web page information is a tag of a web page description language (HTML or the like) or various information (text, URL or the like) included in the tag.

ウェブページ情報記憶部12は、ウェブサーバ2から取得されたウェブページ情報を記憶する。また、ウェブページ情報記憶部12は、異なる2つの時点で取得された2つのウェブページ情報の差分を示す差分情報も記憶する。リンク情報記憶部13は、トラックバック元のウェブページへのリンクを示すリンク情報とトラックバック先のウェブページの更新日時を示す時刻情報とを関連付けて記憶する。コメント記憶部14は、ウェブページに追記されたコメントとウェブページの更新日時を示す時刻情報とを関連付けて記憶する。係数記憶部15は、後述する重み付け処理に用いる係数を記憶する。   The web page information storage unit 12 stores web page information acquired from the web server 2. The web page information storage unit 12 also stores difference information indicating a difference between two web page information acquired at two different times. The link information storage unit 13 stores link information indicating a link to the trackback source web page and time information indicating the update date and time of the trackback destination web page in association with each other. The comment storage unit 14 stores a comment added to the web page and time information indicating the update date and time of the web page in association with each other. The coefficient storage unit 15 stores coefficients used for weighting processing described later.

監視処理部11において、ウェブページ情報取得部11aは、例えばgetコマンドによる処理を実行し、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報をウェブサーバ2から取得する。ページ変化検出部11bは、ウェブページ情報取得部11aによって取得されたウェブページ情報の変化の有無を検出する。ウェブページ情報のハッシュ値の変化を検出することによって、ウェブページ情報の変化が検出される。   In the monitoring processing unit 11, the web page information acquisition unit 11 a executes, for example, processing by a get command, accesses the web server 2 through communication processing by the communication unit 10, and acquires web page information from the web server 2. The page change detection unit 11b detects whether there is a change in the web page information acquired by the web page information acquisition unit 11a. A change in web page information is detected by detecting a change in the hash value of the web page information.

差分抽出部11cは、ページ変化検出部11bによってウェブページ情報の変化が検出された場合に、変化前と変化後のウェブページ情報から、差分の情報を抽出する。抽出された情報は差分情報としてウェブページ情報記憶部12に格納される。リンク情報抽出部11dは、差分情報から、トラックバック元のウェブページへのリンクを示すリンク情報を抽出する。コメント抽出部11eは、差分情報から、ウェブページに表示されるコメントを抽出する。   The difference extraction unit 11c extracts difference information from the web page information before and after the change when the change in the web page information is detected by the page change detection unit 11b. The extracted information is stored in the web page information storage unit 12 as difference information. The link information extraction unit 11d extracts link information indicating a link to the trackback source web page from the difference information. The comment extraction unit 11e extracts comments displayed on the web page from the difference information.

トラックバックスパム判定部11fは、ウェブページに追記されたトラックバックがトラックバックスパムによるものであるか否かを判定する。コメントスパム判定部11gは、ウェブページに追記されたコメントがコメントスパムによるものであるか否かを判定する。アラーム処理部11hは、トラックバックスパムまたはコメントスパムが検知された場合に、ウェブサーバ2の管理者に対してアラームを発信して注意を促すためのアラーム情報(警告を通知する電子メール等)を生成する。   The trackback spam determination unit 11f determines whether or not the trackback added to the web page is due to trackback spam. The comment spam determination unit 11g determines whether or not the comment added to the web page is due to comment spam. The alarm processing unit 11h generates alarm information (e-mail or the like for notifying a warning) for issuing an alarm to the administrator of the web server 2 to call attention when trackback spam or comment spam is detected. To do.

次に、本実施形態によるウェブ監視装置1の動作を説明する。図2はウェブ監視装置1の動作の流れを示している。処理の開始後、ウェブページ情報取得部11aは、監視対象のブログからウェブページ情報を取得するため、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報を含むファイルを取得する。ウェブページ情報取得部11aは、取得したウェブページ情報をウェブページ情報記憶部12に格納する(ステップS100)。   Next, the operation of the web monitoring device 1 according to the present embodiment will be described. FIG. 2 shows an operation flow of the web monitoring apparatus 1. After starting the process, the web page information acquisition unit 11a accesses the web server 2 through the communication process by the communication unit 10 and acquires a file including the web page information in order to acquire the web page information from the monitored blog. To do. The web page information acquisition unit 11a stores the acquired web page information in the web page information storage unit 12 (step S100).

続いて、ウェブページ情報取得部11aは、ステップS100で取得したウェブパージ情報が、初めて取得したウェブページ情報であるか否かを判定する(ステップS101)。過去に同じウェブページに関するウェブページ情報を取得したことがない場合には、処理が終了する。また、過去に同じウェブページに関するウェブページ情報を取得していた場合には、処理がステップS102に進む。   Subsequently, the web page information acquisition unit 11a determines whether the web purge information acquired in step S100 is the web page information acquired for the first time (step S101). If web page information related to the same web page has never been acquired, the process ends. If web page information related to the same web page has been acquired in the past, the process proceeds to step S102.

過去に同じウェブページに関するウェブページ情報を取得していた場合、ページ変化検出部11bは、新たに取得したウェブページ情報に対応する、過去に取得したウェブページ情報をウェブページ情報記憶部12から読み出し、各々のウェブページ情報のハッシュ値を算出する(ステップS102)。ページ変化検出部11bは、新たに取得したウェブページ情報のハッシュ値と、過去に取得したウェブページ情報のハッシュ値とを比較し(ステップS103)、比較結果に基づいて、ウェブページ情報の変化の有無を検出する(ステップS104)。上記において、算出したハッシュ値をいずれかの記憶部に記憶させておき、次回のハッシュ値同士の比較に用いてもよい。   When web page information related to the same web page has been acquired in the past, the page change detection unit 11b reads web page information acquired in the past corresponding to the newly acquired web page information from the web page information storage unit 12. The hash value of each web page information is calculated (step S102). The page change detection unit 11b compares the hash value of the newly acquired web page information with the hash value of the web page information acquired in the past (step S103), and based on the comparison result, the change of the web page information. The presence or absence is detected (step S104). In the above, the calculated hash value may be stored in any storage unit and used for the next comparison between hash values.

ハッシュ値を比較した結果、2つのハッシュ値が同じ値であった場合には、ウェブページ情報は変化していない。この場合には、処理が終了する。また、2つのハッシュ値が異なる値であった場合には、ウェブページ情報が変化している。この場合には、差分抽出部11cは、前回取得したウェブページ情報と、今回取得したウェブページ情報との差分である差分情報を抽出し、ウェブページ情報記憶部12に格納する(ステップS105)。   As a result of comparing the hash values, if the two hash values are the same, the web page information has not changed. In this case, the process ends. When the two hash values are different, the web page information has changed. In this case, the difference extraction unit 11c extracts difference information that is a difference between the web page information acquired last time and the web page information acquired this time, and stores the difference information in the web page information storage unit 12 (step S105).

差分情報の抽出は、diffコマンドの実行によって行われる。diffコマンドは、2つのファイルのテキストを比較して、異なるテキストの部分を抽出する処理を実行するコマンドである。diffコマンドにより、変化前と変化後の両方のテキストの部分が抽出されるが、本実施形態では、変化後のテキストの部分が差分情報としてウェブページ情報記憶部12に格納される。   The extraction of difference information is performed by executing a diff command. The diff command is a command for executing processing for comparing texts of two files and extracting portions of different texts. The text portion before and after the change is extracted by the diff command. In this embodiment, the text portion after the change is stored in the web page information storage unit 12 as difference information.

ステップS105に続いて、リンク情報抽出部11dはウェブページ情報記憶部12から差分情報を読み出し、差分情報からリンク情報を抽出する。具体的には、リンク情報抽出部11dは、差分情報に含まれるウェブページ記述言語(HTML等)のタグの中からトラックバック用の所定のタグを抽出し、さらにそのタグに含まれるURLを抽出し、そのURLをリンク情報とする(ステップS106)。   Following step S105, the link information extraction unit 11d reads the difference information from the web page information storage unit 12, and extracts the link information from the difference information. Specifically, the link information extraction unit 11d extracts a predetermined tag for trackback from tags of a web page description language (HTML or the like) included in the difference information, and further extracts a URL included in the tag. The URL is used as link information (step S106).

続いて、リンク情報抽出部11dは、ウェブページ情報に新しいリンク情報が追加されたか否かを判定する(ステップS107)。ステップS106において、差分情報からリンク情報を抽出できた場合には、ウェブページ情報に新しいリンク情報が追加されたことになる。この場合には、処理がステップS108に進む。また、ステップS106において、差分情報からリンク情報を抽出できなかった場合には、ウェブページ情報に新しいリンク情報が追加されていないことになる。この場合には、処理がステップS109に進む。   Subsequently, the link information extraction unit 11d determines whether new link information has been added to the web page information (step S107). In step S106, if link information can be extracted from the difference information, new link information is added to the web page information. In this case, the process proceeds to step S108. In step S106, if link information cannot be extracted from the difference information, new link information is not added to the web page information. In this case, the process proceeds to step S109.

ウェブページ情報に新しいリンク情報が追加されたと判定された場合、トラックバックスパム判定部11fは、ウェブページに追記されたトラックバックがトラックバックスパムによるものであるか否かを判定する(ステップS108)。ステップS108の詳細は後述する。続いて、コメント抽出部11eはウェブページ情報記憶部12から差分情報を読み出し、差分情報からコメントを抽出する。具体的には、コメント抽出部11eは、差分情報に含まれるタグの中からコメント用の所定のタグを抽出し、さらにそのタグに含まれるテキストを抽出し、そのテキストをコメントとする(ステップS109)。   When it is determined that new link information has been added to the web page information, the trackback spam determination unit 11f determines whether or not the trackback added to the webpage is due to trackback spam (step S108). Details of step S108 will be described later. Subsequently, the comment extraction unit 11e reads the difference information from the web page information storage unit 12, and extracts a comment from the difference information. Specifically, the comment extraction unit 11e extracts a predetermined tag for comment from the tags included in the difference information, further extracts text included in the tag, and sets the text as a comment (step S109). ).

続いて、コメント抽出部11eは、ウェブページ情報に新しいコメントが追加されたか否かを判定する(ステップS110)。ステップS109において、差分情報からコメントを抽出できた場合には、ウェブページ情報に新しいコメントが追加されたことになる。この場合には、処理がステップS111に進む。また、ステップS109において、差分情報からコメントを抽出できなかった場合には、ウェブページ情報に新しいコメントが追加されていないことになる。この場合には、処理が終了する。   Subsequently, the comment extraction unit 11e determines whether a new comment has been added to the web page information (step S110). In step S109, if a comment can be extracted from the difference information, a new comment is added to the web page information. In this case, the process proceeds to step S111. In step S109, when a comment cannot be extracted from the difference information, a new comment is not added to the web page information. In this case, the process ends.

ウェブページ情報に新しいコメントが追加されたと判定された場合、コメントスパム判定部11gは、ウェブページに追記されたコメントがコメントスパムによるものであるか否かを判定する(ステップS111)。ステップS111の詳細は後述する。続いて、アラーム処理部11hはアラーム情報を生成し、通信部10へ出力する。通信部10は、ネットワーク3を介してアラーム情報をウェブサーバ2へ送信する(ステップS112)。   If it is determined that a new comment has been added to the web page information, the comment spam determination unit 11g determines whether or not the comment added to the web page is due to comment spam (step S111). Details of step S111 will be described later. Subsequently, the alarm processing unit 11 h generates alarm information and outputs it to the communication unit 10. The communication unit 10 transmits alarm information to the web server 2 via the network 3 (step S112).

上記の処理を定期的に繰り返すことにより、ブログのウェブページが監視される。この際に、ウェブページ情報から同じブログ上の他のウェブページへのリンクを抽出し、リンク先のウェブページ情報を取得することを繰り返し行うことによって、多数のページで構成されるブログのウェブページをくまなく検査することができるようになり、異常の検知漏れを防止することができる。また、上記の処理を自動的に繰り返すことにより、24時間365日監視を行えるようになる。   The blog web page is monitored by periodically repeating the above process. At this time, a web page of a blog composed of a large number of pages is obtained by repeatedly extracting links to other web pages on the same blog from the web page information and acquiring the linked web page information. It is possible to inspect all of the above, and it is possible to prevent omission of detection of abnormalities. Further, by automatically repeating the above processing, it becomes possible to monitor for 24 hours 365 days.

次に、ステップS108におけるトラックバックスパム判定の詳細を説明する。まず、第1の動作例を説明する。ボット(Bot)と呼ばれるコンピュータウィルスに感染したサーバを踏み台にして行う攻撃では、ボットを短時間しか利用できないことを前提に、ウェブサーバで管理されている複数のブログのウェブページに対して、同時期に同じ内容を書き込むことが多い。第1の動作例では、この性質を利用し、同時期に同一のトラックバックが複数のウェブページに追加された場合に、そのトラックバックがトラックバックスパムによるものであると判定される。   Next, details of the trackback spam determination in step S108 will be described. First, a first operation example will be described. In an attack that uses a server infected with a computer virus called a bot as a stepping stone, the bot can be used only for a short period of time on the web pages of multiple blogs managed by the web server. Often the same content is written at the same time. In the first operation example, using this property, when the same trackback is added to a plurality of web pages at the same time, it is determined that the trackback is caused by trackback spam.

トラックバックスパム判定部11fは、ステップS100で取得されたウェブページ情報から時刻情報を抽出し、ステップS106で抽出されたリンク情報と関連付けてリンク情報記憶部13に格納する。本実施形態では、ウェブページが更新された時刻(最終更新時刻)を、トラックバックがウェブページに追加された時刻とみなす。   The trackback spam determination unit 11f extracts time information from the web page information acquired in step S100, and stores it in the link information storage unit 13 in association with the link information extracted in step S106. In the present embodiment, the time when the web page is updated (last update time) is regarded as the time when the trackback is added to the web page.

図3(a)は、リンク情報記憶部13に格納されるリンク情報および時刻情報の内容を示している。図3(a)に示すように、リンク情報が示すURL毎に時刻情報が関連付けられている。複数のブログを対象として、図2に示した処理をブログ毎に実行することにより、複数のブログから同じトラックバック元のURLが検出されることがある。このため、図2に示した処理を繰り返し実行すると、複数の時刻情報と関連付けられるURLが出現することになる。   FIG. 3A shows the contents of link information and time information stored in the link information storage unit 13. As shown in FIG. 3A, time information is associated with each URL indicated by the link information. By executing the process shown in FIG. 2 for each blog for a plurality of blogs, the same trackback source URL may be detected from the plurality of blogs. For this reason, when the process shown in FIG. 2 is repeatedly executed, URLs associated with a plurality of pieces of time information appear.

続いて、トラックバックスパム判定部11fは、リンク情報記憶部13からリンク情報および時刻情報を読み出し、時刻毎の同一リンクの出現頻度を示すヒストグラムを生成する。図3(b)はヒストグラムの一例を示している。このヒストグラムから、同じURLをトラックバック元のURLとするトラックバックが、いつ、どれだけ検出されたのかが分かる。   Subsequently, the trackback spam determination unit 11f reads the link information and time information from the link information storage unit 13, and generates a histogram indicating the appearance frequency of the same link for each time. FIG. 3B shows an example of a histogram. This histogram shows when and how many trackbacks with the same URL as the trackback source URL are detected.

前述したように、トラックバックスパムによってトラックバックがブログに追記される場合、同時期に同一のトラックバックが複数のブログに追記されるため、ヒストグラムの頻度が高くなる。トラックバックスパム判定部11fは、所定の区間300を設定し、区間300内のヒストグラムの頻度を合計した値と所定の閾値とを比較する。頻度の合計値が閾値以上であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記が発生したと判定する。また、頻度の合計値が閾値未満であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記は発生していないと判定する。   As described above, when a trackback is added to a blog due to trackback spam, since the same trackback is added to a plurality of blogs at the same time, the frequency of the histogram increases. The trackback spam determination unit 11f sets a predetermined section 300, and compares a value obtained by summing the frequencies of histograms in the section 300 with a predetermined threshold. If the total value of the frequencies is equal to or greater than the threshold, the trackback spam determination unit 11f determines that additional trackback due to trackback spam has occurred. If the total frequency is less than the threshold value, the trackback spam determination unit 11f determines that no additional trackback has occurred due to trackback spam.

トラックバックスパム判定部11fは、区間300を時間方向にずらしながら上記の処理を繰り返し実行する。その結果、トラックバックスパムによるトラックバックの追記が発生したと判定された区間300が少なくとも1つ存在した場合には、トラックバックスパムによるトラックバック先のウェブページの異常が検知されたことになる。また、トラックバックスパムによるトラックバックの追記が発生したと判定された区間300が1つも存在しなかった場合には、正規のトラックバックの追記が行われていることになる。   The trackback spam determination unit 11f repeatedly executes the above processing while shifting the section 300 in the time direction. As a result, if there is at least one section 300 in which it is determined that additional trackback due to trackback spam has occurred, an abnormality in the web page of the trackback destination due to trackback spam has been detected. In addition, when there is no section 300 that is determined to have added trackback due to trackback spam, the regular trackback is added.

次に、トラックバックスパム判定に関する第2の動作例を説明する。正規のトラックバックの追記が行われた場合、トラックバック元のウェブページはブログのウェブページであることが多い。しかし、トラックバックスパムによるトラックバックの追記が行われた場合、トラックバック元のウェブページのほとんどが、ブログとは関係のない商用目的のウェブページとなっており、トラックバック先のウェブページとトラックバック元のウェブページとでページ構成が異なる。第2の動作例では、この性質を利用し、トラックバック元のウェブページの特徴を検出し、ブログのウェブページとは異なる特徴が検出された場合に、トラックバックがトラックバックスパムによるものであると判定される。   Next, a second operation example relating to trackback spam determination will be described. When a regular trackback is added, the trackback source web page is often a blog web page. However, when a trackback is added due to trackback spam, most of the trackback source web pages are commercial web pages that are unrelated to the blog, and the track back destination web page and the track back source web page And the page structure is different. In the second operation example, this feature is used to detect the characteristics of the web page of the track back source, and when a characteristic different from the web page of the blog is detected, it is determined that the track back is caused by the track back spam. The

以下、ブログのウェブページの特徴を説明する。
(a)ウェブページに表示される画像が少ない(画像ファイルへのリンクが少ない)。
(b)日本語のブログのウェブページでは、言語エンコードが日本語となることが多い。また、トラックバック先のウェブページとトラックバック元のウェブページの言語エンコードが同一であることが多い。
(c)ウェブページに日時が表示されることが多い。
(d)「日記(blog)」、「トラックバック(Trackback)」、「コメント(Comment)」などのキーワードがウェブページに表示されることが多い。
The features of the blog web page are described below.
(A) There are few images displayed on the web page (there are few links to image files).
(B) In many Japanese blog web pages, the language encoding is often Japanese. Further, the language encoding of the trackback destination web page and the trackback source web page is often the same.
(C) Dates are often displayed on web pages.
(D) Keywords such as “blog”, “trackback”, and “comment” are often displayed on web pages.

上記の特徴から、悪意のトラックバックによるトラックバック元のウェブページの特徴として、以下の特徴が挙げられる。
(A)ウェブページにN(N:1以上の整数)個以上の画像が表示されている。
(B)言語エンコードが日本語以外の言語である。
(C)ウェブページに日時が表示されていない。
(D)「日記(blog)」、「トラックバック(Trackback)」、「コメント(Comment)」などのキーワードがウェブページに表示されていない。
From the above characteristics, the following characteristics can be cited as the characteristics of the web page of the track back source due to the malicious track back.
(A) N (N: integer greater than or equal to 1) images are displayed on the web page.
(B) The language encoding is a language other than Japanese.
(C) The date / time is not displayed on the web page.
(D) Keywords such as “Diary (blog)”, “Trackback”, “Comment” are not displayed on the web page.

第2の動作例では、トラックバック元のウェブページ情報が新たに取得される。具体的には、ウェブページ情報取得部11aは、ステップS106で抽出されたリンク情報が示すウェブサーバに対して、通信部10による通信処理を介してアクセスし、トラックバック元のウェブページ情報を含むファイルを取得する。ウェブページ情報取得部11aは、取得したウェブページ情報をウェブページ情報記憶部12に格納する。   In the second operation example, the trackback source web page information is newly acquired. Specifically, the web page information acquisition unit 11a accesses the web server indicated by the link information extracted in step S106 via a communication process by the communication unit 10, and includes a file containing the track back source web page information. To get. The web page information acquisition unit 11 a stores the acquired web page information in the web page information storage unit 12.

トラックバックスパム判定部11fは、ウェブページ情報記憶部12からトラックバック元のウェブページ情報を読み出し、上記の条件(A)〜(D)を基準にして、以下の(1)式により、ウェブページの特徴を示す特徴量を算出する。(1)式において、添え字のiは上記の条件(A)〜(D)に対応しており、i=0が条件(A)に対応し、i=1が条件(B)に対応し、i=2が条件(C)に対応し、i=3が条件(D)に対応している。また、Cは各条件の特徴の有無に対応した値であり、ウェブページが各条件を満たす場合にC=1、ウェブページが各条件を満たさない場合にC=0である。kは、Cへの重み付けの度合いを示す係数である。kの値は係数記憶部15に格納されている。 The trackback spam determination unit 11f reads the webpage information of the trackback source from the web page information storage unit 12, and uses the following formulas (1) based on the above conditions (A) to (D) as a feature of the web page. Is calculated. In the formula (1), the subscript i corresponds to the above conditions (A) to (D), i = 0 corresponds to the condition (A), and i = 1 corresponds to the condition (B). , I = 2 corresponds to the condition (C), and i = 3 corresponds to the condition (D). C i is a value corresponding to the presence / absence of characteristics of each condition, and C i = 1 when the web page satisfies each condition, and C i = 0 when the web page does not satisfy each condition. k i is a coefficient indicating the degree of weighting to C i . The value of k i is stored in the coefficient storage unit 15.

Figure 2009230663
Figure 2009230663

条件(A)に関しては、トラックバックスパム判定部11fは、ウェブページ情報から、画像ファイルへのリンクを示す情報を抽出し、その情報が示すリンクの数に基づいてCの値を決定する。リンクの数がN以上であれば、C=1であり、リンクの数がN未満であれば、C=0である。条件(B)に関しては、トラックバックスパム判定部11fは、ウェブページ情報に「charset=euc-jp」というタグが含まれているか否かを判定した結果に基づいてCの値を決定する。このタグが含まれていなければ、C=1であり、このタグが含まれていれば、C=0である。 For the condition (A), trackback spam determination unit 11f, from the web page information, extracts information showing the link to the image file, to determine the value of C i, based on the number of links indicated by the information. If the number of links is N or more, C i = 1, and if the number of links is less than N, C i = 0. For the condition (B), trackback spam determination unit 11f determines the value of C i on the basis of a result of determining whether it contains a tag "charset = euc-jp" to the web page information. If this tag is not included, C i = 1, and if this tag is included, C i = 0.

条件(C)に関しては、トラックバックスパム判定部11fは、ウェブページ情報に日時の表示に関するタグが含まれているか否かを判定した結果に基づいてCの値を決定する。このタグが含まれていなければ、C=1であり、このタグが含まれていれば、C=0である。条件(D)に関しては、トラックバックスパム判定部11fは、ウェブページ情報に特定のキーワードを示すテキストが含まれているか否かを判定した結果に基づいてCの値を決定する。このテキストが含まれていなければ、C=1であり、このテキストが含まれていれば、C=0である。 For the condition (C), trackback spam determination unit 11f determines the value of C i on the basis of a result of determining whether contains a tag relating to the display of the date and time on the web page information. If this tag is not included, C i = 1, and if this tag is included, C i = 0. For the condition (D), trackback spam determination unit 11f determines the value of C i on the basis of a result of determining whether it contains text that indicates a specific keyword on the web page information. If this text is not included, C i = 1, and if this text is included, C i = 0.

また、係数kの値は以下のようにして予め算出される。条件(A)に関しては、トラックバックによるトラックバック元のウェブページのうち、N個以上の画像ファイルへのリンクを含むウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、以下の(2)式に従って係数kの値を算出する。 The value of the coefficient k i is calculated in advance as follows. Regarding condition (A), whether the web page is a legitimate web page or a malicious web page for web pages including links to N or more image files among the track back source web pages by track back. And count the number of occurrences of legitimate and malicious web pages. Based on this investigation result, the value of the coefficient k i is calculated according to the following equation (2).

Figure 2009230663
Figure 2009230663

条件(B)に関しては、トラックバックによるトラックバック元のウェブページのうち、「charset=euc-jp」というタグが含まれていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。 Regarding the condition (B), whether or not the trackback source webpage by trackback is a legitimate webpage targeting a webpage that does not include the tag “charset = euc-jp”, or a malicious webpage. And count the number of occurrences of legitimate web pages and malicious web pages. Based on this investigation result, the value of the coefficient k i is calculated according to the above equation (2).

条件(C)に関しては、トラックバックによるトラックバック元のウェブページのうち、日時が表示されていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。 Regarding the condition (C), we investigate whether the web page is the regular web page or the malicious web page for the web page that does not display the date / time among the track back source web pages. Count the number of occurrences of web pages and malicious web pages. Based on this investigation result, the value of the coefficient k i is calculated according to the above equation (2).

条件(D)に関しては、トラックバックによるトラックバック元のウェブページのうち、特定のキーワードが表示されていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。 Regarding the condition (D), it is investigated whether the web page from which the specific keyword is not displayed is the legitimate web page or the malicious web page among the track back source web pages by the track back. , Count the number of appearances of legitimate web pages and malicious web pages. Based on this investigation result, the value of the coefficient k i is calculated according to the above equation (2).

上記の条件(A)〜(D)以外の条件を用いることも可能である。例えば、前述したように、トラックバックスパムによる攻撃では、同時期に同一のトラックバックが複数のウェブページに追記されるという性質がある。この性質を利用し、トラックバックにより、同一のURLがN個以上のウェブページに追記されたことを条件としてもよい。   Conditions other than the above conditions (A) to (D) may be used. For example, as described above, an attack by trackback spam has the property that the same trackback is added to a plurality of web pages at the same time. This property may be used on condition that the same URL is added to N or more web pages by track back.

この条件を用いる場合、トラックバックスパム判定部11fは、前述したヒストグラムを生成し、所定の区間内でヒストグラムの頻度を合計した値と所定の閾値とを比較した結果に基づいてCの値を決定する。頻度の合計値が閾値以上であれば、C=1であり、頻度の合計値が閾値未満であれば、C=0である。 When using this condition, trackback spam determination section 11f determines the value of C i on the basis of the result of generating a histogram as described above, was compared with the total value with a predetermined threshold the frequency of the histogram in a predetermined section To do. C i = 1 if the total value of the frequencies is equal to or greater than the threshold value, and C i = 0 if the total value of the frequencies is less than the threshold value.

また、係数kの値に関しては、トラックバックによるトラックバック元のウェブページのうち、同時期にN個以上のウェブページに追記されたトラックバックによるトラックバック元のウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。 The value of the coefficient k i is a regular web page for track back source web pages added to N or more web pages at the same time among track back source web pages by track back. Whether it is a malicious web page or a malicious web page, and counts the number of regular and malicious web pages. Based on this investigation result, the value of the coefficient k i is calculated according to the above equation (2).

以上のようにして、(1)式の特徴量が算出される。トラックバックスパム判定部11fは、この特徴量を所定の閾値と比較する。特徴量が閾値以上であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記が発生したと判定する。また、特徴量が閾値未満であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記が発生していないと判定する。   As described above, the feature amount of the equation (1) is calculated. The trackback spam determination unit 11f compares this feature amount with a predetermined threshold value. If the feature amount is greater than or equal to the threshold value, the trackback spam determination unit 11f determines that additional trackback due to trackback spam has occurred. If the feature amount is less than the threshold value, the trackback spam determination unit 11f determines that no additional trackback due to trackback spam has occurred.

上記の判定結果を既存の禁止URLリストに反映させてもよい。すなわち、トラックバックスパムによるものであると判定されたトラックバックによって追記されたURLを禁止URLリストに追加してもよい。これによって、最新の禁止URLを保つことが可能となる。   The determination result may be reflected in the existing prohibited URL list. That is, the URL added by the trackback determined to be due to the trackback spam may be added to the prohibited URL list. This makes it possible to keep the latest prohibited URL.

次に、ステップS111におけるコメントスパム判定の詳細を説明する。まず、第1の動作例を説明する。前述したように、ボットに感染したサーバを踏み台にして行う攻撃では、ボットを短時間しか利用できないことを前提に、ウェブサーバで管理されている複数のブログのウェブページに対して、同時期に同じ内容を書き込むことが多い。第1の動作例では、この性質を利用し、同時期に同一のコメントが複数のウェブページに追加された場合に、そのコメントがコメントスパムによるものであると判定される。   Next, details of the comment spam determination in step S111 will be described. First, a first operation example will be described. As mentioned above, attacks that take place using a server infected with a bot as a stepping stone can be used for multiple blog web pages managed by a web server at the same time, assuming that the bot can only be used for a short time. Often the same content is written. In the first operation example, using this property, when the same comment is added to a plurality of web pages at the same time, it is determined that the comment is due to comment spam.

第1の動作例における処理の流れは、前述したトラックバックスパム判定の第1の動作例における処理の流れと同様である。トラックバックスパム判定部11fは、ステップS100で取得されたウェブページ情報から時刻情報を抽出し、ステップS109で抽出されたコメントと関連付けてコメント記憶部14に格納する。続いて、トラックバックスパム判定部11fは、コメント記憶部14からコメント情報および時刻情報を読み出し、時刻毎の同一コメントの出現頻度を示すヒストグラムを生成する。これ以降の処理は前述した通りである。   The process flow in the first operation example is the same as the process flow in the first operation example of the trackback spam determination described above. The trackback spam determination unit 11f extracts time information from the web page information acquired in step S100, and stores the time information in the comment storage unit 14 in association with the comment extracted in step S109. Subsequently, the trackback spam determination unit 11f reads the comment information and the time information from the comment storage unit 14, and generates a histogram indicating the appearance frequency of the same comment for each time. The subsequent processing is as described above.

次に、コメントスパム判定における第2の動作例を説明する。正規のコメントが追記された場合、ブログに記載されている内容の趣旨とコメントの趣旨とに関連性がある。しかし、コメントスパムによってコメントが追記された場合、ブログに記載されている内容とは関係のないコメントが追記されることが多い。そこで、第2の動作例では、コメントに含まれる単語と、ブログに表示されるコメント以外の部分に含まれる単語とを比較した結果に基づいて、コメントがコメントスパムによるものであるか否かが判定される。   Next, a second operation example in comment spam determination will be described. When a regular comment is added, the purpose of the content described in the blog is related to the purpose of the comment. However, when comments are added due to comment spam, comments that are not related to the contents described in the blog are often added. Therefore, in the second operation example, based on the result of comparing the word included in the comment with the word included in the part other than the comment displayed on the blog, it is determined whether or not the comment is due to comment spam. Determined.

具体的には、コメントスパム判定部11gは、ステップS100で取得されたウェブページ情報をウェブページ情報記憶部12から読み出し、ウェブページに表示されるテキストのうち、コメント以外のテキストを抽出する。続いて、コメントスパム判定部11gは、ステップS109で抽出されたコメントに含まれる単語と、コメント以外のテキストに含まれる単語とを比較する。この比較の際には、予め用意した単語辞書に登録されている、キーワードとなる単語のみを比較の対象としてもよい。   Specifically, the comment spam determination unit 11g reads the web page information acquired in step S100 from the web page information storage unit 12, and extracts text other than comments from the text displayed on the web page. Subsequently, the comment spam determination unit 11g compares the word included in the comment extracted in step S109 with the word included in the text other than the comment. In this comparison, only words that are keywords registered in a word dictionary prepared in advance may be compared.

比較の結果、コメントに含まれる単語が、コメント以外のテキストに含まれるどの単語とも一致しなかった場合には、コメントスパム判定部11gは、コメントスパムによるコメントの追記が発生したと判定する。また、コメントに含まれる単語が、コメント以外のテキストに含まれるいずれかの単語と一致した場合には、コメントスパム判定部11gは、コメントスパムによるコメントの追記が発生していないと判定する。   As a result of the comparison, when the word included in the comment does not match any word included in the text other than the comment, the comment spam determination unit 11g determines that a comment has been added due to comment spam. Further, when the word included in the comment matches any word included in the text other than the comment, the comment spam determination unit 11g determines that no additional comment is generated due to comment spam.

あるいは、コメントに含まれる単語と、コメント以外のテキストに含まれる単語との一致数が所定の閾値未満である場合に、コメントスパムによるコメントの追記が発生したと判定し、コメントに含まれる単語と、コメント以外のテキストに含まれる単語との一致数が閾値以上である場合に、コメントスパムによるコメントの追記が発生していないと判定してもよい。   Alternatively, when the number of matches between the word included in the comment and the word included in the text other than the comment is less than a predetermined threshold, it is determined that the comment is added due to comment spam, and the word included in the comment When the number of matches with words included in text other than comments is equal to or greater than a threshold value, it may be determined that comments are not added due to comment spam.

上記の2つの動作例の他に、コメントの中にURLを記載するというコメントスパムの特徴を利用して、コメントにURLが含まれているか否かを判定することにより、コメントがコメントスパムによるものであるか否かを判定してもよい。   In addition to the above two operation examples, by using the feature of comment spam that URL is described in the comment, it is determined whether or not the URL is included in the comment. It may be determined whether or not.

上述したように、本実施形態によれば、ウェブページの異常を自動的に検知することによって、人の目によるウェブページの監視が必要なくなるので、ウェブページの監視に掛かる負担を軽減することができる。したがって、ブログ用のウェブサーバを管理する企業にとって、手動で行っていた異常検知のための人件費を削減することができる。   As described above, according to the present embodiment, it is not necessary to monitor the web page by human eyes by automatically detecting the abnormality of the web page, so that the burden on the monitoring of the web page can be reduced. it can. Therefore, it is possible to reduce labor costs for detecting anomalies that have been manually performed for a company that manages a web server for a blog.

以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述したウェブ監視装置の動作および機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行させてもよい。   As described above, the embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the above-described embodiments, and includes design changes and the like without departing from the gist of the present invention. . For example, a program for realizing the operation and function of the web monitoring device described above may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read and executed by the computer.

ここで、「コンピュータ」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   Here, the “computer” includes a homepage providing environment (or display environment) if the WWW system is used. The “computer-readable recording medium” refers to a storage device such as a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a hard disk built in the computer. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように、情報を伝送する機能を有する媒体のことをいう。また、上述したプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能を、コンピュータに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program described above may be transmitted from a computer storing the program in a storage device or the like to another computer via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the above-described program may be for realizing a part of the above-described function. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer, what is called a difference file (difference program) may be sufficient.

本発明の一実施形態によるウェブ監視装置の構成を示すブロック図である。It is a block diagram which shows the structure of the web monitoring apparatus by one Embodiment of this invention. 本発明の一実施形態によるウェブ監視装置の動作の手順を示すフローチャートである。It is a flowchart which shows the procedure of operation | movement of the web monitoring apparatus by one Embodiment of this invention. 本発明の一実施形態におけるトラックバック判定方法を説明するための参考図である。It is a reference figure for demonstrating the track back determination method in one Embodiment of this invention.

符号の説明Explanation of symbols

1・・・ウェブ監視装置、2・・・ウェブサーバ、3・・・ネットワーク、10・・・通信部、11・・・監視処理部、11a・・・ウェブページ情報取得部、11b・・・ページ変化検出部、11c・・・差分抽出部、11d・・・リンク情報抽出部、11e・・・コメント抽出部、11f・・・トラックバックスパム判定部、11g・・・コメントスパム判定部、11h・・・アラーム処理部、12・・・ウェブページ情報記憶部、13・・・リンク情報記憶部、14・・・コメント記憶部、15・・・係数記憶部   DESCRIPTION OF SYMBOLS 1 ... Web monitoring apparatus, 2 ... Web server, 3 ... Network, 10 ... Communication part, 11 ... Monitoring process part, 11a ... Web page information acquisition part, 11b ... Page change detection unit, 11c ... difference extraction unit, 11d ... link information extraction unit, 11e ... comment extraction unit, 11f ... trackback spam determination unit, 11g ... comment spam determination unit, 11h ..Alarm processing unit, 12 ... Web page information storage unit, 13 ... Link information storage unit, 14 ... Comment storage unit, 15 ... Coefficient storage unit

Claims (9)

ウェブページ情報を記憶する情報記憶手段と、
前記情報記憶手段が記憶する前記ウェブページ情報から、他のウェブページへのリンクを示すリンク情報を抽出するリンク情報抽出手段と、
前記リンク情報が示すウェブサーバに接続し、ウェブページ情報を取得する情報取得手段と、
前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴量を算出する特徴量算出手段と、
前記特徴量算出手段が算出した前記特徴量に基づいてウェブページの異常の有無を検知する異常検知手段と、
を備えたことを特徴とするウェブページの異常検知装置。
Information storage means for storing web page information;
Link information extraction means for extracting link information indicating a link to another web page from the web page information stored in the information storage means;
Information acquisition means for connecting to a web server indicated by the link information and acquiring web page information;
Based on the web page information acquired by the information acquisition unit, a feature amount calculation unit that calculates a feature amount of a web page;
An abnormality detecting means for detecting presence / absence of an abnormality of a web page based on the feature quantity calculated by the feature quantity calculating means;
An apparatus for detecting an abnormality of a web page, comprising:
前記特徴量算出手段は、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴を示す複数の条件を基準としてウェブページの特徴量を算出することを特徴とする請求項1に記載のウェブページの異常検知装置。   2. The feature amount calculation unit calculates a feature amount of a web page based on a plurality of conditions indicating the feature of the web page based on the web page information acquired by the information acquisition unit. An abnormality detection device for a web page as described in 1. 前記特徴量算出手段は、ウェブページの特徴を示す複数の条件に対して重み付けを行って前記特徴量を算出することを特徴とする請求項2に記載のウェブページの異常検知装置。   3. The web page abnormality detection device according to claim 2, wherein the feature amount calculation unit calculates the feature amount by weighting a plurality of conditions indicating features of the web page. ウェブページ情報を記憶する第1の情報記憶手段と、
前記第1の情報記憶手段が記憶する前記ウェブページ情報から、過去に追加された追加情報を抽出する情報抽出手段と、
前記追加情報と、前記ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する第2の情報記憶手段と、
前記第2の記憶手段が記憶する前記追加情報と前記時刻情報とに基づいて、時刻毎の前記追加情報の出現頻度を示すヒストグラムを生成するヒストグラム生成手段と、
前記ヒストグラムに基づいてウェブページの異常の有無を検知する異常検知手段と、
を備えたことを特徴とするウェブページの異常検知装置。
First information storage means for storing web page information;
Information extraction means for extracting additional information added in the past from the web page information stored in the first information storage means;
Second information storage means for storing the additional information in association with time information indicating the update time of the web page information;
Histogram generation means for generating a histogram indicating the appearance frequency of the additional information for each time based on the additional information and the time information stored in the second storage means;
An anomaly detecting means for detecting the presence or absence of an anomaly of the web page based on the histogram;
An apparatus for detecting an abnormality of a web page, comprising:
前記情報抽出手段は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、他のウェブページへのリンクを示すリンク情報を抽出することを特徴とする請求項4に記載のウェブページの異常検知装置。   5. The information extracting unit extracts link information indicating a link to another web page as the additional information from the web page information stored in the first information storage unit. The web page abnormality detection device described. 前記情報抽出手段は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、ウェブページに追記されたコメントを抽出することを特徴とする請求項4に記載のウェブページの異常検知装置。   5. The web page according to claim 4, wherein the information extraction unit extracts a comment added to the web page as the additional information from the web page information stored in the first information storage unit. Anomaly detection device. ウェブページ情報を記憶する情報記憶手段と、
前記情報記憶手段が記憶する前記ウェブページ情報から、ウェブページに追記されたコメントを抽出するコメント抽出手段と、
前記コメント抽出手段が抽出したコメントに含まれる単語と、ウェブページに表示されるコメント以外の部分に含まれる単語とを比較する比較手段と、
前記比較手段による比較の結果に基づいてウェブページの異常の有無を検知する異常検知手段と、
を備えたことを特徴とするウェブページの異常検知装置。
Information storage means for storing web page information;
Comment extracting means for extracting a comment added to a web page from the web page information stored in the information storage means;
Comparison means for comparing the word included in the comment extracted by the comment extraction means with the word included in a portion other than the comment displayed on the web page;
An abnormality detection means for detecting the presence or absence of an abnormality of the web page based on the result of the comparison by the comparison means;
An apparatus for detecting an abnormality of a web page, comprising:
請求項1〜請求項7のいずれかに記載のウェブページの異常検知装置としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as an abnormality detection apparatus of the web page in any one of Claims 1-7. 請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the program according to claim 8 is recorded.
JP2008078069A 2008-03-25 2008-03-25 Apparatus for detecting abnormal condition in web page, program, and recording medium Pending JP2009230663A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008078069A JP2009230663A (en) 2008-03-25 2008-03-25 Apparatus for detecting abnormal condition in web page, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008078069A JP2009230663A (en) 2008-03-25 2008-03-25 Apparatus for detecting abnormal condition in web page, program, and recording medium

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012203410A Division JP5461645B2 (en) 2012-09-14 2012-09-14 Web page abnormality detection device, program, and recording medium

Publications (1)

Publication Number Publication Date
JP2009230663A true JP2009230663A (en) 2009-10-08

Family

ID=41245929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008078069A Pending JP2009230663A (en) 2008-03-25 2008-03-25 Apparatus for detecting abnormal condition in web page, program, and recording medium

Country Status (1)

Country Link
JP (1) JP2009230663A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257960A (en) * 2010-06-08 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> Update method, update device and update system
JP2012141837A (en) * 2011-01-04 2012-07-26 Sony Corp Information processor, information processing method and program
JP2012208743A (en) * 2011-03-30 2012-10-25 Kyocera Communication Systems Co Ltd Page change determination apparatus
CN103631706A (en) * 2012-08-27 2014-03-12 腾讯科技(深圳)有限公司 Method and device for testing browser
JP2014506355A (en) * 2010-12-22 2014-03-13 北大方正集▲団▼有限公司 Collecting method and system for electronic bulletin board reply increase amount
KR20140116410A (en) * 2012-01-25 2014-10-02 비트데펜더 아이피알 매지니먼트 엘티디 Systems and methods for spam detection using character histograms
CN106709824A (en) * 2016-12-15 2017-05-24 华南理工大学 Method for architecture evaluation based on network text semantic analysis
US10212114B2 (en) 2012-01-25 2019-02-19 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
CN113449170A (en) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 Abnormal account identification method and device, storage medium and electronic equipment
CN113742622A (en) * 2021-08-06 2021-12-03 广州坚和网络科技有限公司 Webpage anomaly detection method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268304A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation device
JP2007115173A (en) * 2005-10-24 2007-05-10 Netstar Inc Server system, its control method, and control program
JP2008033599A (en) * 2006-07-28 2008-02-14 Nec Biglobe Ltd Site service device, site service system, site management method and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268304A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation device
JP2007115173A (en) * 2005-10-24 2007-05-10 Netstar Inc Server system, its control method, and control program
JP2008033599A (en) * 2006-07-28 2008-02-14 Nec Biglobe Ltd Site service device, site service system, site management method and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND200600467002; 石川 直人: 'Webもメールもスパム対策!' UNIX USER 第14巻 第10号 , 20051001, p.42-50, ソフトバンクパブリッシング株式会社 *
JPN6012036024; 石川 直人: 'Webもメールもスパム対策!' UNIX USER 第14巻 第10号 , 20051001, p.42-50, ソフトバンクパブリッシング株式会社 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257960A (en) * 2010-06-08 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> Update method, update device and update system
JP2014506355A (en) * 2010-12-22 2014-03-13 北大方正集▲団▼有限公司 Collecting method and system for electronic bulletin board reply increase amount
JP2012141837A (en) * 2011-01-04 2012-07-26 Sony Corp Information processor, information processing method and program
JP2012208743A (en) * 2011-03-30 2012-10-25 Kyocera Communication Systems Co Ltd Page change determination apparatus
US10212114B2 (en) 2012-01-25 2019-02-19 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
KR20140116410A (en) * 2012-01-25 2014-10-02 비트데펜더 아이피알 매지니먼트 엘티디 Systems and methods for spam detection using character histograms
JP2015513133A (en) * 2012-01-25 2015-04-30 ビットディフェンダー アイピーアール マネジメント リミテッド Spam detection system and method using character histogram
KR101686147B1 (en) * 2012-01-25 2016-12-13 비트데펜더 아이피알 매니지먼트 엘티디 Systems and methods for spam detection using character histograms
CN103631706A (en) * 2012-08-27 2014-03-12 腾讯科技(深圳)有限公司 Method and device for testing browser
CN103631706B (en) * 2012-08-27 2018-09-04 腾讯科技(深圳)有限公司 A kind of browser testing method and apparatus
CN106709824A (en) * 2016-12-15 2017-05-24 华南理工大学 Method for architecture evaluation based on network text semantic analysis
CN106709824B (en) * 2016-12-15 2020-07-28 华南理工大学 Building evaluation method based on semantic analysis of web text
CN113449170A (en) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 Abnormal account identification method and device, storage medium and electronic equipment
CN113742622A (en) * 2021-08-06 2021-12-03 广州坚和网络科技有限公司 Webpage anomaly detection method and device

Similar Documents

Publication Publication Date Title
JP2009230663A (en) Apparatus for detecting abnormal condition in web page, program, and recording medium
US8584233B1 (en) Providing malware-free web content to end users using dynamic templates
US11159545B2 (en) Message platform for automated threat simulation, reporting, detection, and remediation
JP6530786B2 (en) System and method for detecting malicious elements of web pages
US9614862B2 (en) System and method for webpage analysis
US7287279B2 (en) System and method for locating malware
US9723018B2 (en) System and method of analyzing web content
US9930065B2 (en) Measuring, categorizing, and/or mitigating malware distribution paths
US8800030B2 (en) Individualized time-to-live for reputation scores of computer files
JP5572763B2 (en) Website scanning apparatus and method
US20060075494A1 (en) Method and system for analyzing data for potential malware
US8495735B1 (en) System and method for conducting a non-exact matching analysis on a phishing website
US20060075468A1 (en) System and method for locating malware and generating malware definitions
CN106230835B (en) Method based on Nginx log analysis and the IPTABLES anti-malicious access forwarded
RU2701040C1 (en) Method and a computer for informing on malicious web resources
US20060075490A1 (en) System and method for actively operating malware to generate a definition
JP2016122273A (en) Alert emission method, program and system
CN115134147A (en) E-mail detection method and device
JP6623128B2 (en) Log analysis system, log analysis method, and log analysis device
EP1834243B1 (en) System and method for locating malware
JP5461645B2 (en) Web page abnormality detection device, program, and recording medium
JP4564916B2 (en) Phishing fraud countermeasure method, terminal, server and program
JP4617243B2 (en) Information source verification method and apparatus
TWI397833B (en) Method and system for detecting a phishing webpage
JP6761181B2 (en) Policy setting device, policy setting method and policy setting program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121113