JP7182764B2 - 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム - Google Patents

不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム Download PDF

Info

Publication number
JP7182764B2
JP7182764B2 JP2020539928A JP2020539928A JP7182764B2 JP 7182764 B2 JP7182764 B2 JP 7182764B2 JP 2020539928 A JP2020539928 A JP 2020539928A JP 2020539928 A JP2020539928 A JP 2020539928A JP 7182764 B2 JP7182764 B2 JP 7182764B2
Authority
JP
Japan
Prior art keywords
web page
html document
fraudulent
inspected
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020539928A
Other languages
English (en)
Other versions
JPWO2020044469A1 (ja
Inventor
隆一 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BBSS Corp
Original Assignee
BBSS Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BBSS Corp filed Critical BBSS Corp
Publication of JPWO2020044469A1 publication Critical patent/JPWO2020044469A1/ja
Application granted granted Critical
Publication of JP7182764B2 publication Critical patent/JP7182764B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラムに関する。
インターネットを利用したフィッシング詐欺の増加に対応するため、フィッシング詐欺による被害を防止するための技術が普及しつつある。
例えば、特許文献1には、フィッシングサイトのURL(Uniform Resource Locator)へのアクセスを禁止する通信制御装置が記載されている。通信制御装置は、ユーザの端末と、ユーザの端末が通信する他の装置との間の通信経路に設けられ、端末が送信した通信データに含まれるアクセス先のコンテンツのURLと、フィッシングサイトリスト、即ちブラックリストに含まれるURLとを比較する。通信制御装置は、端末のアクセス先のコンテンツのURLが、ブラックリストに含まれるURLに合致した場合、そのコンテンツへのアクセスを禁止する。
国際公開第2006/087908号
近年、フィッシングサイトを構築するためのツールがフィッシング詐欺を行う犯罪者の間で広く流通し、犯罪者は、ツールを使用することによって、容易に且つ短期間でフィッシングサイトを生成できるようになっている。犯罪者は、ツールを使用して新たなフィッシングサイトを生成し、ユーザを新たなサイトの不正Webページに誘導してフィッシング詐欺を実行し、生成したフィッシングサイトを閉鎖することを、短期間で実行する。犯罪者は、不正Webページがブラックリストに掲載される前にフィッシング詐欺を実行することができ、従来のブラックリスト方式では、不正Webページを検出できない場合がある。
不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラムの目的は、Webページが不正Webページであるか否かを高精度に判定することを可能にすることにある。
本実施形態に係る不正Webページ検出装置は、複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する記憶部と、検査対象Webページを構成する検査対象HTML文書を取得する取得部と、検査対象HTML文書の特徴ベクトルを算出するベクトル算出部と、検査対象HTML文書の特徴ベクトルと、複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出する類似度算出部と、算出された各類似度としきい値とに基づいて、検査対象Webページが不正Webページであるか否かを判定する判定部と、判定部による判定結果を出力する判定結果出力部と、を有する。
本実施形態に係る不正Webページ検出装置において、記憶部は、さらに、複数の正規Webページのそれぞれを構成する複数の正規HTML文書の特徴ベクトルを、正規Webページを示す正規URL(Uniform Resource Locator)と関連付けて記憶し、取得部は、さらに、検査対象Webページを示す検査対象URLを取得し、類似度算出部は、検査対象URL中のドメイン名が複数の正規URL中のドメイン名の何れとも一致しない場合、さらに、検査対象HTMLの特徴ベクトルと、複数の正規HTML文書の特徴ベクトルのそれぞれとの類似度を算出することが好ましい。
本実施形態に係る不正Webページ検出装置において、類似度算出部は、不正HTML文書のサイズと検査対象HTML文書のサイズとの差が所定値以上である場合、不正HTML文書について類似度を算出しないことが好ましい。
本実施形態に係る不正Webページ検出装置において、複数の文字列は、HTMLタグ及び単語を含むことが好ましい。
本実施形態に係る不正Webページ検出装置において、複数の文字列は、連続する文字列であることが好ましい。
本実施形態に係る記憶部及び出力部を有する不正Webページ検出装置の制御方法は、不正Webページ検出装置が、複数の不正Webページのそれぞれを構成する複数の不正HTML文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶部に記憶し、検査対象Webページを構成する検査対象HTML文書を取得し、検査対象HTML文書の特徴ベクトルを算出し、検査対象HTML文書の特徴ベクトルと、複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出し、算出された各類似度としきい値とに基づいて、検査対象Webページが不正Webページであるか否かを判定し、判定の結果を出力部に出力する、ことを含む。
本実施形態に係る記憶部及び出力部を有する不正Webページ検出装置の制御プログラムは、複数の不正Webページのそれぞれを構成する複数の不正HTML文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶部に記憶し、検査対象Webページを構成する検査対象HTML文書を取得し、検査対象HTML文書の特徴ベクトルを算出し、検査対象HTML文書の特徴ベクトルと、複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出し、算出された各類似度としきい値とに基づいて、検査対象Webページが不正Webページであるか否かを判定し、判定の結果を出力部に出力する、ことを不正Webページ検出装置に実行させる。
本実施形態によれば、不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラムは、Webページが不正Webページであるか否かを高精度に判定することを可能にする。
本発明の目的及び効果は、特に請求項において指摘される構成要素及び組み合わせを用いることによって認識され且つ得られるだろう。前述の一般的な説明及び後述の詳細な説明の両方は、例示的及び説明的なものであり、特許請求の範囲に記載されている本発明を制限するものではない。
不正Webページ検出装置における処理概要の一例を示す図である。 通信システム1の概略構成の一例を示す図である。 不正Webページ検出装置4の概略構成の一例を示す図である。 (a)は不正Webページテーブルのデータ構造の一例を示す図であり、(b)は正規Webページテーブルのデータ構造の一例を示す図である。 不正Webページ検出装置4の動作の一例を示すフローチャートである。 初期処理の一例を示すフローチャートである。 検査処理の一例を示すフローチャートである。 (a)は形態素解析部433への入力データの一例であり、(b)は形態素解析部433の出力データの一例である。 特徴ベクトルの処理概要の一例を示す図である。 (a)~(d)は端末2が表示する画面の一例を示す図である。
以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲はそれらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
図1は、不正Webページ検出装置における処理概要の一例を示す図である。
不正Webページ検出装置は、既知の複数の不正Webページのそれぞれを構成する複数の不正HTML文書を記憶している。不正Webページは、フィッシング詐欺で使用されるWebページであり、既知の不正WebページのURLは、例えば、フィッシング対策協議会等の団体によって提供される。Webページには、HTML文書と、HTML文書中に記載された画像等が含まれる。
最初に、不正Webページ検出装置は、複数の不正HTML文書毎に、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトル1~nを算出する。文字列とは、HTMLタグ又は単語である。複数の文字列の関連状態とは、各文字列の間の関係性であり、例えば、各HTML文書内における所定の複数の文字列の配置関係である。複数の文字列は、HTMLタグ及び単語を含むことがあり、連続する文字列であってもよい。特徴ベクトルは、複数次元、例えば1×150のベクトルである。各特徴ベクトルは、文書内の文字列の配置が類似する2つのHTML文書の特徴ベクトルが、非類似の2つのHTML文書の特徴ベクトルよりも類似するように算出される。
次に、不正Webページ検出装置は、検査対象Webページに含まれる検査対象HTML文書を取得する。検査対象Webページは、フィッシング詐欺で使用されるWebページであるか否かを検査する対象のWebページであり、例えば、不正Webページ検出装置とは異なる端末がアクセスを要求したWebページである。不正Webページ検出装置は、不正HTML文書と同様に、検査対象HTML文書に対して特徴ベクトルAを算出する。
次に、不正Webページ検出装置は、算出した特徴ベクトルAと、各特徴ベクトル1~nとの類似度1~nを算出する。
次に、不正Webページ検出装置は、算出した類似度1~nの最大値としきい値とを比較することにより、検査対象Webページが不正Webページであるか否かを判定する。不正Webページ検出装置は、類似度1~nの最大値がしきい値以上である場合、検査対象Webページはその最大値となる類似度が算出された特徴ベクトルに対応する不正Webページに類似しており、不正Webページであると判定する。
不正Webページ検出装置は、既知の複数の不正HTML文書及び検査対象HTML文書毎に、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する。不正Webページ検出装置は、特徴ベクトルの類似度に基づいて、検査対象Webページが不正Webページであるか否かを判定する。不正Webページは、共通のツールにより生成されていることが多く、共通のツールにより生成された複数の不正Webページは、ツールに起因する共通の特徴を有し、類似する可能性が高い。このため、不正Webページ検出装置は、HTML文書の特徴ベクトルを使用することにより、検査対象WebページのURLが既知の不正WebページのURLと異なっていても、検査対象Webページが不正Webページか否かを高精度に判定することができる。
<実施形態>
図2は、通信システム1の概略構成の一例を示す図である。
通信システム1は、端末2、Webサーバ3及び不正Webページ検出装置4等を有する。端末2、Webサーバ3及び不正Webページ検出装置4は、インターネット等の通信ネットワーク5を介して接続される。
端末2は、ユーザがWebページの閲覧に使用する端末である。端末2は、TCP/IP(Transmission Control Protocol / Internet Protocol)等の通信方式により、通信ネットワーク5を介してWebサーバ3及び不正Webページ検出装置4と通信し、通信の内容に応じた表示を行う。
Webサーバ3は、端末2及び不正Webページ検出装置4による要求に応じて、Webページを送信するサーバである。Webサーバ3は、TCP/IP等の通信方式により、通信ネットワーク5を介して端末2及び不正Webページ検出装置4と通信する。
端末2は、URLを指定してWebサーバ3のWebページにアクセスする際に、同一のURLを不正Webページ検出装置4に送信する。不正Webページ検出装置4は、送信されたURLを指定してWebサーバ3にHTML文書の取得を要求し、Webサーバ3からHTML文書を受信する。不正Webページ検出装置4は、受信したHTML文書が不正HTML文書であるか否かを判定し、判定した結果を端末2に送信する。端末2は、送信された検査結果に応じて、Webサーバ3から送信されたWebページ又は警告画面を表示する。
図3は、不正Webページ検出装置4の概略構成の一例を示す図である。
不正Webページ検出装置4は、通信部41と、記憶部42と、処理部43とを有する。
通信部41は、有線LAN等の有線の通信インターフェース回路、又は、無線LAN等の無線の通信インターフェース回路を有する。通信部41は、通信ネットワーク5を介して、端末2、Webサーバ3等とTCP/IP等の通信方式により通信を行う。通信部41は、端末2、Webサーバ3等から受信したデータを処理部43に供給する。通信部41は、処理部43から供給されたデータを端末2、Webサーバ3等に送信する。通信部41は、出力部の一例である。
記憶部42は、例えば、半導体メモリ、磁気ディスク装置及び光ディスク装置のうちの少なくとも一つを有する。記憶部42は、処理部43による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。
例えば、記憶部42は、ドライバプログラムとして、通信部41を制御する通信デバイスドライバプログラム等を記憶する。また、記憶部42は、オペレーティングシステムプログラムとして、TCP/IP等の通信方式による接続制御プログラム等を記憶する。また、記憶部42は、アプリケーションプログラムとして、各種データの送受信を行うデータ処理プログラム等を記憶する。コンピュータプログラムは、例えばCD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて記憶部42にインストールされてもよい。
記憶部42には、データとして、不正Webページテーブル及び正規Webページテーブル等が記憶される。不正Webページテーブル及び正規Webページテーブルの詳細については後述する。
処理部43は、一又は複数個のプロセッサ及びその周辺回路を有し、不正Webページ検出装置4の全体的な動作を統括的に制御する。処理部43は、例えば、CPU(Central Processing Unit)である。なお、処理部43は、DSP(digital signal processor)、LSI(large scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programming Gate Array)等でもよい。
処理部43は、不正Webページ検出装置4の各種処理が記憶部42に記憶されているプログラム等に応じて適切な手順で実行されるように、通信部41等の動作を制御する。処理部43は、記憶部42に記憶されているプログラム(ドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム等)に基づいて処理を実行する。また、処理部43は、複数のプログラム(アプリケーションプログラム等)を並列に実行できる。
処理部43は、取得部431、前処理部432、形態素解析部433、ベクトル算出部434、類似度算出部435、判定部436及び判定結果出力部437等を有する。処理部43が有するこれらの各部は、処理部43が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、処理部43が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、又はファームウェアとして不正Webページ検出装置4に実装されてもよい。
図4(a)は、不正Webページテーブルのデータ構造の一例を示す図である。
不正Webページテーブルには、不正Webページを識別するためのID、不正Webページを示すURL、不正Webページに含まれる不正HTML文書、不正HTML文書に基づいて算出された特徴ベクトル等が関連付けられて記憶される。不正HTML文書は、不正Webページテーブルに複数個記憶され、複数の不正HTML文書は、複数の不正Webページのそれぞれを構成する。なお、特徴ベクトルは、不正Webページテーブルとは別に、ID、URL等と関連付けられて記憶部42上に記憶されてもよい。また、URLは、不正Webページテーブルに含まれなくてもよい。特徴ベクトルが不正Webページテーブルに記憶されるか否かに関わらず、記憶部42は、複数の不正Webページのそれぞれを構成する複数の不正HTML文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する。
図4(b)は、正規Webページテーブルのデータ構造の一例を示す図である。
正規Webページテーブルには、正規Webページを識別するためのID、正規Webページを示す正規URL、正規Webページに含まれる正規HTML文書、正規HTML文書に基づいて算出された特徴ベクトル等が関連付けられて記憶される。なお、特徴ベクトルは、正規Webページテーブルとは別に、ID、正規URL等と関連付けられて記憶部42上に記憶されてもよい。特徴ベクトルが正規Webページテーブルに記憶されるか否かに関わらず、記憶部42は、複数の正規Webページのそれぞれを構成する複数の正規HTML文書の特徴ベクトルを、正規Webページを示す正規URLと関連付けて記憶する。
図5は、不正Webページ検出装置4の動作の一例を示すフローチャートである。
以下、図5に示したフローチャートを参照しつつ、不正Webページ検出装置4の動作の例を説明する。以下に説明する動作は、予め記憶部42に記憶されているプログラムに基づき、主に処理部43により各要素と協働して実行される。
最初に、取得部431は、記憶部42から不正Webページテーブル又は正規Webページテーブルを読み出し、複数の不正HTML文書及び複数の正規HTML文書をそれぞれ取得する(ステップS11)。
次に、不正Webページ検出装置4は、初期処理を実行する(ステップS12)。不正Webページ検出装置4のベクトル算出部434は、初期処理において、複数の不正HTML文書及び複数の正規HTML文書毎に特徴ベクトルを算出する。初期処理の詳細については後述する。ステップS11及びステップS12の処理は、不正Webページ検出装置4が起動した直後に実行される。
次に、不正Webページ検出装置4の取得部431は、端末2からURLを受信するまで待機する(ステップS13)。端末2は、URLを指定してWebページの送信要求をWebサーバ3に送信し、同一のURLを不正Webページ検出装置4に送信する。不正Webページ検出装置4の取得部431は、端末2から送信されたURLを通信部41を介して受信し、検査対象Webページを示す検査対象URLとして取得する。
次に、取得部431は、取得したURLを指定して、Webサーバ3にHTML文書の送信要求を通信部41を介して送信する(ステップS14)。
次に、Webサーバ3は、HTML文書の送信要求を受信すると、URLで指定されたHTML文書を不正Webページ検出装置4に送信する。取得部431は、HTML文書を通信部41を介してWebサーバ3から受信し、検査対象Webページを構成する検査対象HTML文書として取得する(ステップS15)。
次に、不正Webページ検出装置4の判定部436は、検査対象HTML文書に対して検査処理を実行する(ステップS16)。判定部436は、検査処理において、検査対象HTML文書を含む検査対象Webページが不正Webページであるか否かを判定する。検査処理の詳細については後述する。
次に、判定結果出力部437は、検査処理における判定結果を通信部41を介して端末2に送信することにより出力する(ステップS17)。次に、判定結果出力部437は、処理をステップS13へ戻し、ステップS13からステップS17の処理を繰り返す。
一方、端末2は、判定結果を受信すると、受信した判定結果を特定する。端末2は、判定結果が正規Webページであることを示す場合、Webサーバ3から受信したWebページを表示し、判定結果が不正Webページであることを示す場合、Webサーバ3から受信したWebページを表示せず、警告画面を表示する。
なお、端末2は、不正Webページ検出装置4からWebページが不正Webページであることを示す判定結果を受信する前にWebサーバ3からWebページを受信し、表示している場合がある。その場合、端末2は、表示しているWebページに代えて、警告画面を表示する。
図6は、初期処理の一例を示すフローチャートである。初期処理は図5のステップS12で実行される。
最初に、前処理部432は、ステップS11で取得した複数の不正HTML文書及び複数の正規HTML文書に対して、それぞれ前処理を実行する(ステップS21)。前処理部432は、前処理として、各HTML文書の内容をHTML文法規則に基づいて解析し、解析結果に基づいて各HTML文書中の一部の文字を削除する。例えば、前処理部432は、各HTML文書中の改行を表す制御文字である改行コード、改行コードの前後の空白文字、コメント文字列又はJavaScriptの実行コード等を削除する。また、前処理部432は、各HTML文書のHTMLタグ内に記載されているURLのパスを削除してもよく、一部のHTMLタグを削除して、他の一部のHTMLタグがHTML文書に残るように処理してもよい。
次に、形態素解析部433は、前処理部432が処理した各HTML文書に対して、それぞれ形態素解析処理を実行する(ステップS22)。形態素解析部433は、各HTML文書に対して形態素解析を実行することにより、各HTML文書の内容を、複数の文字列の集合体に変換する。形態素解析部433は、例えばMeCab等の公知の形態素解析エンジンを用いて形態素解析処理を実行する。形態素解析部433は、形態素解析処理において、例えば、<p>等のHTMLタグ、及び、HTMLタグ以外の単語がそれぞれ1つの文字列となるように処理する。
次に、ベクトル算出部434は、形態素解析部433が処理した各HTML文書に対して、それぞれ各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する(ステップS23)。
ベクトル算出部434は、複数の文字列を有するHTML文書が入力された場合に、HTML文書の特徴ベクトルを出力するように事前学習された学習器により、特徴ベクトルを算出する。この学習器は、例えばニューラルネットワーク等により、既存のWebページのHTML文書を用いて事前学習され、予め記憶部42に記憶されている。学習器は、HTML文書内の文字列の配置が類似するHTML文書については類似する特徴ベクトルを出力し、HTML文書内の文字列の配置の状態が類似しないHTML文書については類似しない特徴ベクトルを出力する様に学習されている。学習器は、この学習を、例えばDoc2Vec等の公知の手法を用いて実行する。事前学習に用いられるHTML文書は、例えばWikipediaのHTML文書である。
なお、ベクトル算出部434は、学習器を使用せずに特徴ベクトルを算出してもよい。その場合、ベクトル算出部434は、二以上の所定数の文字列が各文書内に出現する出現数を各要素とする特徴ベクトルを算出する。所定数の文字列は、予め複数設定され、記憶部42に記憶されている。この場合、複数の文字列の関連状態とは、各文字列の出現数の大小関係であり、類似するHTML文書については、各文字列の出現数の大小関係は類似するものとなる。したがって、ベクトル算出部434は、HTML文書内の各文字列の出現数が相互に類似するHTML文書については類似する特徴ベクトルを算出し、HTML文書内の各文字列の出現数が類似しないHTML文書については類似しない特徴ベクトルを算出する。
次に、ベクトル算出部434は、算出した各特徴ベクトルを、それぞれ対応する不正HTML文書又は正規HTML文書と関連付けて不正Webページテーブル又は正規Webページテーブルに記憶する(ステップS24)。以上により、一連の処理は終了する。
図7は、検査処理の一例を示すフローチャートである。初期処理は図5のステップS16で実行される。
最初に、前処理部432は、ステップS15で取得した検査対象HTML文書に対して、前処理を実行する(ステップS31)。この前処理は、対象が検査対象HTML文書である点を除いてステップS21で説明した前処理と同一である。
次に、形態素解析部433は、前処理部432が処理した検査対象HTML文書に対して、形態素解析処理を実行する(ステップS32)。この形態素解析処理は、対象が検査対象HTML文書である点を除いてステップS22で説明した形態素解析処理と同一である。
次に、ベクトル算出部434は、形態素解析部433が処理した検査対象HTML文書の特徴ベクトルを算出する(ステップS33)。この特徴ベクトルの算出処理は、対象が検査対象HTML文書である点を除いてステップS23で説明した特徴ベクトルの算出処理と同一である。ステップS23及びステップS33のように、ベクトル算出部434は、複数の不正HTML文書、複数の正規HTML文書及び検査対象HTML文書毎に、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する。
次に、類似度算出部435は、検査対象HTML文書の特徴ベクトルと、ステップS24で記憶した複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出する(ステップS34)。
次に、判定部436は、算出された各類似度としきい値とに基づいて、検査対象Webページが不正Webページであるか否かを判定する(ステップS35)。
類似度の最大値がしきい値以上である場合(ステップS35-Y)、判定部436は、検査対象Webページが、その最大値となる類似度が算出された特徴ベクトルに対応する不正Webページであると判定し(ステップS36)、一連の処理を終了する。
一方、類似度の最大値がしきい値未満である場合(ステップS35-N)、判定部436は、正規Webテーブルを読み出し、複数の正規URLを取得する(ステップS37)。
次に、判定部436は、ステップS13で取得した検査対象URL中のドメイン名が、ステップS37で取得した複数の正規URL中のドメイン名の何れかと一致するか否かを判定する(ステップS38)。
検査対象URL中のドメイン名が複数の正規URL中のドメイン名の何れかと一致する場合(ステップS38-Y)、判定部436は、検査対象Webページは正規のWebサイトに属しており、不正Webページでないと判定する(ステップS39)。以上により、一連の処理を終了する。
検査対象URL中のドメイン名が複数の正規URL中のドメイン名の何れとも一致しない場合(ステップS38-N)、判定部436は、検査対象Webページは正規のWebサイトに属していないと判定する。次に、類似度算出部435は、検査対象HTMLの特徴ベクトルと、複数の正規HTML文書の特徴ベクトルのそれぞれとの類似度を算出する(ステップS40)。
次に、判定部436は、算出された各類似度の最大値と第2しきい値とを比較することにより、検査対象Webページが不正Webページであるか否かを判定する(ステップS41)。第2しきい値は、ステップS35で使用するしきい値と同一の値でも、異なる値でもよい。
判定部436は、ステップS38において、検査対象Webページは正規のWebサイトに属していないと判定している。したがって、類似度の最大値が第2しきい値以上である場合、判定部436は、検査対象Webページは登録されている正規Webページに類似する不正Webページであると判定する(ステップS42)。
一方、類似度の最大値が第2しきい値未満である場合、判定部436は、検査対象Webページは正規のWebサイトに属していないが、正規Webページのいずれとも内容が類似していないため、未登録の正規Webページであると判定する(ステップS43)。以上により、一連の処理を終了する。
図8(a)は、形態素解析部433への入力データの一例であり、図8(b)は、形態素解析部433の出力データの一例である。
図8(a)に示す様に、形態素解析部433への入力データは、不正Webページ、正規Webページ及び検査対象Webページの各HTML文書から、前処理部432が改行コード等の一部の文字を削除したHTML文書である。
図8(b)に示す様に、形態素解析部433の出力データは、形態素解析部433が、入力データに対して形態素解析を実行し、実行結果として得られる形態素を単語単位にまとめて二重引用符の間に配置したデータである。なお、形態素解析部433は、入力データからHTMLタグを除去した後に形態素解析を実行し、形態素を単語単位にまとめた後、元の位置に二重引用符が付されたHTMLタグを挿入することによって、出力データを生成してもよい。
図9は、特徴ベクトルの処理概要の一例を示す図である。
記憶部42には、複数の各不正Webページ1~nの不正HTML文書1~nが記憶されている。まず、ステップS23において、ベクトル算出部434は、記憶部42に記憶された各不正Webページ1~nの不正HTML文書1~nに対して、それぞれ特徴ベクトル1~nを算出する。一方、ステップS33において、ベクトル算出部434は、取得部431が取得した検査対象Webページの検査対象HTML文書に対して、特徴ベクトルAを算出する。そして、ステップS34において、類似度算出部435は、特徴ベクトルAと、特徴ベクトル1~nのそれぞれとのコサイン類似度1~nを算出する。2つの特徴ベクトルは、コサイン類似度が1に近いほど類似し、-1に近いほど類似しない。図9に示す例では、類似度1は0.9であり、類似度2は0.4であり、類似度nは-0.9である。
ステップS35において、判定部436は、類似度1~nの最大値である0.9と、しきい値とを比較することにより、検査対象Webページが不正Webページであるか否かを判定する。例えば、しきい値が0.8である場合、類似度1~nの最大値0.9は、しきい値以上であるため、検査対象Webページは、不正Webページ1に対応する不正Webページであると判定される。
図10(a)~図10(d)は、端末2が表示する画面の一例を示す図である。
図10(a)に示す様に、端末2は、ユーザによりWebブラウザの起動が指示されると、Webブラウザを起動して表示する。Webブラウザの表示画面60は、URL入力領域61と、表示領域62とを含む。端末2は、Webブラウザを起動すると、不正Webページ検出装置4と通信するアプリケーションプログラムを起動する。
図10(b)に示す様に、ユーザによりWebブラウザの表示画面70のURL入力領域61にURLが入力された場合、端末2は、指示されたURLが示すWebサーバ3へアクセスし、Webサーバ3からWebページを受信する。さらに、端末2は、アプリケーションプログラムに従って、Webブラウザに入力されたURLを不正Webページ検出装置4に送信する。
不正Webページ検出装置4は、端末2から送信されたURLをステップS13で取得し、ステップS14~ステップS17の処理を実行して、判定結果を端末2に送信する。
図10(c)に示す様に、端末2は、端末2から送信されたURLに対応するWebページが正規Webページであることを示す判定結果を不正Webページ検出装置4から受信した場合、Webサーバ3から受信したWebページ81を表示画面80に表示する。
図10(d)に示す様に、端末2は、端末2から送信されたURLに対応するWebページが不正Webページであることを示す判定結果を不正Webページ検出装置4から受信した場合、警告画面90を表示する。警告画面用のデータは、端末2に予め記憶されている。警告画面90には、文字表示91と、終了ボタン92とが表示される。文字表示91は、Webサーバ3から受信したWebページがフィッシングページである可能性があることを警告する文章である。終了ボタン92が押下されると、端末2は、警告画面90を閉じる。
このように、不正Webページ検出装置4は、既知の複数の不正HTML文書及び検査対象HTML文書毎に、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する。不正Webページ検出装置4は、算出した特徴ベクトルの類似度に基づいて、検査対象Webページが不正Webページであるか否かを判定する。不正Webページは、共通のツールにより生成されていることが多く、共通のツールにより生成された複数の不正Webページは、ツールに起因する共通の特徴を有し、類似する可能性が高い。このため、不正Webページ検出装置4は、HTML文書の特徴ベクトルを使用することにより、検査対象WebページのURLが既知の不正WebページのURLと異なっていても、検査対象Webページが不正Webページか否かを高精度に判定することができる。
また、不正Webページ検出装置4は、検査対象URL中のドメイン名が複数の正規URL中のドメイン名の何れとも一致しない場合、さらに、検査対象HTMLの特徴ベクトルと、複数の正規HTML文書の特徴ベクトルのそれぞれとの類似度を算出する。不正Webページ検出装置4は、検査対象HTML文書が正規HTML文書と類似するか否かも判定するため、正規Webページと類似する様に作成され、まだ不正Webページとして登録されていない不正Webページを検出することができる。
また、不正Webページ検出装置4は、HTMLタグ及び単語を含む複数の文字列の関連状態に基づいて特徴ベクトルを算出する。共通のツールにより生成された複数の不正Webページは、HTMLタグと単語との間にツールに起因する特定の関連性を有している可能性が高い。不正Webページ検出装置4は、HTMLタグと単語との関連状態が検査対象Webページと各不正Webページとで類似しているか否かを判定するため、検査対象Webページが不正Webページであるか否かをより高精度に検出することができる。
また、不正Webページ検出装置4は、特徴ベクトルを、複数の連続する文字列の関連状態に基づいて算出する。連続する文字列において同様なHTMLタグ及び/又は単語の組が使用される傾向を有するWebページ群は、類似するWebページである可能性が高い。したがって、不正Webページ検出装置4は、不正Webページとして登録されているWebページと類似する不正Webページをより高精度に検出することができる。
なお、前処理部432は、ステップS21及びステップS31において、前処理により生成された各HTML文書のサイズをそれぞれ算出してもよい。その場合、類似度算出部435は、ステップS34において、算出した複数の不正HTML文書のそれぞれのサイズと算出した検査対象HTML文書のサイズとの差を算出し、サイズの差が所定値以上である場合、当該不正HTML文書について類似度を算出しない。同様に、類似度算出部435は、ステップS40において、算出した複数の正規HTML文書のそれぞれのサイズと算出した検査対象HTML文書のサイズとの差を算出し、サイズの差が所定値以上である場合、当該正規HTML文書について類似度を算出しない。
検査対象HTML文書のサイズが不正HTML文書のサイズ又は正規HTML文書のサイズと明らかに異なる場合、2つのHTML文書は明らかに異なる。したがって、不正Webページ検出装置4は、不正Webページの判定精度を低減することなく、検査処理の高速化を図ることができる。なお、類似度算出部435は、前処理部432が前処理を実行する前の各HTML文書のサイズの差を算出してもよい。または、類似度算出部435は、形態素解析部433が形態素解析処理を実行した後の各HTML文書のサイズの差を算出してもよい。
また、形態素解析部433は、前処理部432が前処理を実行したHTML文書に代えて、ステップS11で取得した各正規HTML文書、及び、ステップS15で取得した検査対象HTML文書に対して、形態素解析処理を実行してもよい。
また、ベクトル算出部434は、形態素解析部433が処理したHTML文書に代えて、前処理部432が前処理を実行したHTML文書に対して特徴ベクトルを算出してもよい。ベクトル算出部434は、形態素解析部433が処理したHTML文書に代えて、ステップS11で取得した各正規HTML文書、及び、ステップS15で取得した検査対象HTML文書に対して特徴ベクトルを算出してもよい。例えば、HTML文書が単語毎に分かち書きされる英語等の言語で記載されている場合、ベクトル算出部434は、入力されたHTML文書をHTMLタグの切れ目及び単語と単語との間の空白で区切った複数の文字列に基づいて、特徴ベクトルを算出してもよい。
また、判定部436は、ステップS35において、しきい値以上の類似度と判定された不正Webページが所定数以上であるか否かを判定してもよい。例えば、判定部436は、しきい値以上の類似度と判定された不正Webページの数が、所定数以上である場合に検査対象Webページが不正Webページであると判定し、所定数以上でない場合に検査対象Webページが不正Webページでないと判定してもよい。
また、ステップS37~ステップS43の処理を省略し、判定部436は、ステップS34で算出された各類似度の最大値がしきい値未満である場合、検査対象Webページは正規Webページであると判定してもよい。
また、判定部436がステップS37~ステップS38の処理を実行するタイミングを、ステップS31の処理の前に変更し、ステップS35-NのときにステップS40に処理を進めてもよい。例えば、判定部436は、検査処理の最初にステップS37~ステップS38の処理を実行する。ステップS38-Yの場合、判定部436は、ステップS39と同様に、検査対象Webページは正規のWebサイトに属しており、不正Webページでないと判定して、一連の処理を終了する。ステップS38-Yの場合、判定部436は、処理をステップS31に進める。
また、記憶部42は、さらに、不正Webページテーブルの各不正HTML文書に、どの正規URLに対応してフィッシング詐欺を実行する不正HTML文書であるかを示すURL情報を関連付けて記憶してもよい。この場合、類似度算出部435は、ステップS34において、さらに、検査対象HTML文書の特徴ベクトルと、複数の正規HTML文書の特徴ベクトルのそれぞれとの類似度を算出する。そして、類似度算出部435は、各不正HTML文書に関する類似度と、各不正HTML文書のURL情報が示す正規URLに関連付けられた正規HTML文書に関する類似度との平均値を算出する。判定部436は、ステップS35において、類似度算出部435が算出した各平均値の最大値がしきい値以上であるか否かを判定することにより、検査対象Webページが不正Webページであるか否かを判定する。
また、不正Webページ検出装置4は、運用中に新たな不正Webページ又は正規WebページのURLを取得し、各Webページに対応する特徴ベクトルを算出してもよい。この場合、取得部431は、取得したURLを指定して不正HTML文書又は正規HTML文書を取得し、取得したURL及びHTML文書を不正Webページテーブル又は正規Webページテーブルに登録する。前処理部432、形態素解析部433及びベクトル算出部434は、新たに取得したHTML文書に対してステップS12の初期処理を実行し、特徴ベクトルを算出する。
不正Webページ検出装置4は、既存の学習器に新たなHTML文書を学習させることなく、検査対象HTML文書の特徴ベクトルと新たなHTML文書の特徴ベクトルとの類似度を算出することができる。不正Webページ検出装置4は、既存のHTML文書及び新たなHTML文書の全体を用いて学習器を再学習させることなく、新たなHTML文書を用いた判定を実行することができるため、学習に係る処理の負荷を軽減させることができる。
当業者は、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
4 不正Webページ検出装置
42 記憶部
431 取得部
434 ベクトル算出部
435 類似度算出部
436 判定部
437 判定結果出力部

Claims (6)

  1. 複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する記憶部と、
    検査対象Webページを構成する検査対象HTML文書を取得する取得部と、
    前記検査対象HTML文書及び前記不正HTML文書に対して、HTMLタグ内に記載されているURLのパスを削除する処理を実行する前処理部と、
    前記検査対象HTML文書の特徴ベクトルを算出するベクトル算出部と、
    前記検査対象HTML文書の特徴ベクトルと、前記複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出する類似度算出部と、
    前記算出された各類似度としきい値とに基づいて、前記検査対象Webページが不正Webページであるか否かを判定する判定部と、
    前記判定部による判定結果を出力する判定結果出力部と、
    を有し、
    前記記憶部が記憶する特徴ベクトルは、前記前処理部により処理された不正HTML文書の特徴ベクトルであり、
    前記ベクトル算出部は、前記前処理部により処理された検査対象HTML文書に基づいて前記検査対象HTML文書の特徴ベクトルを算出する、
    ことを特徴とする不正Webページ検出装置。
  2. 前記取得部は、新たな不正HTML文書をさらに取得し、
    前記ベクトル算出部は、HTML文書の特徴ベクトルを出力するように事前学習された学習器により前記検査対象HTML文書の特徴ベクトルを算出し、かつ、前記学習器により前記新たな不正HTML文書の特徴ベクトルをさらに算出し、
    前記類似度算出部は、前記検査対象HTML文書の特徴ベクトルと、前記新たな不正HTML文書の特徴ベクトルとの類似度をさらに算出する、請求項1に記載の不正Webページ検出装置。
  3. 前記記憶部は、さらに、複数の正規Webページのそれぞれを構成する複数の正規HTML文書の前記特徴ベクトルを、前記正規Webページを示す正規URL(Uniform Resource Locator)と関連付けて記憶し、
    前記取得部は、さらに、前記検査対象Webページを示す検査対象URLを取得し、
    前記類似度算出部は、前記検査対象URL中のドメイン名が前記複数の正規URL中のドメイン名の何れとも一致しない場合、さらに、前記検査対象HTML文書の特徴ベクトルと、前記複数の正規HTML文書の特徴ベクトルのそれぞれとの類似度を算出する、請求項1又は2に記載の不正Webページ検出装置。
  4. 前記類似度算出部は、前記不正HTML文書のサイズと前記検査対象HTML文書のサイズとの差が所定値以上である場合、当該不正HTML文書について前記類似度を算出しない、請求項1~の何れか一項に記載の不正Webページ検出装置。
  5. 記憶部及び出力部を有する不正Webページ検出装置の制御方法であって、前記不正Webページ検出装置が、
    複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを前記記憶部に記憶し、
    検査対象Webページを構成する検査対象HTML文書を取得し、
    前記検査対象HTML文書及び前記不正HTML文書に対して、HTMLタグ内に記載されているURLのパスを削除する処理を実行し、
    前記検査対象HTML文書の特徴ベクトルを算出し、
    前記検査対象HTML文書の特徴ベクトルと、前記複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出し、
    前記算出された各類似度としきい値とに基づいて、前記検査対象Webページが不正Webページであるか否かを判定し、
    前記判定の結果を前記出力部に出力する、
    ことを含み、
    前記記憶部が記憶する特徴ベクトルは、前記URLのパスを削除する処理により処理された不正HTML文書の特徴ベクトルであり、
    前記検査対象HTML文書の特徴ベクトルを算出する処理は、前記URLのパスを削除する処理により処理された検査対象HTML文書に基づいて前記検査対象HTML文書の特徴ベクトルを算出する、
    ことを特徴とする不正Webページ検出装置の制御方法。
  6. 記憶部及び出力部を有する不正Webページ検出装置の制御プログラムであって、
    複数の不正Webページのそれぞれを構成する複数の不正HTML(HyperText Markup Language)文書の、各HTML文書内の複数の文字列の関連状態に基づく特徴ベクトルを前記記憶部に記憶し、
    検査対象Webページを構成する検査対象HTML文書を取得し、
    前記検査対象HTML文書及び前記不正HTML文書に対して、HTMLタグ内に記載されているURLのパスを削除する処理を実行し、
    前記検査対象HTML文書の特徴ベクトルを算出し、
    前記検査対象HTML文書の特徴ベクトルと、前記複数の不正HTML文書の特徴ベクトルのそれぞれとの類似度を算出し、
    前記算出された各類似度としきい値とに基づいて、前記検査対象Webページが不正Webページであるか否かを判定し、
    前記判定の結果を前記出力部に出力する、
    ことを不正Webページ検出装置に実行させ
    前記記憶部が記憶する特徴ベクトルは、前記URLのパスを削除する処理により処理された不正HTML文書の特徴ベクトルであり、
    前記検査対象HTML文書の特徴ベクトルを算出する処理は、前記URLのパスを削除する処理により処理された検査対象HTML文書に基づいて前記検査対象HTML文書の特徴ベクトルを算出する、
    ことを特徴とする制御プログラム。
JP2020539928A 2018-08-29 2018-08-29 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム Active JP7182764B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/031993 WO2020044469A1 (ja) 2018-08-29 2018-08-29 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2020044469A1 JPWO2020044469A1 (ja) 2021-08-26
JP7182764B2 true JP7182764B2 (ja) 2022-12-05

Family

ID=69643425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020539928A Active JP7182764B2 (ja) 2018-08-29 2018-08-29 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム

Country Status (2)

Country Link
JP (1) JP7182764B2 (ja)
WO (1) WO2020044469A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597107B (zh) * 2020-04-22 2023-04-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
KR102419824B1 (ko) * 2020-12-07 2022-07-13 주식회사 앰진시큐러스 메뉴 구조 기반 웹 사이트의 유사도 평가 방법
WO2023157191A1 (ja) * 2022-02-17 2023-08-24 株式会社ファイブドライブ 通信システム、ゲートウェイ装置、端末装置及びプログラム
KR102595595B1 (ko) * 2023-07-24 2023-10-31 (주)에잇스니핏 웹사이트의 구조 정보를 이용한 불법·유해정보 사이트차단 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086677A1 (en) 2010-12-31 2013-04-04 Huawei Technologies Co., Ltd. Method and device for detecting phishing web page
US20160352772A1 (en) 2015-05-27 2016-12-01 Cisco Technology, Inc. Domain Classification And Routing Using Lexical and Semantic Processing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319897A (ja) * 1994-05-20 1995-12-08 Canon Inc 情報処理方法及び装置
US10171497B2 (en) * 2016-07-11 2019-01-01 Bitdefender IPR Management Ltd. Systems and methods for detecting online fraud

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086677A1 (en) 2010-12-31 2013-04-04 Huawei Technologies Co., Ltd. Method and device for detecting phishing web page
US20160352772A1 (en) 2015-05-27 2016-12-01 Cisco Technology, Inc. Domain Classification And Routing Using Lexical and Semantic Processing

Also Published As

Publication number Publication date
JPWO2020044469A1 (ja) 2021-08-26
WO2020044469A1 (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
JP7182764B2 (ja) 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム
US9489401B1 (en) Methods and systems for object recognition
CN101019119B (zh) 基于名称的url输入
US20160294867A1 (en) Method and system for security protection of account information
US9639622B2 (en) Image processing system, image processing method, program, and non-transitory information storage medium
CN108881138B (zh) 一种网页请求识别方法及装置
CN112214984B (zh) 内容抄袭识别方法、装置、设备及存储介质
CN102446255A (zh) 一种检测页面篡改的方法及装置
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
KR20220070181A (ko) 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템
JP2006522382A (ja) 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム
CN107786529B (zh) 网站的检测方法、装置及系统
CN109657472B (zh) Sql注入漏洞检测方法、装置、设备及可读存储介质
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
CN104978423A (zh) 网站类型的检测方法及装置
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
CN111382383A (zh) 网页内容敏感类型确定方法、装置、介质和计算机设备
US9639611B2 (en) System and method for providing suitable web addresses to a user device
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
KR20190000061A (ko) 키워드 속성을 기준으로 관련 있는 키워드를 제공하는 방법 및 시스템
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
JP6425989B2 (ja) 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置
JP5163379B2 (ja) 文書群検出方法及び文書群検出装置
JP2014089692A (ja) 情報提供サーバ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221108

R150 Certificate of patent or registration of utility model

Ref document number: 7182764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150