JP2021175095A

JP2021175095A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2021175095A
Application number: JP2020077997A
Authority: JP
Inventors: 竜生鈴木; Tatsuo Suzuki; 叶孫; Ye Sun
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-11-01
Also published as: US20210336988A1

Abstract

【課題】未知の接続先ホストの脅威の有無を検出する。【解決手段】ネットワーク装置１６は、通信経路において接続元端末１２と接続先ホスト１４との間に設けられる。セキュリティサーバ２４の学習処理部３８は、ネットワーク装置１６から受信した通信ログ１６ａに基づいて、接続先ホスト１４を示すドメイン名及びＩＰアドレス、当該ドメイン名を管理するネームサーバ２０を示す情報、並びに、当該接続先ホスト１４の脅威の有無を学習データとして学習器３４を学習させる。接続先判定部４０は、新たに接続元端末１２が通信しようとしている接続先ホスト１４を示す新規のドメイン名及びＩＰアドレス、並びに当該新規のドメイン名を管理するネームサーバ２０を示す情報を学習済みの学習器３４に入力し、学習器３４の出力に基づいて、当該接続先ホスト１４の脅威の有無を判定する。【選択図】図２

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

従来、インターネットなどの通信回線を介して接続元端末から接続先ホストにアクセスする際に、当該接続先ホストの脅威の有無を判定することが提案されている。脅威が有る接続先ホストとは、例えば、マルウェアなどの悪意のあるソフトウェアを接続元端末に送り付けるなど、接続元端末に対して不当に悪影響を及ぼす（あるいはその可能性がある）ホストを意味する。

例えば、特許文献１には、対象通信先の脅威度（悪性度）を算出する装置であって、悪性又は良性であることが既知の既知通信先及び対象通信先についての、良性通信先リスト及び悪性通信先リストへの掲載の有無の時間変化に基づいて、既知通信先及び対象通信先の特徴情報を抽出し、当該特徴情報に基づいて対象通信先の悪性度を算出する装置が開示されている。

特許第６１９６００８号公報

ところで、従来における接続先ホストの脅威の有無を判定する装置においては、脅威の有無を判定する装置にとって既知の接続先ホストに関する脅威の有無を判定していた。換言すれば、従来、脅威の有無を判定する装置がドメイン名やＩＰアドレスを把握している接続先ホストの脅威の有無を判定していた。一方、脅威を検出する装置にとって未知の接続先ホストの脅威の有無を検出することは、従来困難であった。

本発明の目的は、未知の接続先ホストの脅威の有無を検出することにある。

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、接続先ホストを示すドメイン名及びＩＰアドレス、当該ドメイン名を管理するネームサーバを示す情報、並びに、当該接続先ホストの脅威の有無を学習データとし、ドメイン名、ＩＰアドレス、及び、当該ドメイン名を管理するネームサーバを示す情報が入力されたときに、当該ドメイン名及び当該ＩＰアドレスが示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名及びＩＰアドレス、並びに当該新規のドメイン名を管理するネームサーバを示す情報を入力することで、当該新規のドメイン名及びＩＰアドレスが示す接続先ホストの脅威の有無を判定する、ことを特徴とする情報処理装置である。
請求項２に係る発明は、前記学習器は、さらに、前記接続先ホストのＩＰアドレスの保有国を示す情報を含む前記学習データを用いて学習され、前記プロセッサは、さらに、新規のＩＰアドレスの保有国を示す情報を前記学習器に入力する、ことを特徴とする請求項１に記載の情報処理装置である。
請求項３に係る発明は、前記学習器は、さらに、前記接続先ホストのＩＰアドレスのネットワーク名を含む前記学習データを用いて学習され、前記プロセッサは、さらに、新規のＩＰアドレスのネットワーク名を前記学習器に入力する、ことを特徴とする請求項１又は２に記載の情報処理装置である。
請求項４に係る発明は、前記学習器は、前記接続先ホストのＩＰアドレスのホストを表す部分がＮ進数表現（Ｎは任意）に変換され、当該Ｎ進数表現が複数の部分に区分けされ、各部分が辞書化された前記接続先ホストのＩＰアドレスを含む前記学習データを用いて学習され、前記プロセッサは、前記新規のＩＰアドレスのホストを表す部分をＮ進数表現に変換し、当該Ｎ進数表現を複数の部分に区分けし、各部分を辞書化した前記新規のＩＰアドレスを学習済みの前記学習器に入力させる、ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置である。
請求項５に係る発明は、プロセッサを備え、前記プロセッサは、接続先ホストを示すドメイン名、及び、当該接続先ホストの脅威の有無を学習データとし、前記ドメイン名におけるラベルの位置、及び、前記ラベルの前又は後に位置する他のラベルの少なくとも一つを考慮しつつドメイン名が入力されたときに当該ドメイン名が示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名を入力することで、新規のドメイン名が示す接続先ホストの脅威の有無を判定する、ことを特徴とする情報処理装置である。
請求項６に係る発明は、コンピュータに、接続先ホストを示すドメイン名及びＩＰアドレス、当該ドメイン名を管理するネームサーバを示す情報、並びに、当該接続先ホストの脅威の有無を学習データとし、ドメイン名、ＩＰアドレス、及び、当該ドメイン名を管理するネームサーバを示す情報が入力されたときに、当該ドメイン名及び当該ＩＰアドレスが示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名及びＩＰアドレス、並びに当該新規のドメイン名を管理するネームサーバを示す情報を入力させることで、当該新規のドメイン名及びＩＰアドレスが示す接続先ホストの脅威の有無を判定させる、ことを特徴とする情報処理プログラムである。
請求項７に係る発明は、コンピュータに、接続先ホストを示すドメイン名、及び、当該接続先ホストの脅威の有無を学習データとし、前記ドメイン名におけるラベルの位置、及び、前記ラベルの前又は後に位置する他のラベルの少なくとも一つを考慮しつつドメイン名が入力されたときに当該ドメイン名が示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名を入力することで、新規のドメイン名が示す接続先ホストの脅威の有無を判定させる、ことを特徴とする情報処理プログラムである。

請求項１又は６に係る発明によれば、未知の接続先ホストの脅威の有無を検出することができる。
請求項２に係る発明によれば、接続先ホストを示すドメイン名及びＩＰアドレス、並びに当該ドメイン名を管理するネームサーバのＩＰアドレスに加え、接続先ホストのＩＰアドレスの保有国を考慮して、接続先ホストの脅威の有無を検出することができる。
請求項３に係る発明によれば、さらに、接続先ホストのＩＰアドレスのネットワーク名を考慮して、接続先ホストの脅威の有無を検出することができる。
請求項４に係る発明によれば、ＩＰアドレスの近似性を考慮して接続先ホストの脅威の有無を検出することができる。
請求項５又は７に係る発明によれば、脅威無しの接続先ホストのドメイン名に使用されているラベルと同一のラベルが脅威有りの接続先ホストに用いられていた場合であっても、当該接続先ホストの脅威を検出することができる。

本実施形態に係るネットワークシステムの構成概略図である。本実施形態に係るセキュリティサーバの構成概略図である。学習器の学習処理を示す概念図である。

図１は、本実施形態に係るネットワークシステム１０の構成概略図である。ネットワークシステム１０は、１又は複数の接続元端末１２、複数の接続先ホスト１４、ネットワーク装置１６、ＤＮＳ（Domain Name System）サーバ１８、複数のネームサーバ２０、所有者情報サーバ２２、及び、本発明に係る情報処理装置としてのセキュリティサーバ２４を含んで構成されている。接続元端末１２とネットワーク装置１６は、ＬＡＮ（Local Area Network）などのイントラネットにより通信可能に接続されている。また、接続先ホスト１４、ネットワーク装置１６、ＤＮＳサーバ１８、ネームサーバ２０、所有者情報サーバ２２、及びセキュリティサーバ２４は、インターネット及びＬＡＮなどを含む通信回線２６により互いに通信可能に接続されている。

接続元端末１２は、利用者（ユーザ）が使用する端末であり、例えばパーソナルコンピュータである。また、接続元端末１２としては、タブレット端末などの携帯端末であってもよい。接続元端末１２は、ネットワーク装置１６と通信するため、あるいは、ネットワーク装置１６を介して接続先ホスト１４と通信するための通信インターフェース、ハードディスクやＲＡＭなどから構成されるメモリ、液晶表示器などから構成されるディスプレイ、マウスやキーボードあるいはタッチパネルなどから構成される入力インターフェース、及び、ＣＰＵやマイクロコンピュータなどから構成されるプロセッサを含む。

接続先ホスト１４は、例えば、１つのサーバ（例えばウェブサーバ）であってよく、通信回線２６を介してアクセスしてきた装置に対して各種データ（例えばウェブページデータなど）を提供するものである。また、バーチャルホストと呼ばれる技術により、１つのサーバにおいて、仮想的に複数の接続先ホスト１４が定義される場合もある。複数の接続先ホスト１４の中には、接続元端末１２に不当に悪影響を与える（例えばマルウェアなどを送り付ける）ような、脅威の有る接続先ホスト１４が存在する。また、複数の接続先ホスト１４の中には、接続元端末１２がアクセスしたことのない接続先ホスト１４も存在し得る。そのような接続先ホスト１４の中にも脅威を有する接続先ホスト１４が存在し得る。

ネットワーク装置１６は、通信経路において接続元端末１２と接続先ホスト１４との間に介在する装置である。ネットワーク装置１６は、接続元端末１２が通信回線２６を介して接続先ホスト１４と通信する際におけるセキュリティの担保に関する処理を実行する。換言すれば、ネットワーク装置１６は、脅威の有る接続先ホスト１４から接続元端末１２を守る働きをする。例えば、ネットワーク装置１６は、接続先ホスト１４から送られてくるデータ（例えばパケット）を検証し、当該データが不正データであると判断した際に、接続元端末１２と接続先ホスト１４との間の通信を遮断するファイアウォールあるいはＩＤＳ（Intrusion Prevention System；侵入検知システム）を備えている。ここで、不正データとは、接続元端末１２に不当な悪影響を生じさせる（あるいはその可能性がある）データである。

特に、本実施形態では、ネットワーク装置１６は、接続元端末１２においてユーザが接続先ホスト１４のＵＲＬ（Uniform Resource Locator）を指定した場合における、当該ＵＲＬに基づく接続元端末１２と接続先ホスト１４との間の通信を監視して、接続先ホスト１４から送信されてくる不正データを検出する。ＵＲＬは、主に通信プロトコル（例えばハイパーテキスト・トランスファー・プロトコルなど）を表すスキーム名（例えば「http://」など）、及び、接続先ホスト１４を示すドメイン名としてのＦＱＤＮ（Fully Qualified Domain Name；例えば「www.fujixerox.co.jp」など）を含んで構成される。ＦＱＤＮは文字列から構成される。なお、本明細書においては「文字」には「数字」が含まれるものとする。

本実施形態では、ネットワーク装置１６は、複数の接続元端末１２に接続され、当該各接続元端末１２が通信回線２６を介して接続先ホスト１４と通信を行う際におけるセキュリティの担保に関する処理を実行する。

ユーザが接続元端末１２において接続先ホスト１４のＵＲＬを指定すると、接続元端末１２は当該ＵＲＬをネットワーク装置１６に送信する。ネットワーク装置１６は、当該ＵＲＬに含まれるＦＱＤＮに基づいて当該接続先ホスト１４のＩＰアドレスを取得（すなわち名前解決）すべく、当該ＦＱＤＮをＤＮＳサーバ１８に送信する。

ＤＮＳサーバ１８は、ドメイン名とＩＰアドレスの相互変換処理を行う装置である。ＤＮＳサーバ１８は、ネットワーク装置１６から受信したＦＱＤＮについて名前解決処理を行い、当該ＦＱＤＮが示す接続先ホスト１４のＩＰアドレスを特定する。本実施形態におけるＤＮＳサーバ１８は、いわゆるフルサービスリゾルバであり、複数のネームサーバ２０との協働により名前解決処理を実行する。

各ネームサーバ２０は、いわゆる権威サーバであり、それぞれ特定の範囲のドメイン名を管理する装置である。例えば、あるネームサーバ２０は「ｘｘｘ．ｎｅｔ」というドメイン名を管理し、また、他のネームサーバ２０は「ｘｘｘ．ｏｒｇ」というドメイン名を管理する、の如くである。具体的には、各ネームサーバ２０は、自装置が管理する範囲のドメイン名に関する情報を含むゾーンファイルと呼ばれるファイルを有しており、当該ゾーンファイルを参照することで、自装置が管理しているドメイン名の範囲を把握する。

ＤＮＳサーバ１８は、ネットワーク装置１６から受信したＦＱＤＮを複数のネームサーバ２０に送信する。ＦＱＤＮを受信した複数のネームサーバ２０のうち、当該ＦＱＤＮを管理しているネームサーバ２０は、自装置のゾーンファイルを参照して当該ＦＱＤＮに対応するＩＰアドレスを特定し、特定したＩＰアドレスをＤＮＳサーバ１８に送信する。そして、ＤＮＳサーバ１８は、ネームサーバ２０から受信したＩＰアドレス（すなわち接続先ホスト１４のＩＰアドレス）、及び、当該ＦＱＤＮを管理している（すなわち当該ＩＰアドレスをＤＮＳサーバ１８に送信した）ネームサーバ２０のＩＰアドレスをネットワーク装置１６に送信する。

なお、ＤＮＳサーバ１８と、少なくとも一部のネームサーバ２０とが一体となっていてもよい。その場合、ＤＮＳサーバ１８自体が、ある範囲のドメイン名を管理することになり、すなわち、ある範囲のドメイン名の情報を含むゾーンファイルをＤＮＳサーバ１８が有することになる。

ネットワーク装置１６は、接続先ホスト１４のＩＰアドレスをＤＮＳサーバ１８から受信すると、当該ＩＰアドレスに基づいて接続先ホスト１４にアクセスする。換言すれば、接続先ホスト１４への通信要求、あるいは、データの送信要求を送信する。ネットワーク装置１６からアクセスを受けた接続先ホスト１４は、当該アクセスに応じて所定のデータ（例えばウェブページデータ）をネットワーク装置１６に送信する。

ネットワーク装置１６は、接続先ホスト１４から受信したデータ（例えばパケット）が不正データであるか否かをファイアウォールあるいはＩＰＳなどによって判定する。当該データが不正データでないと判定した場合、ネットワーク装置１６は当該データを接続元端末１２に送信する。これにより、接続元端末１２と接続先ホスト１４との間の通信が許可される。一方、当該データが不正データであると判定した場合、ネットワーク装置１６は当該データを遮断し、すなわち、接続元端末１２と接続先ホスト１４との間の通信を禁止し、接続先ホスト１４との間の通信が禁止されたことを接続元端末１２に通知する。

当該判定の結果が通信ログ１６ａとしてネットワーク装置１６のメモリに記憶される。接続先ホスト１４からのデータが不正データであるか否かに関わらず、接続元端末１２と接続先ホスト１４との間における通信が行われる度に、上記判定の結果が通信ログ１６ａとして蓄積記憶されていく。通信ログ１６ａには、これに限られるものではないが、例えば、判定時刻（通信時刻）、接続元端末１２のＩＰアドレス、接続先ホスト１４のＦＱＤＮ及びＩＰアドレス、当該ＦＱＤＮを管理するネームサーバ２０の名前（ネームサーバ名）及びＩＰアドレス、並びに、当該接続先ホスト１４の脅威の有無（不正データの検出有無）が含まれ、これらが互いに関連付けられている。また、接続先ホスト１４から受信したデータが不正データであるとネットワーク装置１６が判定した場合、当該通信に対応する通信ログ１６ａには、さらに、不正データと判定した理由（例えばマルウェア検出など）や、検出したコンピュータウィルスの名称などが含まれる。

所有者情報サーバ２２は、複数の接続先ホスト１４のドメイン名又はＩＰアドレスの所有者などを示す所有者情報を保持している装置である。所望のドメイン名又はＩＰアドレスをクエリとして所有者情報サーバ２２に送信することで、誰でも、当該クエリに係るドメイン名又はＩＰアドレスの所有者に関する所有者情報を取得することができる。所有者情報サーバ２２が提供するサービスは、Whoisと呼ばれる。

所有者情報サーバ２２は、所有者情報として、ドメイン名又はＩＰアドレスの所有者の名前のみならず、当該ＩＰアドレスの保有国、及び、当該ＩＰアドレスのネットワーク名を示す情報を保持している。ネットワーク名とは、地域インターネットレジストリ（ＩＰアドレスの管理を行う組織）が所有者に対してＩＰアドレスを付与する際に、当該ＩＰアドレスに付与されるユニークな（すなわち一意に識別可能な）識別子である。所有者が複数のＩＰアドレスを所望した場合は、当該複数のＩＰアドレスには同一の（ただし当該複数のＩＰアドレス以外のＩＰアドレスに対してはユニークである）ネットワーク名が付される。

セキュリティサーバ２４は、サーバコンピュータなどから構成される。セキュリティサーバ２４は、接続元端末１２において指定されたＵＲＬが示す接続先ホスト１４の脅威の有無を判定する。特に、セキュリティサーバ２４は、接続元端末１２にとって未知の接続先ホスト１４の脅威の有無を判定する。ここで、接続元端末１２にとって未知の接続先ホスト１４とは、接続元端末１２が過去にアクセスしたことがなく、ネットワーク装置１６が当該接続先ホスト１４から送られてきたデータが不正データであるか否かを過去に判定したことがない接続先ホスト１４を意味する。

図２は、セキュリティサーバ２４の構成概略図である。以下、図２を参照しながら、セキュリティサーバ２４の各部について説明する。

通信インターフェース３０は、例えばネットワークアダプタなどを含んで構成される。通信インターフェース３０は、通信回線２６を介して他の装置（例えばネットワーク装置１６など）と通信する機能を発揮する。

メモリ３２は、例えばハードディスク、ＳＳＤ（Solid State Drive）、ＲＯＭ、あるいはＲＡＭなどを含んで構成されている。メモリ３２は、後述のプロセッサ３６とは別に設けられてもよいし、少なくとも一部がプロセッサ３６の内部に設けられていてもよい。メモリ３２には、セキュリティサーバ２４の各部を動作させるための情報処理プログラムが記憶される。また、図２に示す通り、メモリ３２には学習器３４が記憶される。

学習器３４は、例えばディープニューラルネットワークなどのモデルによって構成される。学習器３４の詳細については、後述の学習処理部３８の処理と共に後述する。なお、学習器３４の実体は、学習器３４の構造を定義するプログラム、学習器３４に関する各種パラメータ、及び、入力データに対して処理を行うための処理実行プログラムなどである。したがって、メモリ３２に学習器３４が記憶されるとは、上記プログラムや各種パラメータがメモリ３２に記憶されることを意味する。

プロセッサ３６は、広義的な処理装置を指し、汎用的な処理装置（例えばＣＰＵ（Central Processing Unit）など）、及び、専用の処理装置（例えばＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、あるいは、プログラマブル論理デバイスなど）の少なくとも１つを含んで構成される。プロセッサ３６としては、１つの処理装置によるものではなく、物理的に離れた位置に存在する複数の処理装置の協働により構成されるものであってもよい。図２に示す通り、プロセッサ３６は、メモリ３２に記憶された情報処理プログラムにより、学習処理部３８、接続先判定部４０、及び通知処理部４２としての機能を発揮する。

学習処理部３８は、ネットワーク装置１６から受信した通信ログ１６ａに基づくデータを学習データとして用いて、学習器３４を学習させる学習処理を行う。詳しくは、学習処理部３８は、少なくとも接続先ホスト１４（過去に接続元端末１２がアクセスした接続先ホスト１４）を示すドメイン名（本実施形態ではＦＱＤＮ）及び当該接続先ホスト１４の脅威の有無を学習データとして用いて学習器３４の学習処理を行う。

図３に、本実施形態における学習処理部３８による学習器３４の学習処理の概念図が示されている。本実施形態では、学習処理部３８は、接続先ホスト１４を示すドメイン名及びＩＰアドレス、当該ドメイン名を管理するネームサーバ２０を示す情報、並びに、当該接続先ホスト１４の脅威の有無を学習データとする。具体的には、学習処理部３８は、接続先ホスト１４を示すＦＱＤＮ及びＩＰアドレスと、当該ＦＱＤＮを管理するネームサーバ２０を示す情報とを学習器３４に入力し、学習器３４に当該接続先ホスト１４の脅威の有無の予測を出力させ、出力された当該接続先ホスト１４の脅威の有無の予測と、教師データである当該接続先ホスト１４の脅威の有無（実績）との差分に基づいて、学習器３４を学習させる。

学習処理部３８が上述の学習処理を繰り返すことで、学習済みの学習器３４は、接続先ホスト１４のドメイン名及びＩＰアドレス、並びに当該ドメイン名を管理するネームサーバ２０を示す情報を入力として、当該接続先ホスト１４の脅威の有無を精度良く出力することができるようになる。

ここで、接続先ホスト１４の脅威の有無を出力させるように学習器３４を学習させるに当たり、接続先ホスト１４を特定するための情報として、接続先ホスト１４のＩＰアドレスのみを学習データとして用いることも考えられる。しかしながら、接続先ホスト１４をＩＰアドレスのみで特定する場合、接続先ホスト１４が、１つのＩＰアドレスに複数のドメイン名が割り当てられる名前ベースバーチャルホストである場合、ＩＰアドレスのみでは接続先ホスト１４を一意に特定できなくなってしまう。また、同じＩＰアドレスでも所有者が変わることで、当該ＩＰアドレスが示す接続先ホスト１４の脅威の有無が変わる場合も考えられる。これらの理由により、学習処理部３８は、接続先ホスト１４を特定するための情報として接続先ホスト１４のドメイン名を学習データに含めている。

ＤＧＡ（Domain Generation Algorithm）を利用して接続元端末１２への不正アクセスを試みる接続先ホスト１４の存在が想定できる。ＤＧＡは、ドメイン名を自動生成するアルゴリズムである。脅威の有る接続先ホスト１４は、ＤＧＡを利用することで、接続元端末１２への不正アクセスを試みる度に自己のドメイン名を変更することが可能となる。しかしながら、本実施形態においては、蓄積された通信ログ１６ａに基づいて、膨大な数の学習データ（接続先ホスト１４のドメイン名含む）を用いて学習器３４を学習可能であり、すなわち、ＤＧＡによって生成された種々のドメイン名を含む膨大な数の学習データを用いて学習器３４を学習可能である。したがって、学習処理によって、学習器３４がＤＧＡによるドメイン名の自動生成の特性（換言すればＤＧＡによって自動生成されたドメイン名の特徴）も学習することが期待され、学習済みの学習器３４が、入力されたドメイン名がＤＧＡにより生成されたものであるか否かを判定可能となることが期待される。これにより、学習済みの学習器３４は、入力されたドメイン名がＤＧＡによって生成されたものであるか否かにも基づいて、当該接続先ホスト１４の脅威の有無を出力可能となり得る。

一方、本実施形態においては、学習データに含まれる接続先ホスト１４を特定するための情報として、接続先ホスト１４のＩＰアドレスも学習データとして用いられている。例えば脅威の有る接続先ホスト１４が上述のＤＧＡを利用している場合、当該接続先ホスト１４のドメイン名が変更されるが、そのＩＰアドレスは変更されないならば、学習器３４は、当該ＩＰアドレスによって脅威のある接続先ホスト１４を特定した上で学習することができる。すなわち、接続先ホスト１４のＩＰアドレスを学習データに含めることで、ＤＧＡによってドメイン名が偽装されても、適切に接続先ホスト１４を特定した上で学習することができる。

また、接続先ホスト１４が名前ベースバーチャルホストである場合、上述のように、１つのＩＰアドレスには複数の接続先ホスト１４が割り当てられる。しかしながら、接続先ホスト１４のＩＰアドレスと、当該接続先ホスト１４のドメイン名を管理するネームサーバ２０を示す情報との組み合わせによって、接続先ホスト１４を一意に特定し得る。なぜならば、同一ＩＰアドレスに割り当てられた複数の接続先ホスト１４（名前ベースバーチャルホスト）は、互いにドメイン名が異なることから、各接続先ホスト１４の各ドメイン名を管理するネームサーバ２０が互いに異なる場合が多い。したがって、接続先ホスト１４のＩＰアドレスと、当該接続先ホスト１４のドメイン名を管理するネームサーバを示す情報との組み合わせによって、接続先ホスト１４を一意に特定することができる。

なお、１つのネームサーバ２０に複数のＩＰアドレスが割り当てられている場合があることから、本実施形態では、学習データのバリエーションを増やす観点から、ネームサーバを示す情報としてネームサーバ２０のＩＰアドレスを用いている。しかしながら、学習データのバリエーションが豊富である場合には、ネームサーバ２０を示す情報としてネームサーバ名を用いるようにしてもよい。

さらに、脅威が有る接続先ホスト１４のＩＰアドレスに近いＩＰアドレスが示す他の接続先ホスト１４も脅威が有る場合が多い。特に、脅威が有る接続先ホスト１４と同一のネットワークに属している他の接続先ホスト１４も脅威が有る場合が多く、その場合、当該両接続先ホスト１４のＩＰアドレスのネットワークを示す部分（ＩＰｖ４ならネットワークアドレス）は同一であり、ホストを示す部分（ＩＰｖ４ならホストアドレス）のみが異なることになる。例えば、「ｘｘｘ．ｙｙｙ．ｚｚｚ．０」と「ｘｘｘ．ｙｙｙ．ｚｚｚ．１」の如くである。このように、接続先ホスト１４のＩＰアドレスによれば、学習器３４は、脅威がある接続先ホスト１４のＩＰアドレスとの関係に基づいて、入力されたＩＰアドレスの脅威の有無を予測することが可能となる。具体的には、脅威がある接続先ホスト１４のＩＰアドレスに近いＩＰアドレスが示す他の接続先ホスト１４は脅威がある場合が多いと予測することが可能となる。一方、接続先ホスト１４のドメイン名については、１文字異なれば全く関連しない接続先ホスト１４を示す場合があり、このような予測は困難である。

上述のように、接続先ホスト１４を特定する情報として、接続先ホスト１４のドメイン名を用いる場合とＩＰアドレスを用いた場合とでは、学習器３４の学習処理において一長一短の特徴を有している。したがって、本実施形態においては、接続先ホスト１４を特定する情報として、接続先ホスト１４のドメイン名とＩＰアドレスの両方を用いることで、より学習処理の学習効率を向上させると共に、学習済みの学習器３４の予測精度をより向上させることを可能としている。

また、学習処理部３８は、さらに、接続先ホスト１４のＩＰアドレスの保有国を示す情報を含む学習データを用いて学習器３４を学習させてもよい。具体的には、学習処理部３８は、所有者情報サーバ２２に対して、通信ログ１６ａに含まれる接続先ホスト１４のＦＱＤＮをクエリとして送信することで、接続先ホスト１４のＩＰアドレスの保有国を取得し、当該保有国を示す情報を学習データに含める。接続先ホスト１４のＩＰアドレスの保有国毎に、脅威が有る接続先ホスト１４の数に差異があるならば、学習器３４は、接続先ホスト１４のＩＰアドレスの保有国に基づいて、当該接続先ホスト１４の脅威の有無を予測することができるようになる。

また、学習処理部３８は、さらに、接続先ホスト１４のＩＰアドレスのネットワーク名を含む学習データを用いて学習器３４を学習させてもよい。具体的には、学習処理部３８は、所有者情報サーバ２２に対して、通信ログ１６ａに含まれる接続先ホスト１４のＦＱＤＮをクエリとして送信することで、接続先ホスト１４のＩＰアドレスのネットワーク名を取得し、当該ネットワーク名を学習データに含める。悪意のある者が、地域インターネットレジストリに対して複数のＩＰアドレスを申請した場合、当該複数のＩＰアドレスには同一のネットワーク名が付与されることとなる。そして、同一のネットワーク名が付された当該複数のＩＰアドレスが示す複数の接続先ホスト１４は、当該悪意のある者が管理するものとなり、いずれも脅威の有るものとなる場合が多いと言える。したがって、学習器３４は、接続先ホスト１４のＩＰアドレスのネットワーク名に基づいて、当該接続先ホスト１４の脅威の有無を予測することができるようになる。具体的には、既に脅威が有ると判定された接続先ホスト１４のＩＰアドレスと同一のネットワーク名が付されたＩＰアドレスが示す他の接続先ホスト１４の脅威の有る可能性をより高く予測することができる。

学習処理部３８は、上述の学習データを学習器３４に入力するに先立って、学習データに対して前処理を施す。例えば、学習処理部３８は、前処理として、各学習データを辞書化する辞書化処理を行う。学習器３４は、学習データとして数字のみを認識可能となっているので、辞書化処理によって、文字で表される学習データを数値に変換する（辞書化する）。なお、接続先ホスト１４及びネームサーバ２０の各ＩＰアドレスにおいては、各オクテットが複数の数字で構成される場合がある（例えば「１０１．ｘｘｘ．・・・」など）ところ、各オクテットの個々の数字、例えば「１」、「０」、「１」などに意味があるのではなく、オクテット毎に区別された数字、例えば「１０１」に意味があるため、辞書化処理においては、１つのオクテット内において複数の数字をまとめ、まとめられた数字（例えば「１０１」）が１つの数値に変換される。

また、ＦＱＤＮの辞書化処理においては、ＦＱＤＮに含まれる特定の文字列を辞書化する場合、特定の文字列が特定の位置にある場合と、そうでない場合とで異なる数値に変換するようにしてもよい。例えば、ＦＱＤＮの末尾に付される「．ｃｏｍ」という文字列は商業組織用のドメインを表す意味を有しており、その他の位置（例えばＦＱＤＮの中程）にある「．ｃｏｍ」とは異なる意味を有している。したがって、学習処理部３８は、ＦＱＤＮの末尾に付される特定の文字列（例えば「．ｃｏｍ」）と、その他の位置にある当該特定の文字列に対して異なる数値に変換して学習器３４に入力することで、その意味の差を学習器３４に把握させる。

また、各ＩＰアドレスの各オクテットは、一般的に１０進数で表現されているところ、学習処理部３８は、前処理として、当該ＩＰアドレスの各オクテットをＮ進数表現（Ｎは任意）に変換するようにしてもよい。特に、学習処理部３８は、各ＩＰアドレスのホストを表す部分（ＩＰｖ４ならホストアドレス）をＮ進数表現に変換する。本実施形態では、学習処理部３８は、各ＩＰアドレスのホストを表す部分を８進数表現に変換する。例えば、ある接続先ホスト１４のＩＰアドレスのホストアドレスが「１０４（１０進数）」である場合、これを８進数表現にすると「１５０」となり、ホストアドレスが「１０５（１０進数）」である場合、これを８進数表現にすると「１５１」となる。

そして、学習処理部３８は、Ｎ進数表現されたオクテットを複数の部分に区分けし、各部分を上述の辞書化処理によって数値化する。本実施形態では、８進数表現されたオクテットを１０で割った商と余りをそれぞれ数値に変換する。これは、８進数表現されたオクテットの下位１桁とその上位の桁とに分けて、それぞれ数値に変換することになる。例えば、８進数表現の「１５０」及び「１５１」を例に取ると、それぞれの下位１桁の数字「０」、「１」を例えば数値「１」、「２」に変換し、その上位の桁の数字「１５」を例えば数値「３」に変換する。そうすると、８進数表現の「１５０」は「３１」に変換され、８進数表現の「１５１」は「３２」に変換される。

１０進数の２つのホストアドレス「１０４」と「１０５」をそれぞれ数値化した場合、そのアドレスの近さが変換後の数値に表されない場合があるところ、本実施形態のように、Ｎ進数表現したオクテットを複数の部分に区分けし各部分を数値に変換することで、変換後の数値により、ＩＰアドレスの近さ（近似性）を表現することができる。具体的には、８進数表現において共通する部分「１５」が同一の数値に変換されるから、当該共通部分に基づいて、学習器３４が両ＩＰアドレスの近似性を把握することができる。このように近似性が表現された接続先ホスト１４のＩＰアドレスを学習器３４に入力することで、学習器３４は、互いに近似するＩＰアドレスをより考慮して学習することが可能となる。

さらに、学習処理部３８は、前処理として、ＦＱＤＮに含まれる特定の文字列を学習データから除外する処理を実行する。例えば、ＦＱＤＮに含まれる「ｗｗｗ」という文字列は、脅威の有無に関わらず、多数の接続先ホスト１４のＦＱＤＮに含まれる文字列である。学習器３４を学習させるにあたり、このような文字列を考慮しても学習処理にあまり寄与しないばかりか、かえって学習効率が低下するおそれもある。したがって、前処理において、ＦＱＤＮから「ｗｗｗ」のような特定の文字列は除外される。このように、学習器３４に入力されるドメイン名とは、ＦＱＤＮの全てではなく、ＦＱＤＮの一部であってもよい。

また、学習処理部３８は、上述の学習データを用いて学習器３４の学習処理を行うにあたり、接続先ホスト１４のＦＱＤＮにおけるラベル（「．（ピリオド）」で区切られた部分の文字列）の位置、及び、ラベルの前又は後に位置する他のラベルの少なくとも一つを考慮しつつ、学習器３４を学習させるようにしてもよい。

具体的には、学習処理部３８は、学習処理時において、ラベルと、ＦＱＤＮにおける特定の位置との組み合わせを条件として学習器３４に与える。本実施形態では、学習処理部３８は、さらに、ラベル、ＦＱＤＮにおける特定の位置、当該ラベルの前後にある他のラベルとの組み合わせを条件として学習器３４に与える。

例えば、ラベルとして「fujixerox」、特定の位置として「左から２番目及び右から３番目」、当該ラベルの前のラベルとして「www」、当該ラベルの後のラベルとして「co」が条件として規定されている場合であって、脅威が無いという教師データと共に、ＦＱＤＮ「www.fujixerox.co.jp」が学習データとして学習器３４に入力された場合を考える。この場合、当該ＦＱＤＮは上記条件に合致し、且つ、当該ＦＱＤＮは脅威が無いことから、学習器３４は上記条件に合致する場合には、脅威が無い可能性が高くなるように学習することができる。一方、上記の条件が規定されている場合であって、脅威が有るという教師データと共に、ＦＱＤＮ「www.fujixerox.net.xxx.yyy.org」が学習データとして学習器３４に入力された場合を考える。この場合、当該ＦＱＤＮは上記条件に合致せず、且つ、当該ＦＱＤＮは脅威が有ることから、学習器３４は上記条件に合致しない場合には、脅威が有る可能性が高くなるように学習することができる。

また、接続先ホスト１４のＦＱＤＮにおけるラベルの位置、及び、当該ラベルの前又は後に位置する他のラベルの少なくとも一つを考慮しつつ学習器３４を学習させるための方法として、学習処理部３８は、上述の辞書化処理において、ラベルの位置、及び、当該ラベルの前又は後に位置する他のラベルの少なくとも一つに応じて、同一のラベルを異なる数値に変換するようにしてもよい。例えば、上述のＦＱＤＮ「www.fujixerox.co.jp」における「fujixerox」と、ＦＱＤＮ「www.fujixerox.net.xxx.yyy.org」における「fujixerox」とを互いに異なる数値に変換するようにしてもよい。

上記例では、ラベル「fujixerox」について見たが、学習処理部３８は、その他のラベル（例えば、「www」、「co」、「jp」）に関する条件を学習器３４に与えてもよい。

学習器３４が十分に学習されると、セキュリティサーバ２４において、未知の接続先ホスト１４の脅威の有無を判定する準備が完了する。

接続元端末１２が新たに接続先ホスト１４との通信を開始する場合、当該接続先ホスト１４のＵＲＬが接続元端末１２からネットワーク装置１６に送信される。当該接続先ホスト１４は、接続元端末１２が過去にアクセスしたことない未知の接続先ホスト１４であってよい。ネットワーク装置１６は、当該ＵＲＬに基づいて、上述の処理によって、接続先ホスト１４の新規のドメイン名及びＩＰアドレス、並びに、当該新規のドメイン名を管理するネームサーバ２０を示す情報を取得し、セキュリティサーバ２４に送信する。

セキュリティサーバ２４の接続先判定部４０は、ネットワーク装置１６が接続先ホスト１４にアクセスするに先立って、ネットワーク装置１６から送信されてくる、接続先ホスト１４を示す新規のドメイン名及びＩＰアドレス、並びに当該新規のドメイン名を管理するネームサーバ２０を示す情報を学習済みの学習器３４に入力し、学習器３４の出力に基づいて、当該接続先ホスト１４の脅威の有無を判定する。接続先判定部４０は、学習処理部３８と同様に、上述の各入力データに対して辞書化処理を行った上で、各入力データを学習器３４に入力する。

また、接続先ホスト１４のＩＰアドレスの保有国を含む学習データを用いて学習器３４が学習されている場合、接続先判定部４０は、所有者情報サーバ２２から取得した、新規のＩＰアドレスの保有国を示す情報をさらに学習器３４に入力する。また、接続先ホスト１４のＩＰアドレスのネットワーク名を含む学習データを用いて学習器３４が学習されている場合、接続先判定部４０は、所有者情報サーバ２２から取得した、新規のＩＰアドレスのネットワーク名をさらに学習器３４に入力する。

さらに、接続先ホスト１４のＩＰアドレスがＮ進数表現され、Ｎ進数表現したオクテットを複数の部分に区分けされ、各部分がそれぞれ数値に変換された接続先ホスト１４のＩＰアドレスを含む学習データを用いて学習器３４が学習されている場合、接続先判定部４０は、所有者情報サーバ２２から取得した新規のＩＰアドレスをＮ進数表現し、Ｎ進数表現したオクテットを複数の部分に区分けし、各部分をそれぞれ数値に変換した（辞書化した）新規のＩＰアドレスを学習器３４に入力する。

学習済みの学習器３４を用いて接続先ホスト１４の脅威の有無を判定することで、未知の接続先ホスト１４の脅威の有無をも判定することができる。しかも、上述のように、学習器３４の学習に用いる学習データの選別、学習データに対する前処理、あるいは、学習処理時における条件の付与などを行うことによって、学習器３４の判定精度が高められるから、本実施形態によれば、未知の接続先ホスト１４の脅威の有無を高精度に判定することができる。

接続先判定部４０は、接続先ホスト１４に脅威が無いと判定した場合には、ネットワーク装置１６に対して、当該接続先ホスト１４へのアクセスを許可し、すなわち、接続元端末１２と当該接続先ホスト１４との間の通信を許可する。一方、接続先判定部４０は、接続先ホスト１４に脅威が有ると判定した場合には、ネットワーク装置１６に対して、当該接続先ホスト１４へのアクセスを禁止し、すなわち、接続元端末１２と当該接続先ホスト１４との間の通信を禁止する。

通知処理部４２は、接続先判定部４０は、接続先ホスト１４に脅威が有ると判定した場合には、ネットワーク装置１６を介して、接続元端末１２に対して、当該接続先ホスト１４との間の通信が禁止されたこと、すなわち、接続先ホスト１４に脅威があることを通知する。

以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。

例えば、本実施形態では、学習器３４はセキュリティサーバ２４の学習処理部３８により学習されていたが、学習器３４は別の装置において学習され、学習済みの学習器３４がメモリ３２に記憶されてもよい。

１０ネットワークシステム、１２接続元端末、１４接続先ホスト、１６ネットワーク装置、１６ａ通信ログ、１８ＤＮＳサーバ、２０ネームサーバ、２２所有者情報サーバ、２４セキュリティサーバ、２６通信回線、３０通信インターフェース、３２メモリ、３４学習器、３６プロセッサ、３８学習処理部、４０接続先判定部、４２通知処理部。

Claims

プロセッサを備え、
前記プロセッサは、
接続先ホストを示すドメイン名及びＩＰアドレス、当該ドメイン名を管理するネームサーバを示す情報、並びに、当該接続先ホストの脅威の有無を学習データとし、ドメイン名、ＩＰアドレス、及び、当該ドメイン名を管理するネームサーバを示す情報が入力されたときに、当該ドメイン名及び当該ＩＰアドレスが示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名及びＩＰアドレス、並びに当該新規のドメイン名を管理するネームサーバを示す情報を入力することで、当該新規のドメイン名及びＩＰアドレスが示す接続先ホストの脅威の有無を判定する、
ことを特徴とする情報処理装置。
前記学習器は、さらに、前記接続先ホストのＩＰアドレスの保有国を示す情報を含む前記学習データを用いて学習され、
前記プロセッサは、さらに、新規のＩＰアドレスの保有国を示す情報を前記学習器に入力する、
ことを特徴とする請求項１に記載の情報処理装置。
前記学習器は、さらに、前記接続先ホストのＩＰアドレスのネットワーク名を含む前記学習データを用いて学習され、
前記プロセッサは、さらに、新規のＩＰアドレスのネットワーク名を前記学習器に入力する、
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記学習器は、前記接続先ホストのＩＰアドレスのホストを表す部分がＮ進数表現（Ｎは任意）に変換され、当該Ｎ進数表現が複数の部分に区分けされ、各部分が辞書化された前記接続先ホストのＩＰアドレスを含む前記学習データを用いて学習され、
前記プロセッサは、前記新規のＩＰアドレスのホストを表す部分をＮ進数表現に変換し、当該Ｎ進数表現を複数の部分に区分けし、各部分を辞書化した前記新規のＩＰアドレスを学習済みの前記学習器に入力させる、
ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
プロセッサを備え、
前記プロセッサは、
接続先ホストを示すドメイン名、及び、当該接続先ホストの脅威の有無を学習データとし、前記ドメイン名におけるラベルの位置、及び、前記ラベルの前又は後に位置する他のラベルの少なくとも一つを考慮しつつドメイン名が入力されたときに当該ドメイン名が示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名を入力することで、新規のドメイン名が示す接続先ホストの脅威の有無を判定する、
ことを特徴とする情報処理装置。
コンピュータに、
接続先ホストを示すドメイン名及びＩＰアドレス、当該ドメイン名を管理するネームサーバを示す情報、並びに、当該接続先ホストの脅威の有無を学習データとし、ドメイン名、ＩＰアドレス、及び、当該ドメイン名を管理するネームサーバを示す情報が入力されたときに、当該ドメイン名及び当該ＩＰアドレスが示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名及びＩＰアドレス、並びに当該新規のドメイン名を管理するネームサーバを示す情報を入力させることで、当該新規のドメイン名及びＩＰアドレスが示す接続先ホストの脅威の有無を判定させる、
ことを特徴とする情報処理プログラム。
コンピュータに、
接続先ホストを示すドメイン名、及び、当該接続先ホストの脅威の有無を学習データとし、前記ドメイン名におけるラベルの位置、及び、前記ラベルの前又は後に位置する他のラベルの少なくとも一つを考慮しつつドメイン名が入力されたときに当該ドメイン名が示す接続先ホストの脅威の有無を出力するように学習された学習器に、新規のドメイン名を入力することで、新規のドメイン名が示す接続先ホストの脅威の有無を判定させる、
ことを特徴とする情報処理プログラム。