JP6947307B2

JP6947307B2 - 解析装置、解析方法及び解析プログラム

Info

Publication number: JP6947307B2
Application number: JP2020532170A
Authority: JP
Inventors: 大紀千葉; 満昭秋山
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Current assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Priority date: 2018-07-25
Filing date: 2019-04-26
Publication date: 2021-10-13
Anticipated expiration: 2039-04-26
Also published as: US11843633B2; US20210279497A1; EP3809299B1; WO2020021811A1; EP3809299A1; JPWO2020021811A1; EP3809299A4

Description

本発明は、解析装置、解析方法及び解析プログラムに関する。

現在、ドメイン名は、Ｗｅｂサイトやメールアドレスの一部として世界中で広く使用されている。元々、ドメイン名とは、ＩＰ（Internet Protocol）アドレスの代わりに人間が理解しやすい文字列に変換するために導入されたものであり、一般にサービス名が含まれることが多い。

サイバー攻撃を行う攻撃者は、このようなドメイン名の性質を悪用し、正規のサービスで利用されているドメイン名に類似したドメイン名を用いて攻撃を行う。このような正規のサービスを狙う悪性なドメイン名には、大きく分けて２種類存在する。

一つは、人間のタイプミスを狙ったタイポスクワッティングと呼ばれる攻撃である。これは、正規サイトのドメイン名に対し、キーボードの配列上で距離的に近い文字を置換、挿入することによって、類似するドメイン名を作成する攻撃である。

もう一つは、人間の視覚における判断ミスを狙ったホモグラフ攻撃と呼ばれる攻撃である。これは、正規サイトのドメイン名の一部を視覚的に類似する文字に置換することによって、類似ドメイン名を生成する攻撃である。

このホモグラフ攻撃において生成されたドメイン名をホモグラフドメイン名と呼ぶ。ＩＤＮ（Internationalized Domain Name）の導入以後、ドメイン名には、Ｕｎｉｃｏｄｅに含まれる文字を用いることが可能となった。このため、ホモグラフ攻撃の方が、タイポスクワッティングと比して、非常に多くの正規ドメイン名と類似するドメイン名を作り出すことが可能である。また、ホモグラフ攻撃で作成された国際化ドメイン名（ホモグラフＩＤＮ）が、実際にフィッシング攻撃に代表されるサイバー攻撃で利用され、大きな脅威となっている。

dnstwist、［online］、［平成３０年６月１９日検索］、インターネット＜ＵＲＬ：https://github.com/elceef/dnstwist/＞

ホモグラフＩＤＮの検知手法として、事前に作成した、視覚的に近い文字の組み合わせを変換表として利用する手法がある。この変換表には、非ＡＳＣＩＩ文字と、それに類似するＡＳＣＩＩ文字との組が登録されている。変換表として利用する手法では、この変換表の情報を基に、対象のドメイン名中の非ＡＳＣＩＩ文字をＡＳＣＩＩ文字に変換する。そして、変換表として利用する手法では、変換後のドメイン名が、正規サイトのドメイン名と一致するか否かを確認することによって、対象のドメイン名がホモグラフＩＤＮであるか否かを判別する。

具体的には、非特許文献１に記載のソフトウェアは、ドメイン名の類似性を利用した攻撃で用いられる悪性ドメイン名の探索に用いられ、このソフトウェア内部には、ＡＳＣＩＩ文字とそれに対して視覚的に類似する文字列との変換表が事前に定義されている。

この変換表を逆に利用し、対象のドメイン名に含まれる非ＡＳＣＩＩ文字列をＡＳＣＩＩ文字列に変換することによって、正規サイトのドメイン名と一致する否かを判別することができる。

しかしながら、非特許文献１に記載の変換表を利用する手法では、予め定義される変換表に登録されていない文字については、変換することができない。また、非特許文献１に記載の変換表を利用する手法では、Ｕｎｉｃｏｄｅ文字の追加やドメイン名で利用可能な文字の追加に伴い、類似の文字の組み合わせを網羅的に特定して、変換表を手動で更新する必要がある。

本発明は、上記に鑑みてなされたものであって、予め変換表を用意することなく、解析対象の通信先情報に視覚的に類似する通信先情報を、自動的に生成することができる解析装置、解析方法及び解析プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る解析装置は、解析対象の通信先情報の入力を受け付ける入力部と、通信先情報に含まれる部分文字列を画像に変換する変換部と、変換部によって変換された画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、通信先情報に視覚的に類似する既知の通信先情報を探索する探索部と、通信先情報と、通信先情報に視覚的に類似する既知の通信先情報との組み合わせを出力する出力部と、を有することを特徴とする。

本発明によれば、予め変換表を用意することなく、解析対象の通信先情報に視覚的に類似する通信先情報を、自動的に生成することができる。

図１は、実施の形態に係る解析装置の概略構成を示す模式図である。図２は、図１に示す入力部に入力される通信先情報の一例を示す図である。図３は、解析対象の通信先情報と、解析対象の通信先情報に含まれる部分文字列から変換された画像との対応表の一例を示す図である。図４Ａは、図１に示す変換部による前処理の処理内容を説明する図である。図４Ｂは、図１に示す変換部による前処理の処理内容を説明する図である。図５は、図１に示す探索部によって抽出された、部分文字列の変換画像に視覚的に類似する文字列の一例を示す図である。図６は、図１に示す探索部が抽出する変換表の一例を示す図である。図７は、既知通信先リストを例示する図である。図８は、図１に示す探索部による探索結果の一例を示す図である。図９は、解析対象の通信先情報に対応する設定情報の一例を示す図である。図１０は、解析対象の通信先情報に対応する登録情報の一例を示す図である。図１１は、図１に示す識別部による識別結果を示す図である。図１２は、実施の形態に係る解析処理の処理手順を示すフローチャートである。図１３は、プログラムが実行されることにより、解析装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
まず、実施の形態に係る解析装置について、概略構成、評価処理の流れ及び具体例を説明する。図１は、実施の形態に係る解析装置の概略構成を示す模式図である。実施の形態に係る解析装置１０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、解析装置１０は、ＮＩＣ（Network Interface Card）等を有し、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

解析装置１０は、図１に示すように、入力部１１、変換部１２、探索部１３、識別部１４及び出力部１５を有する。

入力部１１は、解析対象の通信先情報の入力を受け付ける。例えば、通信先情報は、ドメイン名やＵＲＬ（Uniform Resource Locator）を示す情報である。

変換部１２は、解析対象の通信先情報に含まれる部分文字列を画像に変換する。変換部１２は、解析対象の通信先情報から、登録可能或いは指定可能である領域を特定する。そして、変換部１２は、特定した領域の部分文字列を任意の区切り文字或いは任意の文字数で分割し、分割した文字列をそれぞれ画像に変換する。

探索部１３は、変換部１２によって変換された画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、解析対象の通信先情報に視覚的に類似する既知の通信先情報を探索する。

探索部１３は、変換部１２が変換した画像に対して光学文字認識などの画像認識技術を適用して、分割した文字または文字列の画像に視覚的に類似する文字列を求める。探索部１３は、解析対象の通信先情報に含まれる部分文字列と、この部分文字列が変換された画像に視覚的に類似する文字列との組み合わせを変換表として抽出する。探索部１３は、変換表と既知の通信先情報の一覧とを参照し、解析対象の通信先情報に視覚的に類似する通信先情報を、既知の通信先情報一覧から探索する。

識別部１４は、解析対象の通信先情報に視覚的に類似する既知の通信先情報の設定情報または登録情報を取得し、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、解析対象の通信先情報と同一の管理者によって管理されているか、または、解析対象の通信先情報の管理者とは異なる第三者によって管理されているかを識別する。

出力部１５は、解析対象の通信先情報と、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせを出力する。出力部１５は、解析対象の通信先情報と、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせに、識別部１４による識別結果を付して出力する。

このように、解析装置１０は、解析対象の通信先情報に含まれる部分文字列を画像に変換し、画像認識技術による文字列抽出を行うことによって、予め変換表を用意することなく、解析対象の通信先情報に視覚的に類似する通信先情報を自動的に生成することができる。続いて、解析装置１０の各構成要素の処理について具体的に説明する。

［入力部］
まず、入力部１１に入力される解析対象の通信先情報の一例について説明する。図２は、図１に示す入力部１１に入力される通信先情報の一例を示す図である。

例えば、図１の通番「１」は、「examp1e.co.jp」（exampleという単語に含まれる英小文字の「ｌ」に対応する文字が英小文字の「エル」ではなく数字の「１」となっている）というホモグラフ攻撃で利用されるドメイン名を入力として利用することを示している。

［変換部］
次に、変換部１２の処理について説明する。変換部１２は、まず、解析対象の通信先情報から、ユーザが登録可能或いは指定可能である領域を特定する。この特定方法の一例として、ＰｕｂｌｉｃＳｕｆｆｉｘ（例えば、Public Suffix List、［online］、［平成３０年６月１９日検索］、インターネット＜ＵＲＬ：https://publicsuffix.org/list/＞参照）を参照する方法がある。

ＰｕｂｌｉｃＳｕｆｆｉｘは、ドメイン名のうち個人ユーザがコントロールできない部分の文字列のことである。ＰｕｂｌｉｃＳｕｆｆｉｘは、「.com」や「.net」のようなｇＴＬＤ（generic top level domain）や、「.co.jp」や「.co.uk」のようなｃｃＴＬＤ（country code top level domain）を含む文字列によって構成される。変換部１２は、解析対象の通信先情報のうち、ＰｕｂｌｉｃＳｕｆｆｉｘに該当する部分を除外することによって、ユーザが登録可能或いは指定可能な領域を特定する。そして、変換部１２は、このように特定した領域の部分文字列を、任意の区切り文字或いは任意の文字数で分割する。

図３は、解析対象の通信先情報と、解析対象の通信先情報に含まれる部分文字列から変換された画像との対応表の一例を示す図である。例えば、変換部１２は、図３の通番「１」の通信先情報「examp1e.co.jp」から、ＰｕｂｌｉｃＳｕｆｆｉｘ「.co.jp」を除去した部分文字列「examp1e」を画像変換の対象とする例として特定する。

次に、変換部１２による前処理について説明する。図４Ａ及び図４Ｂは、図1に示す変換部１２による前処理の処理内容を説明する図である。図４Ａ及び図４Ｂでは、「ａ」の上部に「´」が付されている対象文字に対して画像変換を実施する際の前処理を一例として説明する。

変換部１２は、ホモグラフ攻撃で利用されるドメイン名のうち、利用される文字であって、攻撃者が似せようとした文字を特定するために、光学文字認識に代表される画像認識技術を使用する。例えば、図４Ａ及び図４Ｂの対象文字（「ａ」の上部に「´」が付されている。）の場合、この対象文字を光学文字認識で読み取った際に「ａ」に変換されることを期待する。しかしながら、光学文字認識の精度が高い場合には、対象文字と「ａ」の字形が異なるため期待通りの読み取り結果にならない場合がある。

そこで、本実施の形態では、画像の一部を塗りつぶし字形を変えた画像をあえて用意することによって、読み取り結果に多様性を持たせる。以降、この画像をマスク画像とする。図４Ａ及び図４Ｂでは、ある文字にマスク画像で塗りつぶす際に用いる色に対し、黒と白の２色を用意する例を示す。なお、マスク画像は、黒と白との２色に限らない。

マスク画像が、白の場合には文字の一部を消去することによって、また、黒の場合にはノイズが加わることによって、それぞれマスクをかけない画像と比べて読み取り結果に影響を与えることが可能となる。図４Ａでは、マスク画像の配置方法として、作成した画像を２×２、４×４、８×８マスに分割し、そのうち任意の１箇所を黒のマスク画像で塗りつぶす例を示す。図４Ｂでは、マスク画像の配置方法として、作成した画像を２×２、４×４、８×８マスに分割し、そのうち任意の１箇所を白のマスク画像で塗りつぶす例を示す。なお、画像の分割方法は、これらのパターンに限定されない。また、マスク画像で塗りつぶす箇所は、１箇所に限定されるものではなく任意のＮ箇所かつ複数の色の組み合わせを指定できる。

図４Ａ及び図４Ｂの例では、最終的に、１文字に対し２種類の色（黒、白）、８４種類のマスク箇所で１６８種類のマスク画像、及び、マスクを適用しない画像の計１６９種類の文字画像が生成される。なお、図４Ｂでは、表記の都合上、白のマスクの色をドットのハッチングで表記しており、分割したマスの罫線も書き加えている。

一連のマスク処理は、後段の画像認識処理で、視覚的に近い文字列をあえて読み誤らせるために行う。例えば、マスク処理では、攻撃者が似せようとした、「ａ」の上部に「´」が付されている文字を、「ａ」と読み誤まる結果が含まれるように、様々なマスクを用意すればよい。

このように、一連のマスク処理を行うことによって、分割した文字列をそれぞれ画像に変換する際に、読み取り結果に多様性を持たせることによって、探索部１３が抽出する変換表に、画像に視覚的に類似する文字列の組み合わせを多数含ませることができる。

［探索部］
次に、探索部１３の処理について説明する。まず、探索部１３は、変換部１２が変換した画像に対して光学文字認識などの画像認識技術を適用して、これらの画像に視覚的に類似する文字列を求める。なお、視覚的に類似する文字列とは、人間が視覚を使って認知および判断を行う際に、文字の字形的な特徴や、既知または人気サービス名の文字列の特徴によって同一とみなしてしまう可能性のある文字列のことを指す。図５は、図１に示す探索部１３によって抽出された、部分文字列の変換画像に視覚的に類似する文字列の一例を示す図である。

図５において、入力通信先は、解析対象として入力された通信先情報を示す。また、部分文字列（画像）は、この解析対象の通信先情報のうち、変換部１２によって変換された部分文字列に対する画像を示す。そして、部分文字列の読取・認識結果は、探索部１３が抽出した、部分文字列の画像に視覚的に類似する文字列を示す。

探索部１３は、解析対象の通信先情報から抽出された部分文字列の画像に対し、画像認識技術を用いて読み取りを行い、部分文字列の画像に視覚的に類似する文字列文字列を認識する。探索部１３は、画像認識技術の一例として、例えば、光学文字認識技術が実装されているオープンソースソフトウェアであるＴｅｓｓｅｒａｃｔＯＣＲ（例えば、Tesseract OCR、［online］、［平成３０年６月１９日検索］、インターネット＜ＵＲＬ：https://opensource.google.com/projects/tesseract/＞参照）を利用する方がある。

例えば、図５の通番「１」を例に説明する。この場合、「examp1e」という部分文字列の画像に対し、変換部１２によって、図４Ａ及び図４Ｂにおいて説明したマスク画像を用いた前処理を実施される。そして、探索部１３からは、「１」がそのまま数字の１として認識されて「examp1e」という文字列が、結果として出力される、或いは、「１」が英小文字のエルとして認識されて「example」という文字列が、結果として出力される。

そして、探索部１３は、解析対象の通信先情報に含まれる部分文字列と、この部分文字列が変換された画像に視覚的に類似する文字列との組み合わせを変換表として抽出する。図６は、図１に示す探索部１３が抽出する変換表の一例を示す図である。図６に示すように、変換表１３１は、解析対象の通信先情報に含まれる部分文字列（元の文字または文字列）と、この部分文字列が変換された画像に視覚的に類似する文字列（類似文字または文字列）とが対応付けられている。

例えば、探索部１３は、図６の通番「１」の場合、「１（数字の１）」に対して、「ｌ（英小文字のエル）」を類似文字として対応付ける。このように、本実施の形態では、探索部１３は、解析対象の通信先情報に含まれる部分文字列と、それに視覚的に類似する文字列とを対応付けた変換表を自動的に出力する。したがって、本実施の形態によれば、探索部１３は、変換表を自動的に出力するため、予め変換表を用意せずとも、解析対象の通信先情報に視覚的に類似する通信先情報を探索することができる。

なお、画像に複数のマスクをかけた結果、解析対象の通信先情報の１つの文字列に対して、複数の視覚的に類似する文字列が出力される場合がある。この場合、変換表では、解析対象の通信先情報の一つの文字列に対して、マスクの数分、読み取った結果を対応付けられる。ただし、実際には複数のマスクの読み取り結果が同一の結果になることが多数あるため、既に変換表に存在する組み合わせについては、変換表には含めない。

以降、探索部１３による探索処理について説明する。まず、探索部１３が参照する既知の通信先情報の一覧（既知通信先リスト）について説明する。図７は、既知通信先リストを例示する図である。図７に示す既知通信先リスト１３２では、各既知の通信先情報（既知通信先）にそれぞれ通番が付されている。

既知通信先リスト１３２は、予め作成されて解析装置１０内に記憶されている。既知の通信先情報一覧の生成方法は、複数ある。例えば、解析装置１０の使用者が管理している通信先情報の一部または全部が、既知通信先リストとして生成される。或いは、世界または各国でよく参照されているＷｅｂサイトで利用されている通信先情報の一部または全部が、既知通信先リストとして生成される。

探索部１３は、変換表１３１（図６参照）と、既知通信先リスト１３２とを参照し、解析対象の通信先情報に視覚的に類似する通信先情報を、既知通信先リストから探索する。

図８は、図１に示す探索部１３による探索結果の一例を示す図である。図８に示すように、探索部１３は、解析対象の通信先情報（入力通信先）と、視覚的に類似する既知の通信先情報（既知通信先）とを対応付けて出力する。

例えば、図８の通番「１」を例に説明する。この場合、探索部１３は、入力通信先「examp1e.co.jp」に含まれる文字列「１」に対し、変換表１３１（図６参照）で合致する通番「５」に示す類似文字「ｌ（英小文字のエル）」と通番「６」に示す類似文字「１（数字の１）」とを参照して、類似通信先として「example.co.jp」と、「examp1e.co.jp」とを求める。

そして、探索部１３は、この類似通信先を、既知通信先リスト１３２（図７参照）から探索する。既知通信先リスト１３２には、この類似通信先「example.co.jp」（通番「１」参照）が含まれている。このため、探索部１３は、入力通信先「examp1e.co.jp」の類似する既知の通信先情報として、「example.co.jp」を出力する。

このように、探索部１３は、変換表に記載された部分文字列と、この部分文字列が変換された画像に視覚的に類似する文字列との組み合わせを基に、解析対象の通信先情報に視覚的に類似する通信先情報を探索し、探索した類似する通信先情報のうち、既知の通信先情報であるもののみを抽出することができる。

［識別部］
次に、識別部１４の処理について説明する。識別部１４は、解析対象の通信先情報と、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせを基に、解析対象の通信先情報に視覚的に類似する既知の通信先情報の設定情報または登録情報を取得する。

図９は、解析対象の通信先情報に対応する設定情報の一例を示す図である。図９に示すように、識別部１４は、解析対象の通信先情報のうち、例えば、ドメイン名に対応する設定情報であるＳレコード、ＮＳ（Name Server record）レコード、ＳＯＡ（Start Of Authority record）レコード等を設定情報及び管理情報として取得する。Ａ（Address）レコード、ＮＳレコード、ＳＯＡレコードは、任意の組織内ネットワークに配置されたキャッシュＤＮＳ（Domain Name System）サーバ上で、ＤＮＳプロトコルを利用して入手することができる。

例えば、図９の通番「１」の場合、解析対象の通信先情報（通信先）「examp1e.co.jp」は、ＡレコードとしてＩＰアドレス「192.0.2.2」が設定されており、ＮＳレコードとして「ns1.example.co.jp」が設定されており、ＳＯＡレコードとして「ns1.example.co.jp. nobody. localhost. 42 86400 43200 604800 10800」が設定されていることを示している。

図１０は、解析対象の通信先情報に対応する登録情報の一例を示す図である。識別部１４は、解析対象の通信先情報のうち、例えばドメイン名に対応する登録情報であるドメイン名登録者、ドメイン名登録日、ドメイン名更新日、ドメイン名失効日等は、例えばＷＨＯＩＳプロトコルを利用して入手することができる。例えば、図１０の通番「１」の場合、通信先「examp1e.co.jp」に対応するドメイン名登録者が「Example Company」であり、ドメイン名登録日が「2001年1月1日」、ドメイン名更新日が「2016年1月1日」、ドメイン名失効日が「2017年1月1日」であることを示している。

続いて、識別部１４は、取得した解析対象の通信先情報に視覚的に類似する既知の通信先情報の設定情報または登録情報を基に、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、解析対象の通信先情報と同一の管理者によって管理されているか、または、解析対象の通信先情報の管理者とは異なる第三者によって管理されているかを識別する。図１１は、図１に示す識別部１４による識別結果を示す図である。

例えば、図１１の認識結果一覧１４３通番「１」の場合、すなわち、通信先「examp1e.co.jp」に類似する既知通信先が「example.co.jp」と特定された場合について説明する。この場合、識別部１４は、図９に例示する通信先の設定情報や、図１０に例示する通信先の登録情報を参照する。この結果、入力通信先「examp1e.co.jp」と既知通信先「example.co.jp」のＡレコード、ＮＳレコード、ＳＯＡレコードが完全一致し、かつ、ドメイン名登録者が完全一致した場合には、識別部１４は、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、解析対象の通信先情報と同一の管理者によって管理されていると識別する。そして、識別部１４は、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせに、「Ｙｅｓ」を付与する。

また、識別部１４が、解析対象の通信先情報の管理者とは異なる第三者によって管理されていることを識別した場合には、解析対象の通信先情報と、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせに、「Ｎｏ」を付与する。なお、同一の管理者とみなす条件は複数考えられ、各々の通信先に対応する設定情報や登録情報の一部または全部またはその組み合わせの完全一致または部分一致の個数を使うことが考えられる。

出力部１５は、解析対象の通信先情報と、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせに、識別部１４による識別結果が付された解析結果一覧１４１を、例えば、本解析装置１０の使用者或いは外部の対処装置に出力する。この解析結果一覧１４１を用いて各種対処が実行される。

例えば、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、解析対象の通信先情報と同一の管理者によって管理されていると識別された場合であって、解析対象の通信先情報に視覚的に類似する既知の通信先情報が攻撃者に管理されている場合には、この解析対象の通信先情報をブラックリストに登録し、以降の受信を回避する。また、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、解析対象の通信先情報の管理者とは異なる第三者によって管理されている場合であって、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、本解析装置１０の使用者が管理するものである場合には、例えば、ブランド力強化のために、解析対象の通信先情報に視覚的に類似する既知の通信先情報を他者に独占されないように、先取り等の手続きを進める。

［解析処理の処理手順］
次に、解析装置１０による解析処理の処理手順について説明する。図１２は、実施の形態に係る解析処理の処理手順を示すフローチャートである。

図１２に示すように、入力部１１が、解析対象の通信先情報（通信先）の入力を受け付けると（ステップＳ１）、変換部１２は、解析対象の通信先情報に含まれる部分文字列を画像に変換する（ステップＳ２）。

続いて、探索部１３は、変換部１２によって変換された画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、解析対象の通信先情報に視覚的に類似する既知の通信先情報を探索する（ステップＳ３）。

そして、識別部１４は、解析対象の通信先情報に視覚的に類似する既知の通信先情報の設定情報または登録情報を取得し、解析対象の通信先情報に視覚的に類似する既知の通信先情報が、解析対象の通信先情報と同一の管理者によって管理されているか、または、解析対象の通信先情報の管理者とは異なる第三者によって管理されているかを識別する（ステップＳ４）。

出力部１５は、出力部１５は、解析対象の通信先情報と、解析対象の通信先情報に視覚的に類似する既知の通信先情報との組み合わせに、識別部１４による識別結果を付して出力する（ステップＳ５）。

［実施の形態の効果］
このように、本実施の形態に係る解析装置１０は、解析対象の通信先情報の入力を受け付けると、通信先情報に含まれる部分文字列を画像に変換する。そして、解析装置１０は、変換した画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、通信先情報に視覚的に類似する既知の通信先情報を探索し、通信先情報と、通信先情報に視覚的に類似する既知の通信先情報との組み合わせを出力する。この結果、解析装置１０によれば、解析対象通信先に対して、予め類似文字列の変換表を用意することなく、解析対象の通信先情報に視覚的に類似する通信先情報を自動的に生成することができる。

また、解析装置１０は、解析対象の通信先情報から、登録可能或いは指定可能である領域を特定し、特定した領域の部分文字列を任意の区切り文字或いは任意の文字数で分割し、分割した文字列をそれぞれ画像に変換する。このため、解析装置１０によれば、解析対象の通信先情報のうち、攻撃者が、視覚的に類似する文字列を設定可能な領域を特定することによって、解析対象の通信先情報に視覚的に類似する通信先情報をより正確に抽出することができる。

また、解析装置１０は、変換した画像に対して光学文字認識を適用して画像に視覚的に類似する文字列を求め、解析対象の通信先情報に含まれる部分文字列と、部分文字列が変換された画像に視覚的に類似する文字列との組み合わせを変換表として抽出する。このため、解析装置１０によれば、事前に、予め類似文字列の変換表を用意せずとも、適切な変換表を、処理中に自動的に抽出することができる。

そして、解析装置１０は、変換表と既知の通信先情報の一覧とを参照し、解析対象の通信先情報に視覚的に類似する通信先情報を既知の通信先情報一覧から探索する。したがって、解析装置１０では、解析対象の通信先情報に視覚的に類似する通信先情報の候補を適切に探索できる。このため、解析装置１０によれば、解析対象の通信先情報が、解析対象通信先が既に存在する通信先情報のうち、どのような正規通信先或いはサービスを狙って生成されたのかを特定することができる。

さらに、解析装置１０は、通信先情報と、通信先情報に視覚的に類似する既知の通信先情報との組み合わせを基に、通信先情報に視覚的に類似する既知の通信先情報の設定情報または登録情報を取得する。そして、解析装置１０は、通信先情報に視覚的に類似する既知の通信先情報が、通信先情報と同一の管理者によって管理されているか、または、通信先情報の管理者とは異なる第三者によって管理されているかを識別する。

したがって、解析装置１０による解析結果を基に、解析対象の通信先情報が類似させようとした正規通信先を特定することや、解析対象の通信先情報がサイバー攻撃目的で生成されたものかを特定することができる。例えば、解析結果を用いることによって、解析対象の通信先情報がフィッシングに代表されるサイバー攻撃を目的として生成されたものかどうかを特定することができる。

［実施の形態のシステム構成について］
図１に示した解析装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、解析装置１０の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、解析装置１０において行われる各処理は、全部または任意の一部が、ＣＰＵ及びＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、解析装置１０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図１３は、プログラムが実行されることにより、解析装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、解析装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、解析装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。或いは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０解析装置
１１入力部
１２変換部
１３探索部
１４識別部
１５出力部

Claims

解析対象の通信先情報の入力を受け付ける入力部と、
前記通信先情報に含まれる部分文字列を画像に変換する変換部と、
前記変換部によって変換された画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、前記通信先情報に視覚的に類似する既知の通信先情報を探索する探索部と、
前記通信先情報と、前記通信先情報に視覚的に類似する既知の通信先情報との組み合わせを出力する出力部と、
を有し、
前記探索部は、前記変換部が変換した画像に対して光学文字認識を適用して前記画像に前記視覚的に類似する文字列を求め、前記解析対象の通信先情報に含まれる部分文字列と、前記部分文字列が変換された画像に前記視覚的に類似する文字列との組み合わせを変換表として抽出し、前記変換表と既知の通信先情報の一覧とを参照し、前記通信先情報に視覚的に類似する通信先情報を前記既知の通信先情報一覧から探索することを特徴とする解析装置。
前記変換部は、前記通信先情報から、登録可能或いは指定可能である領域を特定し、特定した領域の部分文字列を任意の区切り文字或いは任意の文字数で分割し、分割した文字列をそれぞれ画像に変換することを特徴とする請求項１に記載の解析装置。
前記通信先情報に視覚的に類似する既知の通信先情報の設定情報または登録情報を取得し、前記通信先情報に視覚的に類似する既知の通信先情報が、前記通信先情報と同一の管理者によって管理されているか、または、前記通信先情報の管理者とは異なる第三者によって管理されているかを識別する識別部をさらに有し、
前記出力部は、前記通信先情報と、前記通信先情報に視覚的に類似する既知の通信先情報との組み合わせに、前記識別部による識別結果を付して出力することを特徴とする請求項１または２に記載の解析装置。
解析装置が実行する解析方法であって、
解析対象の通信先情報の入力を受け付ける工程と、
前記通信先情報に含まれる部分文字列を画像に変換する工程と、
変換された画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、前記通信先情報に視覚的に類似する既知の通信先情報を探索する工程と、
前記通信先情報と、前記通信先情報に視覚的に類似する既知の通信先情報との組み合わせを出力する工程と、
を含み、
前記探索する工程は、前記変換する工程において変換された画像に対して光学文字認識を適用して前記画像に前記視覚的に類似する文字列を求め、前記解析対象の通信先情報に含まれる部分文字列と、前記部分文字列が変換された画像に前記視覚的に類似する文字列との組み合わせを変換表として抽出し、前記変換表と既知の通信先情報の一覧とを参照し、前記通信先情報に視覚的に類似する通信先情報を前記既知の通信先情報一覧から探索することを特徴とする解析方法。
解析対象の通信先情報の入力を受け付けるステップと、
前記通信先情報に含まれる部分文字列を画像に変換するステップと、
変換された画像に、視覚的に類似する文字列を求め、該求めた文字列を基に、前記通信先情報に視覚的に類似する既知の通信先情報を探索するステップと、
前記通信先情報と、前記通信先情報に視覚的に類似する既知の通信先情報との組み合わせを出力するステップと、
をコンピュータに実行させ、
前記探索するステップは、前記変換するステップにおいて変換された画像に対して光学文字認識を適用して前記画像に前記視覚的に類似する文字列を求め、前記解析対象の通信先情報に含まれる部分文字列と、前記部分文字列が変換された画像に前記視覚的に類似する文字列との組み合わせを変換表として抽出し、前記変換表と既知の通信先情報の一覧とを参照し、前記通信先情報に視覚的に類似する通信先情報を前記既知の通信先情報一覧から探索するための解析プログラム。